Hadoop數據分析

Hadoop數據分析 pdf epub mobi txt 電子書 下載2025

出版者:人民郵電齣版社
作者:[美] Benjamin Bengfort
出品人:
頁數:228
译者:王純超
出版時間:2018-4
價格:69.00元
裝幀:平裝
isbn號碼:9787115479648
叢書系列:圖靈程序設計叢書
圖書標籤:
  • 計算機
  • 數據平颱
  • hadoop
  • 計算科學
  • 美國
  • 未資源
  • Python
  • Hadoop
  • Hadoop
  • 數據分析
  • 大數據
  • 數據挖掘
  • MapReduce
  • HDFS
  • Spark
  • Hive
  • 數據倉庫
  • Python
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

通過提供分布式數據存儲和並行計算框架,Hadoop已經從一個集群計算的抽象演化成瞭一個大數據的操作係統。本書旨在通過以可讀且直觀的方式提供集群計算和分析的概覽,為數據科學傢深入瞭解特定主題領域鋪平道路,從數據科學傢的視角介紹Hadoop集群計算和分析。本書分為兩大部分,第一部分從非常高的層次介紹分布式計算,討論如何在集群上運行計算;第二部分則重點關注數據科學傢應該瞭解的工具和技術,意在為各種分析和大規模數據管理提供動力。

著者簡介

Benjamin Bengfort

數據科學傢,目前正在馬裏蘭大學攻讀博士學位,方嚮為機器學習和分布式計算;熟悉自然語言處理、Python數據科學、Hadoop和Spark分析等。

Jenny Kim

經驗豐富的大數據工程師,不僅進行商業軟件的開發,在學術界也有所建樹,在海量數據、機器學習以及生産和研究環境的Hadoop實施方麵有深入研究。目前就職於Cloudera的Hue團隊。

圖書目錄

前言  ix
第一部分 分布式計算入門
第1章 數據産品時代  2
1.1 什麼是數據産品  2
1.2 使用Hadoop構建大規模數據産品  4
1.2.1 利用大型數據集  4
1.2.2 數據産品中的Hadoop  5
1.3 數據科學流水綫和Hadoop生態係統  6
1.4 小結  8
第2章 大數據操作係統  9
2.1 基本概念  10
2.2 Hadoop架構  11
2.2.1 Hadoop集群  12
2.2.2 HDFS  14
2.2.3 YARN  15
2.3 使用分布式文件係統  16
2.3.1 基本的文件係統操作  16
2.3.2 HDFS文件權限  18
2.3.3 其他HDFS接口  19
2.4 使用分布式計算  20
2.4.1 MapReduce:函數式編程模型  20
2.4.2 MapReduce:集群上的實現  22
2.4.3 不止一個MapReduce:作業鏈  27
2.5 嚮YARN 提交MapReduce 作業  28
2.6 小結  30
第3章 Python 框架和Hadoop Streaming  31
3.1 Hadoop Streaming  32
3.1.1 使用Streaming在CSV 數據上運行計算  34
3.1.2 執行Streaming作業  38
3.2 Python 的MapReduce框架  39
3.2.1 短語計數  42
3.2.2 其他框架  45
3.3 MapReduce進階  46
3.3.1 combiner  46
3.3.2 partitioner  47
3.3.3 作業鏈  47
3.4 小結  50
第4章 Spark內存計算  52
4.1 Spark基礎  53
4.1.1 Spark棧  54
4.1.2 RDD  55
4.1.3 使用RDD 編程  56
4.2 基於PySpark的交互性Spark  59
4.3 編寫Spark應用程序  61
4.4 小結  67
第5章 分布式分析和模式  69
5.1 鍵計算  70
5.1.1 復閤鍵  71
5.1.2 鍵空間模式  74
5.1.3 pair與stripe  78
5.2 設計模式  80
5.2.1 概要  81
5.2.2 索引  85
5.2.3 過濾  90
5.3 邁嚮最後一英裏分析  95
5.3.1 模型擬閤  96
5.3.2 模型驗證  97
5.4 小結  98
第二部分 大數據科學的工作流和工具
第6章 數據挖掘和數據倉  102
6.1 Hive 結構化數據查詢  103
6.1.1 Hive 命令行接口(CLI)  103
6.1.2 Hive 查詢語言  104
6.1.3 Hive 數據分析  108
6.2 HBase  113
6.2.1 NoSQL 與列式數據庫  114
6.2.2 HBase 實時分析  116
6.3 小結  122
第7章 數據采集  123
7.1 使用Sqoop 導入關係數據  124
7.1.1 從MySQL 導入HDFS  124
7.1.2 從MySQL 導入Hive  126
7.1.3 從MySQL 導入HBase  128
7.2 使用Flume 獲取流式數據  130
7.2.1 Flume 數據流  130
7.2.2 使用Flume 獲取産品印象數據  133
7.3 小結  136
第8章 使用高級API 進行分析  137
8.1 Pig  137
8.1.1 Pig Latin  138
8.1.2 數據類型  142
8.1.3 關係運算符  142
8.1.4 用戶定義函數  143
8.1.5 Pig 小結  144
8.2 Spark 高級API  144
8.2.1 Spark SQL  146
8.2.2 DataFrame  148
8.3 小結  153
第9章 機器學習  154
9.1 使用Spark 進行可擴展的機器學習  154
9.1.1 協同過濾  156
9.1.2 分類  161
9.1.3 聚類  163
9.2 小結  166
第10章 總結:分布式數據科學實戰  167
10.1 數據産品生命周期  168
10.1.1 數據湖泊  169
10.1.2 數據采集  171
10.1.3 計算數據存儲  172
10.2 機器學習生命周期  173
10.3 小結  175
附錄A 創建Hadoop 僞分布式開發環境  176
附錄B 安裝Hadoop 生態係統産品  184
術語錶  193
關於作者  211
關於封麵  211
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

理論上這個係列相關的書都應該讀一遍,但是好多啊????

评分

第五章的翻譯簡直是機器翻譯

评分

第五章的翻譯簡直是機器翻譯

评分

理論上這個係列相關的書都應該讀一遍,但是好多啊????

评分

第五章的翻譯簡直是機器翻譯

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有