Spark大數據處理:技術、應用與性能優化

Spark大數據處理:技術、應用與性能優化 pdf epub mobi txt 電子書 下載2025

出版者:機械工業齣版社
作者:高彥傑
出品人:
頁數:268
译者:
出版時間:2014-11
價格:59.00
裝幀:平裝
isbn號碼:9787111483861
叢書系列:大數據技術叢書
圖書標籤:
  • 大數據
  • spark
  • Spark
  • 性能優化
  • 計算機
  • Scala
  • 編程
  • 數據處理
  • Spark
  • 大數據
  • 處理
  • 技術
  • 應用
  • 性能
  • 優化
  • 分布式
  • 雲計算
  • 數據科學
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

《Spark大數據處理:技術、應用與性能優化》根據最新技術版本,係統、全麵、詳細講解Spark的各項功能使用、原理機製、技術細節、應用方法、性能優化,以及BDAS生態係統的相關技術。

作為一個基於內存計算的大數據並行計算框架,Spark不僅很好地解決瞭數據的實時處理問題,而且保證瞭高容錯性和高可伸縮性。具體來講,它有如下優勢:

打造全棧多計算範式的高效數據流水綫

輕量級快速處理

易於使用,支持多語言

與HDFS等存儲層兼容

社區活躍度高

……

Spark已經在全球範圍內廣泛使用,無論是Intel、Yahoo!、Twitter、阿裏巴巴、百度、騰訊等國際互聯網巨頭,還是一些尚處於成長期的小公司,都在使用Spark。本書作者結閤自己在微軟和IBM實踐Spark的經曆和經驗,編寫瞭這本書。站著初學者的角度,不僅係統、全麵地講解瞭Spark的各項功能及其使用方法,而且較深入地探討瞭Spark的工作機製、運行原理以及BDAS生態係統中的其他技術,同時還有一些可供操作的案例,能讓沒有經驗的讀者迅速掌握Spark。更為重要的是,本書還對Spark的性能優化進行瞭探討。

著者簡介

高彥傑 畢業於中國人民大學,就職於IBM,精通Hadoop相關技術,較早接觸並使用Spark,對Spark應用開發、Spark係統的運維和測試比較熟悉,深度閱讀瞭Spark的源代碼,瞭解Spark的運行機製,擅長Spark的查詢優化。

圖書目錄

前 言
第1章 Spark簡介 1
1.1 Spark是什麼 1
1.2 Spark生態係統BDAS 4
1.3 Spark架構 6
1.4 Spark分布式架構與單機多核
架構的異同 9
1.5 Spark的企業級應用 10
1.5.1 Spark在Amazon中的應用 11
1.5.2 Spark在Yahoo!的應用 15
1.5.3 Spark在西班牙電信的應用 17
1.5.4 Spark在淘寶的應用 18
1.6 本章小結 20
第2章 Spark集群的安裝與部署 21
2.1 Spark的安裝與部署 21
2.1.1 在Linux集群上安裝與配置Spark 21
2.1.2 在Windows上安裝與配置Spark 30
2.2 Spark集群初試 33
2.3 本章小結 35
第3章 Spark計算模型 36
3.1 Spark程序模型 36
3.2 彈性分布式數據集 37
3.2.1 RDD簡介 38
3.2.2 RDD與分布式共享內存的異同 38
3.2.3 Spark的數據存儲 39
3.3 Spark算子分類及功能 41
3.3.1 Value型Transformation算子 42
3.3.2 Key-Value型Transformation算子 49
3.3.3 Actions算子 53
3.4 本章小結 59
第4章 Spark工作機製詳解 60
4.1 Spark應用執行機製 60
4.1.1 Spark執行機製總覽 60
4.1.2 Spark應用的概念 62
4.1.3 應用提交與執行方式 63
4.2 Spark調度與任務分配模塊 65
4.2.1 Spark應用程序之間的調度 66
4.2.2 Spark應用程序內Job的調度 67
4.2.3 Stage和TaskSetManager調度方式 72
4.2.4 Task調度 74
4.3 Spark I/O機製 77
4.3.1 序列化 77
4.3.2 壓縮 78
4.3.3 Spark塊管理 80
4.4 Spark通信模塊 93
4.4.1 通信框架AKKA 94
4.4.2 Client、Master和Worker間的通信 95
4.5 容錯機製 104
4.5.1 Lineage機製 104
4.5.2 Checkpoint機製 108
4.6 Shuffle機製 110
4.7 本章小結 119
第5章 Spark開發環境配置及流程 120
5.1 Spark應用開發環境配置 120
5.1.1 使用Intellij開發Spark程序 120
5.1.2 使用Eclipse開發Spark程序 125
5.1.3 使用SBT構建Spark程序 129
5.1.4 使用Spark Shell開發運行Spark程序 130
5.2 遠程調試Spark程序 130
5.3 Spark編譯 132
5.4 配置Spark源碼閱讀環境 135
5.5 本章小結 135
第6章 Spark編程實戰 136
6.1 WordCount 136
6.2 Top K 138
6.3 中位數 140
6.4 倒排索引 141
6.5 CountOnce 143
6.6 傾斜連接 144
6.7 股票趨勢預測 146
6.8 本章小結 153
第7章 Benchmark使用詳解 154
7.1 Benchmark簡介 154
7.1.1 Intel Hibench與Berkeley BigDataBench 155
7.1.2 Hadoop GridMix 157
7.1.3 Bigbench、BigDataBenchmark與TPC-DS 158
7.1.4 其他Benchmark 161
7.2 Benchmark的組成 162
7.2.1 數據集 162
7.2.2 工作負載 163
7.2.3 度量指標 167
7.3 Benchmark的使用 168
7.3.1 使用Hibench 168
7.3.2 使用TPC-DS 170
7.3.3 使用BigDataBench 172
7.4 本章小結 176
第8章 BDAS簡介 177
8.1 SQL on Spark 177
8.1.1 使用Spark SQL的原因 178
8.1.2 Spark SQL架構分析 179
8.1.3 Shark簡介 182
8.1.4 Hive on Spark 184
8.1.5 未來展望 185
8.2 Spark Streaming 185
8.2.1 Spark Streaming簡介 186
8.2.2 Spark Streaming架構 188
8.2.3 Spark Streaming原理剖析 189
8.2.4 Spark Streaming調優 198
8.2.5 Spark Streaming 實例 198
8.3 GraphX 205
8.3.1 GraphX簡介 205
8.3.2 GraphX的使用 206
8.3.3 GraphX架構 209
8.3.4 運行實例 211
8.4 MLlib 215
8.4.1 MLlib簡介 217
8.4.2 MLlib的數據存儲 219
8.4.3 數據轉換為嚮量(嚮量空間模型VSM) 222
8.4.4 MLlib中的聚類和分類 223
8.4.5 算法應用實例 228
8.4.6 利用MLlib進行電影推薦 230
8.5 本章小結 237
第9章 Spark性能調優 238
9.1 配置參數 238
9.2 調優技巧 239
9.2.1 調度與分區優化 240
9.2.2 內存存儲優化 243
9.2.3 網絡傳輸優化 249
9.2.4 序列化與壓縮 251
9.2.5 其他優化方法 253
9.3 本章小結 255
· · · · · · (收起)

讀後感

評分

有误,比如join,spark中的join是inner join,书中对着源码讲成了outer join.. 跑题,花了大量篇幅在FIFO,HASHMap的原理上... 以上 不过很多地方还是很详细的,而且通俗易懂  

評分

有误,比如join,spark中的join是inner join,书中对着源码讲成了outer join.. 跑题,花了大量篇幅在FIFO,HASHMap的原理上... 以上 不过很多地方还是很详细的,而且通俗易懂  

評分

有误,比如join,spark中的join是inner join,书中对着源码讲成了outer join.. 跑题,花了大量篇幅在FIFO,HASHMap的原理上... 以上 不过很多地方还是很详细的,而且通俗易懂  

評分

豆瓣的得分充分说明了问题,书不好,错误挺多的,说明作者一是不认真不尊重知识,二是水平格局有限。如果想深入了解而不被误导,不要读这本书了,误人子弟。

評分

有误,比如join,spark中的join是inner join,书中对着源码讲成了outer join.. 跑题,花了大量篇幅在FIFO,HASHMap的原理上... 以上 不过很多地方还是很详细的,而且通俗易懂  

用戶評價

评分

錯誤有點多 居然沒有找到網上勘誤

评分

2016 NO.7 還是有不少收獲的,要是用 Java 代碼就好瞭

评分

章節的安排,先難後易,拋齣一大堆概念和原理。。有點譚浩強,太不注重實踐瞭

评分

淺入淺齣……

评分

比王傢林什麼的好太多瞭。

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有