Spark大數據處理：技術、應用與性能優化 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:機械工業齣版社

作者:高彥傑

出品人:

頁數:268

译者:

出版時間:2014-11

價格:59.00

裝幀:平裝

isbn號碼:9787111483861

叢書系列:大數據技術叢書

圖書標籤:

大數據
spark
Spark
性能優化
計算機
Scala
編程
數據處理
Spark
大數據
處理
技術
應用
性能
優化
分布式
雲計算
數據科學

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到小美書屋

book.quotespace.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

《Spark大數據處理：技術、應用與性能優化》根據最新技術版本，係統、全麵、詳細講解Spark的各項功能使用、原理機製、技術細節、應用方法、性能優化，以及BDAS生態係統的相關技術。

作為一個基於內存計算的大數據並行計算框架，Spark不僅很好地解決瞭數據的實時處理問題，而且保證瞭高容錯性和高可伸縮性。具體來講，它有如下優勢：

打造全棧多計算範式的高效數據流水綫

輕量級快速處理

易於使用，支持多語言

與HDFS等存儲層兼容

社區活躍度高

……

Spark已經在全球範圍內廣泛使用，無論是Intel、Yahoo!、Twitter、阿裏巴巴、百度、騰訊等國際互聯網巨頭，還是一些尚處於成長期的小公司，都在使用Spark。本書作者結閤自己在微軟和IBM實踐Spark的經曆和經驗，編寫瞭這本書。站著初學者的角度，不僅係統、全麵地講解瞭Spark的各項功能及其使用方法，而且較深入地探討瞭Spark的工作機製、運行原理以及BDAS生態係統中的其他技術，同時還有一些可供操作的案例，能讓沒有經驗的讀者迅速掌握Spark。更為重要的是，本書還對Spark的性能優化進行瞭探討。

著者簡介

高彥傑　畢業於中國人民大學，就職於IBM，精通Hadoop相關技術，較早接觸並使用Spark，對Spark應用開發、Spark係統的運維和測試比較熟悉，深度閱讀瞭Spark的源代碼，瞭解Spark的運行機製，擅長Spark的查詢優化。

圖書目錄

前　言
第1章　Spark簡介 1
1.1　Spark是什麼 1
1.2　Spark生態係統BDAS 4
1.3　Spark架構 6
1.4　Spark分布式架構與單機多核
架構的異同 9
1.5　Spark的企業級應用 10
1.5.1　Spark在Amazon中的應用 11
1.5.2　Spark在Yahoo!的應用 15
1.5.3　Spark在西班牙電信的應用 17
1.5.4　Spark在淘寶的應用 18
1.6　本章小結 20
第2章　Spark集群的安裝與部署 21
2.1　Spark的安裝與部署 21
2.1.1　在Linux集群上安裝與配置Spark 21
2.1.2　在Windows上安裝與配置Spark 30
2.2　Spark集群初試 33
2.3　本章小結 35
第3章　Spark計算模型 36
3.1　Spark程序模型 36
3.2　彈性分布式數據集 37
3.2.1　RDD簡介 38
3.2.2　RDD與分布式共享內存的異同 38
3.2.3　Spark的數據存儲 39
3.3　Spark算子分類及功能 41
3.3.1　Value型Transformation算子 42
3.3.2　Key-Value型Transformation算子 49
3.3.3　Actions算子 53
3.4　本章小結 59
第4章　Spark工作機製詳解 60
4.1　Spark應用執行機製 60
4.1.1　Spark執行機製總覽 60
4.1.2　Spark應用的概念 62
4.1.3　應用提交與執行方式 63
4.2　Spark調度與任務分配模塊 65
4.2.1　Spark應用程序之間的調度 66
4.2.2　Spark應用程序內Job的調度 67
4.2.3　Stage和TaskSetManager調度方式 72
4.2.4　Task調度 74
4.3　Spark I/O機製 77
4.3.1　序列化 77
4.3.2　壓縮 78
4.3.3　Spark塊管理 80
4.4　Spark通信模塊 93
4.4.1　通信框架AKKA 94
4.4.2　Client、Master和Worker間的通信 95
4.5　容錯機製 104
4.5.1　Lineage機製 104
4.5.2　Checkpoint機製 108
4.6　Shuffle機製 110
4.7　本章小結 119
第5章　Spark開發環境配置及流程 120
5.1　Spark應用開發環境配置 120
5.1.1　使用Intellij開發Spark程序 120
5.1.2　使用Eclipse開發Spark程序 125
5.1.3　使用SBT構建Spark程序 129
5.1.4　使用Spark Shell開發運行Spark程序 130
5.2　遠程調試Spark程序 130
5.3　Spark編譯 132
5.4　配置Spark源碼閱讀環境 135
5.5　本章小結 135
第6章　Spark編程實戰 136
6.1　WordCount 136
6.2　Top K 138
6.3　中位數 140
6.4　倒排索引 141
6.5　CountOnce 143
6.6　傾斜連接 144
6.7　股票趨勢預測 146
6.8　本章小結 153
第7章　Benchmark使用詳解 154
7.1　Benchmark簡介 154
7.1.1　Intel Hibench與Berkeley BigDataBench 155
7.1.2　Hadoop GridMix 157
7.1.3　Bigbench、BigDataBenchmark與TPC-DS 158
7.1.4　其他Benchmark 161
7.2　Benchmark的組成 162
7.2.1　數據集 162
7.2.2　工作負載 163
7.2.3　度量指標 167
7.3　Benchmark的使用 168
7.3.1　使用Hibench 168
7.3.2　使用TPC-DS 170
7.3.3　使用BigDataBench 172
7.4　本章小結 176
第8章　BDAS簡介 177
8.1　SQL on Spark 177
8.1.1　使用Spark SQL的原因 178
8.1.2　Spark SQL架構分析 179
8.1.3　Shark簡介 182
8.1.4　Hive on Spark 184
8.1.5　未來展望 185
8.2　Spark Streaming 185
8.2.1　Spark Streaming簡介 186
8.2.2　Spark Streaming架構 188
8.2.3　Spark Streaming原理剖析 189
8.2.4　Spark Streaming調優 198
8.2.5　Spark Streaming 實例 198
8.3　GraphX 205
8.3.1　GraphX簡介 205
8.3.2　GraphX的使用 206
8.3.3　GraphX架構 209
8.3.4　運行實例 211
8.4　MLlib 215
8.4.1　MLlib簡介 217
8.4.2　MLlib的數據存儲 219
8.4.3　數據轉換為嚮量（嚮量空間模型VSM） 222
8.4.4　MLlib中的聚類和分類 223
8.4.5　算法應用實例 228
8.4.6　利用MLlib進行電影推薦 230
8.5　本章小結 237
第9章　Spark性能調優 238
9.1　配置參數 238
9.2　調優技巧 239
9.2.1　調度與分區優化 240
9.2.2　內存存儲優化 243
9.2.3　網絡傳輸優化 249
9.2.4　序列化與壓縮 251
9.2.5　其他優化方法 253
9.3　本章小結 255
· · · · · · (收起)