Spark:原理、機製及應用 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:機械工業齣版社

作者:符積高

出品人:

頁數:264

译者:

出版時間:2016-3-1

價格:49.00元

裝幀:平裝

isbn號碼:9787111529286

叢書系列:大數據科學叢書

圖書標籤:

大數據
spark
入門級
數據平颱
數據分析
Spark
Buy
Spark
大數據
分布式計算
數據處理
數據分析
機器學習
實時計算
Scala
Python
Java

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到小美書屋

book.quotespace.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

Spark是一個高效的分布式計算係統，相比Hadoop，它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上層的API，同樣的算法在Spark中實現往往隻有Hadoop的1/10或者1/100的長度。

Spark較大的集群來自騰訊——8000個節點，而單個較大的Job分彆是阿裏巴巴和Databricks——1PB，震撼人心！同時，截止2015年6月，Spark的Contributor比2014年漲瞭3倍，達到730人；總代碼行數也比2014年漲瞭2倍多，達到40萬行。

本書是國內（包括Github社區）較新的基於Spark 1.4版本的技術書籍，涵蓋Spark技術的環境搭建、RDD實操應用、內部機製、調優和企業應用等內容，具體如下。

1）基於IntelliJ IDEA的運行、開發和編譯環境的詳細搭建過程。

2）詳細介紹Spark技術基礎概念和應用實踐。

3）基於Spark 1.4官方文檔對Spark四大應用框架進行解讀。

4）基於源碼深入剖析Spark的資源調度、任務調度和shuffle過程。

5）深入解讀近兩年Spark峰會和國內企業分享的典型應用案例。

本書的編寫係統完整，力爭以通俗易懂的語言全方位精細解讀Spark技術，本書主要針對大數據技術初學者，包括但不限於大學生、研究生和工程師。此外，Spark應用開發人員、運維工程師和開源軟件愛好者也可以將本書作為參考用書。

本書共分為概念、開發、機製和應用四篇，概念篇介紹Spark的背景概念和環境配置方法，開發篇介紹瞭Spark核心開發、四大應用框架和調優策略，機製篇則對Spark的RDD、調度和shuffle等機製進行解讀，應用篇針對Spark在業界的典型應用進行闡述。

著者簡介

劉馳，博士，現任北京理工大學軟件學院教授，軟件服務工程係係主任。入選“北京理工大學傑齣中青年支持與發展計劃”。主持瞭國傢自然科學基金、工信部電子商務集成試點工程等多項國傢省部級重點項目。分彆於清華大學和英國帝國理工學院獲得學士和博士學位，後曆任德國電信研究院（柏林）博士後研究員、美國IBM TJ Watson研究中心研究員和IBM中國研究院研究主管。研究方嚮為：物聯網、雲計算和大數據技術。

圖書目錄

前言
第一篇概念篇
第1章Spark概述
1.1Spark初見
1.1.1Spark的發展史及近況
1.1.2Spark的特點
1.1.3Spark的作用
1.1.4Spark的體係結構
1.1.5Spark的發展趨勢
1.2Spark框架
1.2.1批處理框架
1.2.2流處理框架
1.3Spark的生態係統
1.4Spark的數據存儲
1.5本章小結
第2章Spark環境配置
2.1Spark運行環境配置
2.1.1先決條件
2.1.2下載與運行Spark
2.1.3使用交互式Shell
2.1.4搭建Spark Standalone集群
2.2Spark開發環境配置
2.2.1Spark獨立應用程序
2.2.2構建IDE開發環境
2.3Spark編譯環境配置
2.3.1使用Maven編譯項目源碼
2.3.2使用IDEA搭建源碼編譯與閱讀環境
2.4本章小結
第二篇開發篇
第3章Spark核心開發
3.1Spark編程模型概述
3.2SparkContext
3.2.1SparkContext的作用
3.2.2SparkContext的創建
3.2.3使用Shell
3.2.4應用實踐
3.3RDD簡介
3.3.1RDD創建
3.3.2RDD轉換操作
3.3.3RDD動作操作
3.3.4RDD惰性計算
3.3.5RDD持久化
3.3.6RDD檢查點
3.4共享變量
3.4.1廣播變量
3.4.2纍加器
3.5Spark核心開發實踐
3.5.1單值型Trasnformation算子
3.5.2鍵值對型Transformation算子
3.5.3Action算子
3.6本章小結
第4章Spark四大應用技術框架
4.1Spark SQL
4.1.1Spark SQL入門
4.1.2數據源
4.1.3性能調優
4.1.4分布式SQL引擎
4.1.5Shark遷移至SparkSQL指南
4.1.6Hive的兼容性
4.1.7Spark SQL數據類型
4.2Spark Streaming
4.2.1Spark Streaming簡介
4.2.2入門實例
4.2.3基本概念
4.3Spark GraphX
4.3.1Spark GraphX簡介
4.3.2屬性圖
4.3.3圖操作
4.3.4Pregel API
4.3.5圖構造器
4.3.6頂點與邊相關RDD
4.3.7最優化錶示
4.3.8圖算法
4.3.9Ex鋤ple
4.4Spark Mllib
4.4.1Spark Mllib簡介
4.4.2數據類型
4.4.3基本統計分析
4.4.4分類與迴歸
4.4.5協同過濾
4.4.6聚類
4.4.7降維
4.4.8特徵提取與轉換
4.4.9頻繁模式挖掘
4.4.10最優化算法
4.4.11導齣PMMl模式
4.5SparkR
4.5.1SparkR DataFrame
4.5.2DataFrame的相關操作
4.5.3從SparkR運行SQL查詢
第5章Spark係統配置與調優
5.1Spark運行監控
5.2Spark配置參數
5.2.1應用屬性
5.2.2運行環境屬性
5.2.3Shuffle操作屬性
5.2.4壓縮與序列化屬性
5.2.5數據序列化
5.3內存調優
5.3.1調整數據結構
5.3.2序列化RDD存儲
5.3.3GC
5.4其他調優
5.4.1並行度
5.4.2Reduce任務
5.4.3廣播變量
5.4.4數據本地化
5.4.5網絡通信調優
5.4.6磁盤空間優化
5.4.7任務執行速度“傾斜”
5.5本童小結
第三篇機製篇
第6章RDD內部結構
6.1RDD接口
6.2分區
6.2.1分區接口
6.2.2分區個數
6.2.3分區內部的記錄個數
6.3依賴關係
6.3.1依賴與RDD
6.3.2依賴分類
6.3.3窄依賴
6.3.4Shuffle依賴
6.3.5依賴與容錯機製
6.3.6依賴與並行計算
6.4計算函數
6.4.1compute方法
6.4.2iterator方法
6.5分區器
6.5.1哈希分區器
6.5.2範圍分區器
6.5.3默認分區器
6.6持久化
6.7檢查點
6.8本章小結
第7章Spark調度機製
7.1調度基礎
7.1.1基本概念
7.1.2通信框架
7.2集群資源調度
7.2.1集群部署圖
7.2.2集群資源注冊
7.2.3集群資源申請與分配
7.3DAG調度
7.3.1DAG調度通信機製
7.3.2作業處理流程
7.3.3階段劃分
7.4任務調度
7.4.1任務分類與執行
7.4.2任務劃分與提交
7.4.3任務調度算法
7.4.4任務調度相關類
7.4.5任務分配
7.4.6任務接收與執行
7.5本章小結
第8章Shuffle過程
8.1與Hadoop Shuffle過程的區彆
8.1.1MR模型的Shuffle過程
8.1.2聚閤器
8.1.3哈希Shuffle與排序Shuffle
8.1.4Spark的Shufne過程
8.2Shume寫過程
8.2.1哈希Shuffle寫過程
8.2.2排序Shuffle寫過程
8.3Shume讀過程
8.4本章小結
第四篇應用篇
第9章視頻娛樂領域
9.1騰訊公司在Hadoop和Spark平颱上的應用
9.1.1公司背景特點
9.1.2業務需求
9.1.3解決方案
9.1.4方案效果
9.1.5小結
9.2Spotify公司在Hadoop和Spark平颱AlS算法的運行時間對比
9.2.1公司背景特點
9.2.2業務需求
9.2.3解決方案
9.2.4方案效果
9.2.5小結
9.3本章小結
第10章電商領域
10.1淘寶公司在Spark平颱上對GraphX與Bagel的運行效果對比
10.1.1公司背景特點
10.1.2業務需求
10.1.3解決方案
10.1.4方案效果
10.1.5小結
10.2Yahoo！關於Hive與Shark的應用
10.2.1公司背景特點
10.2.2業務需求
10.2.3解決方案
10.2.4方案效果
10.2.5小結
10.3本章小結
第11章電信領域
11.1Telefonica應用Spark和Cassandra方案解決多用戶事務查詢
11.1.1公司背景特點
11.1.2業務需求
11.1.3解決方案
11.1.4方案效果
11.1.5小結
11.2NTTDATA對Spark on YARN架構各項性能測試分析
11.2.1公司背景特點
11.2.2業務需求
11.2.3解決方案
11.2.4方案效果
11.2.5小結
11.3本章小結
第12章零售領域
12.1Euclid Analysis基於Spark的地理位置分析服務
12.1.1公司背景特點
12.1.2業務需求
12.1.3解決方案
12.1.4方案效果
12.1.5小結
12.2Graphflow應用Spark Mllib進行實時個性化推薦
12.2.1公司背景特點
12.2.2業務需求
12.2.3解決方案
12.2.4方案效果
12.2.5小結
12.3本章小結
第13章其他領域
13.1Uber基於Spark的私傢車搭乘服務
13.1.1公司背景特點
13.1.2業務需求
13.1.3解決方案
13.1.4方案效果
13.1.5小結
13.2PubMatic應用Spark提供廣告服務
13.2.1公司背景特點
13.2.2業務需求
13.2.3解決方案
13.2.4方案效果
13.2.5小結
13.3本章小結
· · · · · · (收起)