Spark：大數據集群計算的生産實踐 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:電子工業齣版社

作者:【美】Ilya Ganelin

出品人:

頁數:220

译者:李剛譯

出版時間:2017-5

價格:65

裝幀:平裝

isbn號碼:9787121313646

叢書系列:

圖書標籤:

大數據
Spark
DEV
大數據
Spark
集群計算
生産實踐
分布式係統
大數據處理
數據工程
高可用
性能優化
實戰

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到小美書屋

book.quotespace.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

《Spark：大數據集群計算的生産實踐》涵蓋瞭開發及維護生産級Spark應用的各種方法、組件與有用實踐。全書分為6章，第1 ~ 2章幫助讀者深入理解Spark的內部機製以及它們在生産流程中的含義；第3章和第5章闡述瞭針對配置參數的法則和權衡方案，用來調優Spark，改善性能，獲得高可用性和容錯性；第4章專門討論Spark應用中的安全問題；第6章則全麵介紹生産流，以及把一個應用遷移到一個生産工作流中時所需要的各種組件，同時對Spark生態係統進行瞭梳理。

《Spark：大數據集群計算的生産實踐》不會講述入門級內容，讀者在閱讀前應已具備Spark基本原理的知識。《Spark：大數據集群計算的生産實踐》適閤Spark開發人員、Spark應用的項目經理，以及那些考慮將開發的Spark應用程序遷移到生産環境的係統管理員（或者DevOps）閱讀。

著者簡介

Ilya Ganelin 從機器人專傢成功跨界成為一名數據工程師。他曾在密歇根大學花費數年時間研究自發現機器人（self-discovering robot），在波音公司從事手機及無綫嵌入式DSP（數據信號處理）軟件開發項目，隨後加入Capital One 的數據創新實驗室，由此進入大數據領域。Ilya是Apache Spark核心組件的活躍貢獻者以及Apache Apex的提交者（committer），他希望研究構建下一代分布式計算平颱。同時，Ilya還是一個狂熱的麵包烘焙師、廚師、賽車手和滑雪愛好者。

Ema Orhian 是一位對伸縮性算法充滿激情的大數據工程師。她活躍於大數據社區，組織會議，在會上發錶演講，積極投身於開源項目。她是jaws-spark-sql-rest（SparkSQL數據倉庫上的一種資源管理器）的主要提交者。Ema一直緻力於將大數據分析引入醫療領域，開發一個對大型數據集計算統計指標的端到端的管道。

Kai Sasaki 是一位日本軟件工程師，對分布式計算和機器學習很感興趣。但是一開始他並未從事Hadoop或Spark相關的工作，他最初的興趣是中間件以及提供這些服務的基礎技術，是互聯網驅使他轉嚮大數據技術領域。Kai一直是Spark的貢獻者，開發瞭不少MLlib和ML庫。如今，他正嘗試研究將機器學習和大數據結閤起來。他相信Spark在大數據時代的人工智能領域也將扮演重要角色。他的GitHub地址為：https://github.com/Lewuathe。

Brennon York既是一名特技飛行員，也是一位計算機科學傢。他的愛好是分布式計算、可擴展架構以及編程語言。自2014年以來，他就是Apache Spark的核心貢獻者，目標是通過發展GraphX和核心編譯環境，培育一個更強大的Spark社區，激發更多閤作。從為Spark提交貢獻開始，York就一直在用Spark，而且從那個時候開始，就使用Spark將應用帶入生産環境。

圖書目錄

第1章成功運行Spark job 1
安裝所需組件 2
-- 原生安裝Spark Standalone集群 3
分布式計算的發展史 3
-- 步入雲時代 5
-- 理解資源管理 6
使用各種類型的存儲格式 9
-- 文本文件 11
-- Sequence文件 13
-- Avro文件 13
-- Parquet文件 13
監控和度量的意義 14
-- Spark UI 14
-- Spark Standalone UI 17
-- Metrics REST API 17
-- Metrics System 18
-- 外部監控工具 18
總結 19
第2章集群管理 21
背景知識 23
Spark組件 26
-- Driver 27
-- workers與executors 28
-- 配置 30
Spark Standalone 33
-- 架構 34
-- 單節點設置場景 34
-- 多節點設置 36
YARN 36
-- 架構 38
-- 動態資源分配 41
-- 場景 43
Mesos 45
-- 安裝 46
-- 架構 47
-- 動態資源分配 49
-- 基本安裝場景 50
比較 52
總結 56
第3章性能調優 59
Spark 執行模型 60
分區 62
-- 控製並行度 62
-- 分區器 64
shuffle數據 65
-- shuffle與數據分區 67
-- 算子與shuffle 70
-- shuffle並不總是壞事 75
序列化 75
-- Kryo注冊器 77
Spark緩存 77
-- SparkSQL 緩存 81
內存管理 82
-- 垃圾迴收 83
共享變量 84
-- 廣播變量 85
-- 纍加器 87
數據局部性 90
總結 91
第4章安全 93
架構 94
-- Security Manager 94
-- 設定配置 95
ACL 97
-- 配置 97
-- 提交job 98
-- Web UI 99
網絡安全 107
加密 108
事件日誌 113
Kerberos 114
Apache Sentry 114
總結 115
第5章容錯或job執行 117
Spark job的生命周期 118
-- Spark master 119
-- Spark driver 122
-- Spark worker 124
-- job生命周期 124
job調度 125
-- 應用程序內部調度 125
-- 用外部工具進行調度 133
容錯 135
-- 內部容錯與外部容錯 136
-- SLA 137
-- RDD 138
-- Batch vs Streaming 145
-- 測試策略 148
-- 推薦配置 155
總結 158
第6章超越Spark 159
數據倉庫 159
-- SparkSQL CLI 161
-- Thrift JDBC/ODBC服務器 162
-- Hive on Spark 162
機器學習 164
-- DataFrame 165
-- MLlib和ML 167
-- Mahout on Spark 174
-- Hivemall On Spark 175
外部的框架 176
-- Spark Package 177
-- XGBoost 179
-- spark-jobserver 179
未來的工作 182
-- 與參數服務器集成 184
-- 深度學習 192
Spark在企業中的應用 200
-- 用Spark及Kafka收集用戶活動日誌 200
-- 用Spark做實時推薦 202
-- Twitter Bots的實時分類 204
總結 205
· · · · · · (收起)