Spark:大數據集群計算的生産實踐

Spark:大數據集群計算的生産實踐 pdf epub mobi txt 電子書 下載2025

出版者:電子工業齣版社
作者:【美】Ilya Ganelin
出品人:
頁數:220
译者:李剛 譯
出版時間:2017-5
價格:65
裝幀:平裝
isbn號碼:9787121313646
叢書系列:
圖書標籤:
  • 大數據
  • Spark
  • DEV
  • 大數據
  • Spark
  • 集群計算
  • 生産實踐
  • 分布式係統
  • 大數據處理
  • 數據工程
  • 高可用
  • 性能優化
  • 實戰
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

《Spark:大數據集群計算的生産實踐》涵蓋瞭開發及維護生産級Spark應用的各種方法、組件與有用實踐。全書分為6章,第1 ~ 2章幫助讀者深入理解Spark的內部機製以及它們在生産流程中的含義;第3章和第5章闡述瞭針對配置參數的法則和權衡方案,用來調優Spark,改善性能,獲得高可用性和容錯性;第4章專門討論Spark應用中的安全問題;第6章則全麵介紹生産流,以及把一個應用遷移到一個生産工作流中時所需要的各種組件,同時對Spark生態係統進行瞭梳理。

《Spark:大數據集群計算的生産實踐》不會講述入門級內容,讀者在閱讀前應已具備Spark基本原理的知識。《Spark:大數據集群計算的生産實踐》適閤Spark開發人員、Spark應用的項目經理,以及那些考慮將開發的Spark應用程序遷移到生産環境的係統管理員(或者DevOps)閱讀。

著者簡介

Ilya Ganelin 從機器人專傢成功跨界成為一名數據工程師。他曾在密歇根大學花費數年時間研究自發現機器人(self-discovering robot),在波音公司從事手機及無綫嵌入式DSP(數據信號處理)軟件開發項目,隨後加入Capital One 的數據創新實驗室,由此進入大數據領域。Ilya是Apache Spark核心組件的活躍貢獻者以及Apache Apex的提交者(committer),他希望研究構建下一代分布式計算平颱。同時,Ilya還是一個狂熱的麵包烘焙師、廚師、賽車手和滑雪愛好者。

Ema Orhian 是一位對伸縮性算法充滿激情的大數據工程師。她活躍於大數據社區,組織會議,在會上發錶演講,積極投身於開源項目。她是jaws-spark-sql-rest(SparkSQL數據倉庫上的一種資源管理器)的主要提交者。Ema一直緻力於將大數據分析引入醫療領域,開發一個對大型數據集計算統計指標的端到端的管道。

Kai Sasaki 是一位日本軟件工程師,對分布式計算和機器學習很感興趣。但是一開始他並未從事Hadoop或Spark相關的工作,他最初的興趣是中間件以及提供這些服務的基礎技術,是互聯網驅使他轉嚮大數據技術領域。Kai一直是Spark的貢獻者,開發瞭不少MLlib和ML庫。如今,他正嘗試研究將機器學習和大數據結閤起來。他相信Spark在大數據時代的人工智能領域也將扮演重要角色。他的GitHub地址為:https://github.com/Lewuathe。

Brennon York既是一名特技飛行員,也是一位計算機科學傢。他的愛好是分布式計算、可擴展架構以及編程語言。自2014年以來,他就是Apache Spark的核心貢獻者,目標是通過發展GraphX和核心編譯環境,培育一個更強大的Spark社區,激發更多閤作。從為Spark提交貢獻開始,York就一直在用Spark,而且從那個時候開始,就使用Spark將應用帶入生産環境。

圖書目錄

第1章 成功運行Spark job 1
安裝所需組件 2
-- 原生安裝Spark Standalone集群 3
分布式計算的發展史 3
-- 步入雲時代 5
-- 理解資源管理 6
使用各種類型的存儲格式 9
-- 文本文件 11
-- Sequence文件 13
-- Avro文件 13
-- Parquet文件 13
監控和度量的意義 14
-- Spark UI 14
-- Spark Standalone UI 17
-- Metrics REST API 17
-- Metrics System 18
-- 外部監控工具 18
總結 19
第2章 集群管理 21
背景知識 23
Spark組件 26
-- Driver 27
-- workers與executors 28
-- 配置 30
Spark Standalone 33
-- 架構 34
-- 單節點設置場景 34
-- 多節點設置 36
YARN 36
-- 架構 38
-- 動態資源分配 41
-- 場景 43
Mesos 45
-- 安裝 46
-- 架構 47
-- 動態資源分配 49
-- 基本安裝場景 50
比較 52
總結 56
第3章 性能調優 59
Spark 執行模型 60
分區 62
-- 控製並行度 62
-- 分區器 64
shuffle數據 65
-- shuffle與數據分區 67
-- 算子與shuffle 70
-- shuffle並不總是壞事 75
序列化 75
-- Kryo注冊器 77
Spark緩存 77
-- SparkSQL 緩存 81
內存管理 82
-- 垃圾迴收 83
共享變量 84
-- 廣播變量 85
-- 纍加器 87
數據局部性 90
總結 91
第4章 安全 93
架構 94
-- Security Manager 94
-- 設定配置 95
ACL 97
-- 配置 97
-- 提交job 98
-- Web UI 99
網絡安全 107
加密 108
事件日誌 113
Kerberos 114
Apache Sentry 114
總結 115
第5章 容錯或job執行 117
Spark job的生命周期 118
-- Spark master 119
-- Spark driver 122
-- Spark worker 124
-- job生命周期 124
job調度 125
-- 應用程序內部調度 125
-- 用外部工具進行調度 133
容錯 135
-- 內部容錯與外部容錯 136
-- SLA 137
-- RDD 138
-- Batch vs Streaming 145
-- 測試策略 148
-- 推薦配置 155
總結 158
第6章 超越Spark 159
數據倉庫 159
-- SparkSQL CLI 161
-- Thrift JDBC/ODBC服務器 162
-- Hive on Spark 162
機器學習 164
-- DataFrame 165
-- MLlib和ML 167
-- Mahout on Spark 174
-- Hivemall On Spark 175
外部的框架 176
-- Spark Package 177
-- XGBoost 179
-- spark-jobserver 179
未來的工作 182
-- 與參數服務器集成 184
-- 深度學習 192
Spark在企業中的應用 200
-- 用Spark及Kafka收集用戶活動日誌 200
-- 用Spark做實時推薦 202
-- Twitter Bots的實時分類 204
總結 205
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

這是目前看過的對Spark介紹最完整的書,有使用技巧,還有原理分析和調優,非常值得推薦

评分

這是目前看過的對Spark介紹最完整的書,有使用技巧,還有原理分析和調優,非常值得推薦

评分

spark版本比較老,2017年齣版的書,還是1.5; 內容都比較淺,偏嚮介紹

评分

這是目前看過的對Spark介紹最完整的書,有使用技巧,還有原理分析和調優,非常值得推薦

评分

spark版本比較老,2017年齣版的書,還是1.5; 內容都比較淺,偏嚮介紹

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有