深度剖析Hadoop HDFS

深度剖析Hadoop HDFS pdf epub mobi txt 電子書 下載2025

出版者:
作者:林意群
出品人:
頁數:322
译者:
出版時間:2017-4-1
價格:0
裝幀:平裝
isbn號碼:9787111562078
叢書系列:大數據技術叢書
圖書標籤:
  • hadoop
  • HDFS
  • 大數據
  • 分布式係統
  • 分布式
  • Java
  • Hadoop
  • 2020
  • Hadoop
  • HDFS
  • 分布式存儲
  • 大數據
  • 文件係統
  • 深度剖析
  • 架構設計
  • 高可用
  • 容錯機製
  • 數據一緻性
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

《深度剖析Hadoop HDFS》基於Hadoop 2.7.1版本進行分析,全麵描述瞭HDFS 2.X的核心技術與解決方案,書中描述瞭HDFS內存存儲、異構存儲等幾大核心設計,包括源碼細節層麵的分析,對於HDFS中比較特殊的幾個場景過程也做瞭細粒度的分析。還分享瞭作者在實際應用中的解決方案及擴展思路。閱讀《深度剖析Hadoop HDFS》可以幫助讀者從架構設計與功能實現角度瞭解HDFS 2.X,同時還能學習HDFS 2.X框架中優秀的設計思想、設計模式、Java語言技巧等。這些對於讀者全麵提高自己分布式技術水平有很大的幫助。《深度剖析Hadoop HDFS》分為三大部分:核心設計篇、細節實現篇、解決方案篇,“核心設計篇”包括HDFS的數據存儲原理、HDFS的數據管理與策略選擇機製、HDFS的新穎功能特性;“細節實現篇”包括HDFS的塊處理、流量處理等細節,以及部分結構分析;“解決方案篇”包括HDFS的數據管理、HDFS的數據讀寫、HDFS的異常場景等。

著者簡介

林意群,唯品會上海研發中心數據平颱與應用部研發工程師,Apache Hadoop Committer,主要專注於HDFS模塊的研究。對大數據處理、分布式計算興趣濃厚,在實際工作中努力鑽研,分享瞭大量技術文章,貢獻瞭很多實踐經驗。

圖書目錄

前言
第一部分 核心設計篇
第1章 HDFS的數據存儲2
1.1 HDFS內存存儲2
1.1.1 HDFS內存存儲原理2
1.1.2 Linux 虛擬內存盤4
1.1.3 HDFS的內存存儲流程分析4
1.1.4 LAZY_PERSIST內存存儲的使用14
1.2 HDFS異構存儲15
1.2.1 異構存儲類型16
1.2.2 異構存儲原理17
1.2.3 塊存儲類型選擇策略22
1.2.4 塊存儲策略集閤24
1.2.5 塊存儲策略的調用27
1.2.6 HDFS異構存儲策略的不足之處28
1.2.7 HDFS存儲策略的使用30
1.3 小結31
第2章 HDFS的數據管理與策略選擇32
2.1 HDFS緩存與緩存塊32
2.1.1 HDFS物理層麵緩存塊33
2.1.2 緩存塊的生命周期狀態34
2.1.3 CacheBlock、UnCacheBlock場景觸發36
2.1.4 CacheBlock、UnCacheBlock緩存塊的確定38
2.1.5 係統持有的緩存塊列錶如何更新39
2.1.6 緩存塊的使用40
2.1.7 HDFS緩存相關配置40
2.2 HDFS中心緩存管理42
2.2.1 HDFS緩存適用場景43
2.2.2 HDFS緩存的結構設計43
2.2.3 HDFS緩存管理機製分析45
2.2.4 HDFS中心緩存疑問點55
2.2.5 HDFS CacheAdmin命令使用56
2.3 HDFS快照管理58
2.3.1 快照概念59
2.3.2 HDFS中的快照相關命令59
2.3.3 HDFS內部的快照管理機製60
2.3.4 HDFS的快照使用71
2.4 HDFS副本放置策略72
2.4.1 副本放置策略概念與方法72
2.4.2 副本放置策略的有效前提73
2.4.3 默認副本放置策略的分析73
2.4.4 目標存儲好壞的判斷82
2.4.5 chooseTargets的調用83
2.4.6 BlockPlacementPolicyWithNodeGroup繼承類84
2.4.7 副本放置策略的結果驗證85
2.5 HDFS內部的認證機製85
2.5.1 BlockToken認證85
2.5.2 HDFS的Sasl認證91
2.5.3 BlockToken認證與HDFS的Sasl認證對比97
2.6 HDFS內部的磁盤目錄服務98
2.6.1 HDFS的三大磁盤目錄檢測掃描服務98
2.6.2 DiskChecker:壞盤檢測服務99
2.6.3 DirectoryScanner:目錄掃描服務104
2.6.4 VolumeScanner:磁盤目錄掃描服務110
2.7 小結116
第3章 HDFS的新穎功能特性117
3.1 HDFS視圖文件係統:ViewFileSystem117
3.1.1 ViewFileSystem: 視圖文件係統118
3.1.2 ViewFileSystem內部實現原理119
3.1.3 ViewFileSystem的使用125
3.2 HDFS的Web文件係統:WebHdfsFileSystem126
3.2.1 WebHdfsFileSystem的REST API操作127
3.2.2 WebHdfsFileSystem的流程調用129
3.2.3 WebHdfsFileSystem執行器調用130
3.2.4 WebHDFS的OAuth2認證133
3.2.5 WebHDFS的使用135
3.3 HDFS數據加密空間:Encryption zone136
3.3.1 Encryption zone原理介紹136
3.3.2 Encryption zone源碼實現136
3.3.3 Encryption zone的使用144
3.4 HDFS糾刪碼技術145
3.4.1 糾刪碼概念145
3.4.2 糾刪碼技術的優劣勢146
3.4.3 Hadoop糾刪碼概述147
3.4.4 糾刪碼技術在Hadoop中的實現148
3.5 HDFS對象存儲:Ozone152
3.5.1 Ozone介紹153
3.5.2 Ozone的高層級設計154
3.5.3 Ozone的實現細節157
3.5.4 Ozone的使用157
3.6 小結158
第二部分 細節實現篇
第4章 HDFS的塊處理160
4.1 HDFS塊檢查命令fsck160
4.1.1 fsck參數使用160
4.1.2 fsck過程調用161
4.1.3 fsck原理分析162
4.1.4 fsck使用場景171
4.2 HDFS如何檢測並刪除多餘副本塊171
4.2.1 多餘副本塊以及發生的場景172
4.2.2 OverReplication多餘副本塊處理172
4.2.3 多餘副本塊清除的場景調用177
4.3 HDFS數據塊的匯報與處理179
4.3.1 塊處理的五大類型179
4.3.2 toAdd:新添加的塊181
4.3.3 toRemove:待移除的塊184
4.3.4 toInvalidate:無效的塊186
4.3.5 toCorrupt:損壞的塊189
4.3.6 toUC:正在構建中的塊191
4.4 小結193
第5章 HDFS的流量處理194
5.1 HDFS的內部限流194
5.1.1 數據的限流194
5.1.2 DataTransferThrottler限流原理196
5.1.3 數據流限流在Hadoop中的使用198
5.1.4 Hadoop限流優化點202
5.2 數據平衡204
5.2.1 Balancer和Dispatcher204
5.2.2 數據不平衡現象207
5.2.3 Balancer性能優化207
5.3 HDFS節點內數據平衡210
5.3.1 磁盤間數據不平衡現象及問題211
5.3.2 傳統的磁盤間數據不平衡解決方案211
5.3.3 社區解決方案:DiskBalancer212
5.4 小結216
第6章 HDFS的部分結構分析217
6.1 HDFS鏡像文件的解析與反解析217
6.1.1 HDFS的FsImage鏡像文件218
6.1.2 FsImage的解析218
6.1.3 FsImage的反解析221
6.1.4 HDFS鏡像文件的解析與反解析命令226
6.2 DataNode數據處理中心DataXceiver227
6.2.1 DataXceiver的定義和結構228
6.2.2 DataXceiver下遊處理方法232
6.2.3 ShortCircuit232
6.2.4 DataXceiver的上遊調用233
6.2.5 DataXceiver與DataXceiverServer234
6.3 HDFS鄰近信息塊:BlockInfoContiguous235
6.3.1 triplets對象數組236
6.3.2 BlockInfoContiguous的鏈錶操作239
6.3.3 塊迭代器BlockIterator244
6.4 小結246
第三部分 解決方案篇
第7章 HDFS的數據管理248
7.1 HDFS的讀寫限流方案248
7.1.1 限流方案實現要點以及可能造成的影響248
7.1.2 限流方案實現249
7.1.3 限流測試結果250
7.2 HDFS數據資源使用量分析以及趨勢預測250
7.2.1 要獲取哪些數據251
7.2.2 如何獲取這些數據251
7.2.3 怎麼用這些數據254
7.3 HDFS數據遷移解決方案257
7.3.1 數據遷移使用場景257
7.3.2 數據遷移要素考量258
7.3.3 HDFS數據遷移解決方案:DistCp259
7.3.4 DistCp優勢特性260
7.3.5 Hadoop DistCp命令264
7.3.6 DistCp解決集群間數據遷移實例265
7.4 DataNode遷移方案265
7.4.1 遷移方案的目標266
7.4.2 DataNode更換主機名、ip地址時的遷移方案267
7.5 HDFS集群重命名方案268
7.6 HDFS的配置管理方案271
7.6.1 HDFS配置管理的問題271
7.6.2 現有配置管理工具272
7.6.3 運用Git來做配置管理272
7.7 小結273
第8章 HDFS的數據讀寫274
8.1 DataNode引用計數磁盤選擇策略274
8.1.1 HDFS現有磁盤選擇策略274
8.1.2 自定義磁盤選擇策略279
8.2 Hadoop節點“慢磁盤”監控282
8.2.1 慢磁盤的定義以及如何發現282
8.2.2 慢磁盤監控284
8.3 小結287
第9章 HDFS的異常場景288
9.1 DataNode慢啓動問題288
9.1.1 DataNode慢啓動現象288
9.1.2 代碼追蹤分析290
9.1.3 參數可配置化改造293
9.2 Hadoop中止下綫操作後大量剩餘復製塊問題295
9.2.1 節點下綫操作的含義及問題295
9.2.2 死節點“復活”297
9.2.3 Decommission下綫操作如何運作299
9.2.4 中止下綫操作後移除殘餘副本塊解決方案303
9.3 DFSOutputStream的DataStreamer綫程泄漏問題306
9.3.1 DFSOutputStream寫數據過程及周邊相關類、變量306
9.3.2 DataStreamer數據流對象307
9.3.3 ResponseProcessor迴復獲取類311
9.3.4 DataStreamer與DFSOutputStream的關係313
9.3.5 Streamer綫程泄漏問題316
9.4 小結319
附錄 如何嚮開源社區提交自己的代碼320
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

介紹的內容比較新穎 挺有意思 但是說的不是很深入 很多東西要對著源碼看 總之是本不錯的介紹書

评分

相對另一本,版本更新一點。可以常翻。

评分

隻看瞭目錄和第一章,就不想再看下去瞭。先說說整體,目錄編排缺乏邏輯性,說一個點的時候沒有豐富的背景鋪墊;再說具體,內容缺乏連貫性,口語化非常嚴重,大塊大塊的代碼堆砌,類圖結構圖也是隨性而為。直觀感覺這本書就是把博客內容拼湊在一起為瞭成書而成書的。為齣版社、編輯和作者感到遺憾。

评分

评分

介紹的內容比較新穎 挺有意思 但是說的不是很深入 很多東西要對著源碼看 總之是本不錯的介紹書

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有