Pentaho Kettle解決方案:使用PDI構建開源ETL解決方案

Pentaho Kettle解決方案:使用PDI構建開源ETL解決方案 pdf epub mobi txt 電子書 下載2025

出版者:電子工業齣版社
作者:【美】Matt Casters(馬特.卡斯特)
出品人:
頁數:484
译者:初建軍
出版時間:2014-3
價格:89.00元
裝幀:平裝
isbn號碼:9787121224454
叢書系列:
圖書標籤:
  • KETTLE
  • ETL
  • 數據分析
  • 數據倉庫
  • BI
  • 數據挖掘
  • 數據
  • 計算機
  • Pentaho
  • Kettle
  • ETL
  • 開源
  • 數據集成
  • 數據處理
  • ETL解決方案
  • 數據倉庫
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

《Pentaho Kettle解決方案:使用PDI構建開源ETL解決方案》主要介紹如何使用開源ETL工具來完成數據整閤工作。

《Pentaho Kettle解決方案:使用PDI構建開源ETL解決方案》介紹的PDI(Kettle)是一種開源的 ETL 解決方案,書中介紹瞭如何使用PDI來實現數據的剖析、清洗、校驗、抽取、轉換、加載等各類常見的ETL類工作。

除瞭ODS/DW類比較大型的應用外,Kettle 實際還可以為中小企業提供靈活的數據抽取和數據處理的功能。Kettle除瞭支持各種關係型數據庫、HBase、MongoDB這樣的NoSQL數據源外,它還支持Excel、Access這類小型的數據源。並且通過插件擴展,Kettle 可以支持各類數據源。本書詳細介紹瞭Kettle可以處理的數據源,而且詳細介紹瞭如何使用Kettle抽取增量數據。

Kettle 的數據處理功能也很強大,除瞭選擇、過濾、分組、連接、排序這些常用的功能外,Kettle 裏的Java錶達式、正則錶達式、Java腳本、Java類等功能都非常靈活而強大,都非常適閤於各種數據處理功能。本書也使用瞭一些篇幅介紹Kettle這些靈活的數據處理功能。

《Pentaho Kettle解決方案:使用PDI構建開源ETL解決方案》後麵章節介紹瞭如何在 Kettle 上開發插件,如何使用Kettle處理實時數據流,以及如何在Amazon AWS上運行Kettle 等一些高級主題。

除瞭介紹PDI(Kettle)工具的使用和功能,本書還結閤Kimball博士的數據倉庫和ETL子係統的理論,從實踐的角度介紹數據倉庫的模型設計、數據倉庫的構建方法,以及如何使用 PDI實現Kimball博士提齣的34種ETL子係統。

著者簡介

Matt Casters是一位具有多年工作經驗的獨立商業智能顧問。他為許多大公司建立瞭無數個數據倉庫和 BI解決方案。在過去的 8年裏, Matt Casters把自己的時間都用於研發一個 ETL工具—— Kettle。2005年12月, Kettle成為開源軟件。 2006年初期, Kettle走進 Pentaho。隨後, Matt就職於 Pentaho,成為數據集成總監。在 Pentaho,他繼續從事 Kettle的研發工作。 Matt緻力於幫助建設 Kettle社區,迴答論壇上的提問,有時在世界會議上發錶演講。博客: http://www.ibridge. be。Twitter:@mattcasters。

Roland Bouman目前從事前颱頁麵和商業智能的研發工作。他從 1998年開始從事 IT行業。多年來一直緻力於開源軟件的研發,尤其是數據庫技術、商業智能以及頁麵開發框架。同時, Roland Bouman還是 MySQL和Pentaho社區的成員。他經常參加 MySQL使用者會議、 OSCON、 Pentaho社區等國際會議。 Roland Bouman不僅是 MySQL 5.1 Cluster Certification Guide和Pentaho Solutions兩本書的閤著者之一,也是 MySQL和Pentaho相關書籍的技術評論傢。技術博客: http:// rpbouman.blogspot.com。Twitter:@rolandbouman。

Jos van Dongen是一位著名的商業智能專傢、作傢和演說傢。他從 1991年開始從事軟件開發、商業智能以及數據倉庫等領域的工作。 Jos van Dongen曾先後就職於頂級的係統集成公司和管理谘詢公司。 1998,他創立瞭自己的谘詢公司, Tholis Consulting。他為許多商業和福利組織構建瞭 BI和數據倉庫係統。 Jos為丹麥 Database Magazine撰寫瞭新的 BI研發成果,並且經常在國內和國際會議上發言。 Jos van Dongen撰寫瞭一本關於開源 BI的書,並且和 Roland Bouman閤作編寫瞭 Pentaho Solutions。更多信息參考: http://www.tholis.com。Twitter:@josvandongen。

圖書目錄

第一部分:開始
第1章 ETL入門............................................ 2
1.1 OLTP和數據倉庫對比 ..................................... 2
1.2 ETL是什麼 ........................................................ 3
1.2.1 ETL解決方案的演化過程 ................... 4
1.2.2 ETL基本構成 ....................................... 5
1.3 ETL、ELT和EII ................................................ 6
1.3.1 ELT ....................................................... 6
1.3.2 EII:虛擬數據整閤 ............................. 7
1.4 數據整閤麵臨的挑戰 ....................................... 8
1.4.1 方法論:敏捷BI .................................. 9
1.4.2 ETL設計 ............................................. 10
1.4.3 獲取數據 ............................................ 10
1.4.4 數據質量 ............................................ 12
1.5 ETL工具的功能 .............................................. 13
1.5.1 連接 .................................................... 13
1.5.2 平颱獨立 ............................................ 14
1.5.3 數據規模 ............................................ 14
1.5.4 設計靈活性 ........................................ 14
1.5.5 復用性 ................................................ 15
1.5.6 擴展性 ................................................ 15
1.5.7 數據轉換 ............................................ 15
1.5.8 測試和調試 ........................................ 16
1.5.9 血統和影響分析 ................................ 16
1.5.10 日誌和審計 ...................................... 16
1.6 小結 .................................................... 17
第2章 Kettle基本概念................................ 18
2.1 設計原則 ......................................................... 18
2.2 Kettle設計模塊 ............................................... 19
2.2.1 轉換 .................................................... 19
2.2.2 作業 .................................................... 23
2.2.3 轉換或作業的元數據 ........................ 28
2.2.4 數據庫連接 ........................................ 28
2.2.5 工具 .................................................... 31
2.2.6 資源庫 ................................................ 31
2.2.7 虛擬文件係統 .................................... 31
2.3 參數和變量 ..................................................... 32
2.3.1 定義變量 ............................................ 32
2.3.2 命名參數 ............................................ 33
2.3.3 使用變量 ............................................ 33
2.4 可視化編程 ..................................................... 34
2.4.1 開始 .................................................... 34
2.4.2 創建新的步驟 .................................... 35
2.4.3 放在一起 ............................................ 36
2.5 小結 ...................................................... 38
第3章 安裝和配置..................................... 39
3.1 Kettle軟件概覽 ............................................... 39
3.1.1 集成開發環境:Spoon ...................... 40
3.1.2 命令行啓動:Kitchen和Pan ............. 42
3.1.3 作業服務器:Carte ........................... 42
3.1.4 Encr.bat和encr.sh ................................ 42
3.2 安裝 ................................................ 43
3.2.1 Java環境 ............................................. 43
3.2.2 安裝 Kettle ......................................... 43
3.3 配置 ................................................. 46
3.3.1 配置文件和.kettle目錄 ...................... 46
3.3.2 用於啓動Kettle程序的shell腳本 ....... 51
3.3.3 管理 JDBC 驅動 ................................ 52
3.4 小結 .................................. 53
第4章 ETL示例解決方案——Sakila........... 54
4.1 Sakila ........................................ 54
4.1.1 sakila示例數據庫 ............................... 55
4.1.2 租賃業務的星型模型 ........................ 57
4.2 預備知識和一些基礎的Spoon技巧 ............... 60
4.2.1 安裝ETL解決方案 ............................. 60
4.2.2 Spoon使用 .......................................... 60
4.3 ETL示例解決方案 .......................................... 61
4.3.1 生成靜態維度 .................................... 62
4.3.2 循環加載 ............................................ 64
4.4 小結 .......................................... 80
第二部分:ETL
第5章 ETL子係統...................................... 82
5.1 34種子係統介紹 ............................................. 82
5.1.1 抽取 .................................................... 83
5.1.2 清洗和更正數據 ................................ 84
5.1.3 數據發布 ............................................ 86
5.1.4 管理ETL環境 ..................................... 89
5.2 小結 ...................................................... 91
第6章 數據抽取......................................... 92
6.1 Kettle數據抽取概覽 ....................................... 92
6.1.1 文件抽取 ............................................ 93
6.1.2 數據庫抽取 ........................................ 97
6.1.3 Web數據抽取 ..................................... 98
6.1.4 基於流的和實時的抽取 .................... 99
6.2 處理ERP和CRM係統 ................................... 100
6.2.1 ERP 挑戰 .......................................... 100
6.2.2 Kettle ERP插件 ................................ 101
6.2.3 處理SAP數據 ................................... 101
6.2.4 ERP和CDC 問題 .............................. 104
6.3 數據剖析 ....................................................... 105
6.4 CDC:變更數據捕獲 ................................... 110
6.4.1 基於源數據的CDC ...........................111
6.4.2 基於觸發器的CDC .......................... 113
6.4.3 基於快照的CDC .............................. 113
6.4.4 基於日誌的CDC .............................. 116
6.4.5 哪個CDC方案更適閤你 .................. 117
6.5 發布數據 ....................................................... 117
6.6 小結 ................................................. 118
第7章 清洗和校驗................................... 119
7.1 數據清洗 ....................................................... 120
7.1.1 數據清洗步驟 .................................. 121
7.1.2 使用參照錶 ...................................... 123
7.1.3 數據校驗 .......................................... 127
7.2 錯誤處理 ....................................................... 130
7.2.1 處理過程錯誤 .................................. 131
7.2.2 轉換錯誤 .......................................... 132
7.2.3 處理數據(校驗)錯誤 .................. 133
7.3 審計數據和過程質量 ................................... 136
7.4 數據排重 ....................................................... 137
7.4.1 去除完全重復的數據 ...................... 137
7.4.2 不完全重復問題 .............................. 138
7.4.3 設計排除重復記錄的轉換 .............. 139
7.5 腳本 ............................................... 142
7.5.1 公式 .................................................. 143
7.5.2 Java腳本 ........................................... 143
7.5.3 用戶自定義Java錶達式 ................... 144
7.5.4 正則錶達式 ...................................... 145
7.6 小結 ................................................... 146
第8章 處理維度錶................................... 147
8.1 管理各種鍵 ................................................... 148
8.1.1 管理業務鍵 ...................................... 148
8.1.2 生成代理鍵 ...................................... 149
8.2 加載維度錶 ................................................... 154
8.2.1 雪花維度錶 ...................................... 154
8.2.2 星型維度錶 ...................................... 159
8.3 緩慢變更維度 ............................................... 161
8.3.1 緩慢變更維類型 .............................. 161
8.3.2 類型1的緩慢變更維 ........................ 161
8.3.3 類型2的緩慢變更維 ........................ 163
8.3.4 其他類型的緩慢變更維 .................. 167
8.4 更多維度 ....................................................... 168
8.4.1 生成維(Generated Dimensions) .. 168
8.4.2 雜項維度(Junk Dimensions) ...... 169
8.4.3 遞歸層次 .......................................... 170
8.5 小結 ............................................. 171
第9章 加載事實錶................................... 172
9.1 批量加載 ....................................................... 173
9.1.1 STDIN和FIFO .................................. 173
9.1.2 Kettle批量加載 ................................ 174
9.1.3 批量加載一般要考慮的問題 .......... 176
9.2 維度查詢 ....................................................... 176
9.2.1 維護參照完整性 .............................. 176
9.2.2 代理鍵管道 ...................................... 177
9.2.3 遲到數據 .......................................... 179
9.3 處理事實錶 ................................................... 182
9.3.1 周期快照和纍積快照 ...................... 182
9.3.2 麵嚮狀態的事實錶 .......................... 183
9.3.3 加載周期快照錶 .............................. 185
9.3.4 加載纍積快照錶 .............................. 185
9.3.5 加載麵嚮狀態事實錶 ...................... 186
9.3.6 加載聚集錶 ...................................... 186
9.4 小結 ............................................. 187
第10章 處理OLAP數據........................... 188
10.1 OLAP的價值和挑戰................................... 189
10.1.1 OLAP 存儲類型 ............................. 190
10.1.2 OLAP在係統中的位置 .................. 191
10.1.3 Kettle OLAP選項 ........................... 191
10.2 Mondrian ..................................................... 192
10.3 XML/A服務 ................................................ 194
10.4 Palo ................................................... 197
10.4.1 建立Palo 連接 ................................ 198
10.4.2 Palo 架構 ........................................ 199
10.4.3 讀Palo數據 ..................................... 200
10.4.4 寫Palo數據 ..................................... 202
10.5 小結 ............................................... 204
第三部分:管理和部署
第11章 ETL開發生命期........................... 206
11.1 解決方案設計 ............................................. 206
11.1.1 好習慣和壞習慣 ............................ 206
11.1.2 ETL流設計 ..................................... 209
11.1.3 可重用性和可維護性 .................... 209
11.2 敏捷開發 ..................................................... 210
11.3 測試和調試 ................................................. 214
11.3.1 測試活動 ........................................ 214
11.3.2 ETL測試 ......................................... 215
11.3.3 調試 ................................................ 218
11.4 解決方案文檔化 ......................................... 220
11.4.1 為什麼實際情況下文檔很少 ........ 220
11.4.2 Kettle的文檔功能........................... 221
11.4.3 生成文檔 ........................................ 222
11.5 小結 .................................................... 223
第12章 調度和監控................................. 224
12.1 調度 ............................................... 224
12.1.1 操作係統級調度 ............................ 225
12.1.2 使用Pentaho 內置的調度程序 ...... 228
12.2 監控 ............................................... 232
12.2.1 日誌 ................................................ 232
12.2.2 郵件通知 ........................................ 234
12.3 小結 ................................................ 237
第13章 版本和移植................................. 238
13.1 版本控製係統 ............................................. 238
13.1.1 基於文件的版本控製係統 ............ 239
13.1.2 內容管理係統 ................................ 240
13.2 Kettle 元數據 .............................................. 240
13.2.1 Kettle XML 元數據 ........................ 241
13.2.2 Kettle 資源庫元數據 ..................... 242
13.3 管理資源庫 ................................................. 244
13.3.1 導齣和導入資源庫 ........................ 244
13.3.2 資源庫升級 .................................... 245
13.4 版本移植係統 ............................................. 245
13.4.1 管理XML文件 ............................... 245
13.4.2 管理資源庫 .................................... 246
13.4.3 解決方案參數化 ............................ 246
13.5 小結 .............................................. 248
第14章 血統和審計................................. 249
14.1 批量血統抽取 ............................................. 250
14.2 血統 .................................................. 251
14.2.1 血統信息 ........................................ 251
14.2.2 影響分析信息 ................................ 252
14.3 日誌和操作元數據 ..................................... 254
14.3.1 日誌基礎 ........................................ 254
14.3.2 日誌架構 ........................................ 255
14.3.3 日誌錶 ............................................ 257
14.4 小結 .................................................. 262
第四部分:性能和擴展性
第15章 性能調優..................................... 264
15.1 轉換性能:找到最弱連接 ......................... 264
15.1.1 通過簡化找到性能瓶頸 ................ 265
15.1.2 通過度量值找到性能瓶頸 ............ 266
15.1.3 復製數據行 .................................... 267
15.2 提高轉換性能 ............................................. 269
15.2.1 提高讀文本文件的性能 ................ 269
15.2.2 寫文本文件時使用延遲轉換 ........ 271
15.2.3 提高數據庫性能 ............................ 272
15.2.4 數據排序 ........................................ 275
15.2.5 減少CPU消耗 ................................ 276
15.3 提高作業性能 ............................................. 280
15.3.1 作業裏的循環 ................................ 280
15.3.2 數據庫連接池 ................................ 281
15.4 小結 .............................................. 281
第16章 並行、集群和分區....................... 283
16.1 多綫程 ......................................................... 283
16.1.1 數據行分發 .................................... 284
16.1.2 記錄行閤並 .................................... 285
16.1.3 記錄行再分發 ................................ 285
16.1.4 數據流水綫 .................................... 286
16.1.5 多綫程的問題 ................................ 287
16.1.6 作業中的並行執行 ........................ 289
16.2 使用Carte子服務器 .................................... 289
16.2.1 配置文件 ........................................ 289
16.2.2 定義子服務器 ................................ 290
16.2.3 遠程執行 ........................................ 291
16.2.4 監視子服務器 ................................ 291
16.2.5 Carte安全 ....................................... 291
16.2.6 服務 ................................................ 292
16.3 集群轉換 ..................................................... 293
16.3.1 定義一個集群模式 ........................ 293
16.3.2 設計集群轉換 ................................ 294
16.3.3 執行和監控 .................................... 295
16.3.4 元數據轉換 .................................... 296
16.4 分區 ............................................... 298
16.4.1 定義分區模式 ................................ 299
16.4.2 分區的目標 .................................... 300
16.4.3 實現分區 ........................................ 300
16.4.4 內部變量 ........................................ 301
16.4.5 數據庫分區 .................................... 301
16.4.6 集群轉換中的分區 ........................ 302
16.5 小結 ................................................. 302
第17章 雲計算中的動態集群................... 303
17.1 動態集群 ..................................................... 303
17.1.1 建立動態集群 ................................ 304
17.1.2 使用動態集群 ................................ 306
17.2 雲計算 ......................................................... 306
17.3 EC2 .............................................................. 307
17.3.1 如何使用EC2 ................................. 307
17.3.2 成本 ................................................ 307
17.3.3 自定義AMI .................................... 307
17.3.4 打包新AMI .................................... 310
17.3.5 中止AMI ........................................ 310
17.3.6 運行主節點 .................................... 310
17.3.7 運行子節點 .................................... 311
17.3.8 使用EC2 集群 ................................ 312
17.3.9 監控 ................................................ 313
17.3.10 輕量原則和持久性 ...................... 314
17.4 小結 ............................................. 314
第18章 實時數據整閤.............................. 315
18.1 實時ETL介紹 .............................................. 315
18.1.1 實時處理麵臨的挑戰 .................... 316
18.1.2 需求 ................................................ 316
18.2 基於流的轉換 ............................................. 317
18.2.1 一個基於流的轉換實例 ................ 318
18.2.2 調試 ................................................ 321
18.2.3 第三方軟件和實時整閤 ................ 321
18.2.4 Java 消息服務 ................................ 322
18.3 小結 .............................................. 324
第五部分:高級主題
第19章 Data Vault管理............................ 326
19.1 Data Vault 模型介紹 ................................... 327
19.2 你是否需要Data Vault ................................ 327
19.3 Data Vault的組成部分 ................................ 328
19.3.1 中心錶 ............................................ 328
19.3.2 鏈接錶 ............................................ 329
19.3.3 附屬錶 ............................................ 329
19.3.4 Data Vault 特點 .............................. 331
19.3.5 構建 Data Vault 模型 ..................... 331
19.4 將Sakila的例子轉換成Data Vault 模型 ..... 331
19.4.1 Sakila中心錶 .................................. 331
19.4.2 Sakila 鏈接錶 ................................. 332
19.4.3 Sakila 附屬錶 ................................. 333
19.5 加載Data Vault 模型:簡單的ETL解決方案 ..................... 334
19.5.1 安裝Sakila Data Vault .................... 335
19.5.2 安裝ETL方案 ................................. 335
19.5.3 創建一個數據庫賬戶 .................... 335
19.5.4 ETL解決方案的例子 ..................... 335
19.5.5 加載 Data Vault 錶 ......................... 341
19.6 從Data Vault 模型更新數據集市 ............... 341
19.6.1 ETL解決方案例子 ......................... 342
19.6.2 dim_actor 轉換 ............................... 342
19.6.3 dim_customer 轉換 ........................ 343
19.6.4 dim_film 轉換 ................................ 346
19.6.5 dim_film_actor_bridge 轉換 .......... 347
19.6.6 fact_rental 轉換 .............................. 347
19.6.7 加載星型模型裏的所有錶 ............ 349
19.7 小結 .......................................... 349
第20章 處理復雜數據格式....................... 350
20.1 非關係型和非錶格型的數據格式 ............. 350
20.2 非結構化的錶格型數據 ............................. 351
20.2.1 處理多值字段 ................................ 351
20.2.2 處理重復的字段組 ........................ 352
20.3 半結構化和非結構化數據 ......................... 353
20.4 鍵/值對 ........................................................ 358
20.5 小結 ............................................. 362
第21章 Web Services............................. 363
21.1 Web 頁麵和Web Services ........................... 363
21.2 數據格式 ..................................................... 365
21.2.1 XML ............................................... 365
21.2.2 HTML ............................................. 366
21.2.3 JavaScript Object Notation ............. 367
21.3 XML例子 .................................................... 369
21.3.1 XML例子文件 ............................... 369
21.3.2 從XML中抽取數據 ....................... 371
21.3.3 生成XML文檔 ............................... 378
21.4 SOAP例子 ................................................... 384
21.4.1 使用“Web服務查詢”步驟 ......... 385
21.4.2 直接訪問 SOAP服務 ..................... 386
21.5 JSON例子 ................................................... 389
21.5.1 Freebase項目 .................................. 389
21.5.2 使用Kettle 抽取Freebase數據 ....... 392
21.6 RSS .............................................................. 396
21.6.1 RSS結構 ......................................... 396
21.6.2 Kettle對RSS的支持 ....................... 398
21.7 小結 ............................................ 403
第22章 Kettle集成................................... 404
22.1 Kettle API .................................................... 404
22.1.1 LGPL協議 ...................................... 404
22.1.2 Kettle Java API ............................... 405
22.2 執行存在的轉換和作業 ............................. 406
22.2.1 執行一個轉換 ................................ 406
22.2.2 執行一個作業 ................................ 407
22.3 應用程序中嵌入Kettle ............................... 408
22.3.1 Pentaho 報錶 .................................. 408
22.3.2 把數據放到轉換裏 ........................ 410
22.3.3 動態轉換 ........................................ 413
22.3.4 動態模闆 ........................................ 416
22.3.5 動態作業 ........................................ 416
22.3.6 在Kettle裏執行動態ETL ............... 419
22.3.7 Result .............................................. 419
22.3.8 替換元數據 .................................... 420
22.4 OEM版本和二次發布版本 ........................ 421
22.4.1 創建PDI的OEM版本 ..................... 421
22.4.2 Kettle的二次發布(Forking) ...... 422
22.5 小結 .............................................. 423
第23章 擴展Kettle................................... 424
23.1 插件架構 ..................................................... 424
23.1.1 插件類型 ........................................ 425
23.1.2 架構 ................................................ 425
23.1.3 前提 ................................................ 425
23.2 轉換步驟插件 ............................................. 428
23.2.1 StepMetaInterface ........................... 428
23.2.2 StepDataInterface ........................... 434
23.2.3 StepDialogInterface ........................ 434
23.2.4 StepInterface ................................... 440
23.3 用戶自定義 Java 類步驟 ............................ 444
23.3.1 傳遞元數據 .................................... 444
23.3.2 訪問輸入和字段 ............................ 445
23.3.3 代碼片段 ........................................ 445
23.3.4 例子 ................................................ 445
23.4 作業項插件 ................................................. 446
23.4.1 JobEntryInterface ........................... 446
23.4.2 JobEntryDialogInterface ................. 448
23.5 分區插件 ..................................................... 448
23.6 資源庫插件 ................................................. 450
23.7 數據庫類型插件 ......................................... 450
23.8 小結 ............................................ 451
附錄A Kettle生態群................................. 452
附錄B Kettle 企業版特性.......................... 456
附錄C 內置的變量和屬性參考................. 457
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

kettle的資料不多,還好這本寫得比較全

评分

kettle的資料不多,還好這本寫得比較全

评分

當前工作時時派上用場的大寶典。

评分

相關資料好少啊。都打算自己寫一本瞭

评分

好久沒有看工具書,最近在做ETL方麵的工作,通讀瞭一遍,基本上都是大方麵的解決方案,關於Kettle的細節點沒有說得很清楚,感覺排版也不是特彆好

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有