Greenplum：從大數據戰略到實現 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:機械工業齣版社

作者:馮雷

出品人:

頁數:407

译者:

出版時間:2019-7

價格:119

裝幀:平裝

isbn號碼:9787111632160

叢書系列:大數據技術叢書

圖書標籤:

Greenplum
大數據
數字原生
數字化轉型
好書，值得一讀
postgresql
計算機
數據庫
大數據
數據庫
綠牌
企業級
數據分析
數據倉庫
技術實現
架構設計
性能優化
戰略規劃

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到小美書屋

book.quotespace.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

數字原生

2010年11月，在Greenplum創始人的支持下，我們在北京建立瞭Greenplum中國研發體係。2013年4月，隨著Pivotal公司的建立，我們在Greenplum中國研發的基礎上閤並瞭部分VMWare中國研發集團的P層雲資産，建立瞭Pivotal中國辦公室。截至本書完稿的時候，我們的中國核心研發團隊和全球研發團隊一起奮鬥瞭8年，打造的Cloud Foundry産品和Greenplum産品成為Pivotal公司在紐約證券交易所上市榮登PaaS第一股的基礎。作為Pivotal中國辦公室的創始團隊，我們一直在審視和提升Pivotal中國辦公室的使命和願景。高尚的使命和願景是促使一個機構達到世界一流水平的必要條件，因為使命和願景比戰略更高一層。一個機構在前進的過程中，其戰略不可避免地需要調整。在麵對戰略調整時，如果組織成員缺乏共同的使命和願景，就很難在變化中存活下來。以PC行業為例，蘋果公司由最初的蘋果電腦公司（Apple Computers）發展到今天蘋果（Apple）公司，業務也從以PC為重心遷移到以移動和雲服務為重心。蘋果公司的轉型一路顛簸但最終成功，這與它們堅持藝術和科技的融閤並提供一流的用戶體驗的使命是分不開的。對於不少沒有完成轉型的PC企業，仔細觀察一下，會發現它們通常不能清楚地錶達自己的使命。

那麼Pivotal中國辦公室的使命是什麼？簡單地說，是支持全球Pivotal産品和商業戰略的成功。但是，這個迴答顯然不能說服和召集一批學霸把Pivotal中國辦公室變成世界一流的創新機構。作者有幸參與Pivotal公司在EMC和VMWare內部的啓動倡議（Pivotal Initiative），聆聽到董事長Paul Maritz先生對Pivotal宣言（Manifesto）的解讀。中國讀者可能還不熟悉Maritz先生，根據維基百科的介紹，他是微軟Windows平颱的主要執行團隊成員，負責過Windows 95和Windows NT等關鍵産品。在創建Pivotal之前，Maritz先生是VMWare公司的CEO，奠定瞭VMWare在虛擬化和I層雲的行業領導地位。鑒於Maritz先生在業內的聲望，作者仔仔細細閱讀瞭他撰寫的三頁紙篇幅的Pivotal宣言，並且思考瞭Pivotal中國辦公室如何既能擁抱Pivotal宣言又能在自己專注的領域成為國內意見領袖。今天，Pivotal的使命用一句話描述就是“The Way The Future Gets Built”，用中文直接翻譯過來就是“構建未來的方式”。這句話顯得有些抽象，所以在Pivotal中國辦公室的日常事務中，我們會針對不同的團隊來細化這句話：對於麵嚮數字化轉型客戶的Pivotal Lab團隊，這句話被錶述為“交付一流的數字化轉型體驗”；對於雲研發團隊，這句話被錶達為“通過Cloud Foundry雲平颱成為雲原生平颱的行業標杆”；對於數據庫研發團隊，這句話被闡述為“通過Greenplum成為大數據平颱和機器學習的意見領袖”。這些使命背後的共同願景就是提供“數字原生”世界的新産能，以及企業建立數字化所需要的軟件平颱和方法論。

數字原生就是從由物理世界為重心嚮數字世界為中心遷移時思考問題的方式。數字計算機發明之前，我們幾乎沒有什麼數字資産和技術。數字計算機發明至今，我們對於數字資産的積纍呈指數級增長，在我國更是呈現齣跨越式發展的態勢。舉個例子，今天，如果我們齣門不帶手機，就會感覺寸步難行，本質上是因為手機已經成為我們進入數字世界的入口。通過手機，我們可以嚮數字世界發齣各種請求，調度物理世界的資源為我們所用。Pivotal公司喜歡以“ask+綜閤部門@pivotal.io”的郵件方式來獲得綜閤部門的支持。早期行政部門的同事剛加入Pivotal公司的時候常問我：“為什麼不麵對麵請求，或者打個電話，又或者開個單子？”我的迴答是這幾種方式看似差彆不大，但反映瞭思考問題方式的差彆。Pivotal公司作為數字化的領導者，把軟件和數據平颱看作數字世界的入口。我們獲取資源的方式是嚮這個數字世界發齣請求。數字世界可能通過它的計算找到最優執行路徑。有些工作的執行可能還需要轉發給人進行人工處理，例如安裝一颱打印機。但是，有些請求則可以直接通過軟件方式解決，例如申請一颱雲服務器。對於某些請求，雖然我們今天還無法完全以全數字化、無人乾預的方式完成，但是，我們可以先把數字原生的框架奠定起來，為以後的進一步對接和持續改進做好準備。在作者看來，數字原生的持續改進過程分為三個階段：

1）軟件公司：通過數字應用實現數字世界和物理世界的無縫交互。

2）數據公司：通過大數據平颱實現數據積纍和數學模型運行支撐。

3）數學公司：通過數學模型的持續改進來最優化數字世界和物理世界資源。

因此，作者和團隊希望能夠以三部對應的著作（下麵簡稱為“數字化三部麯”）在數字原生的徵程上為讀者提供戰略參考和對應的軟件平颱及工具指導。

第一部麯：《Cloud Foundry：從數字化戰略到實現》—這本書的主要目標是闡述企業如何實現數字原生第一階段：實現數字化應用。該書討論瞭雲計算作為第三代技術平颱帶來的商業模式變更。在雲計算的技術棧中，P層雲帶動瞭企業數字化浪潮。傳統企業通過P層雲可以迅速獲得頂級互聯網公司的軟件迭代和發布速度，把與客戶的交互通過消費級的應用數字化。書中例舉福特公司通過FordPass建立瞭以汽車實體産品為核心的一係列用戶數字化體驗：汽車金融、遠程監控車輛、停車位預留、旅途産品和服務推薦等。這個階段也是一個持續改進的過程。以共享齣行為例，今天用戶通過手機平颱進入數字世界，在打車應用中發送訂單。打車平颱通過選擇最優執行路徑，把訂單發送給打車平颱的司機。然後，司機在物理世界中驅車到達用戶起點。隨著有輔助的無人駕駛技術的成熟，這個數字世界的運行鏈條會繼續延長，數字平颱可以直接把無人車派送到用戶起點。在其他的行業，數字應用的鏈條同樣也在持續延長。

第二部麯：《Greenplum：從大數據戰略到實現》（也就是本書）—我們的主要目的是闡述企業如何實現數字原生的第二階段：大數據平颱。隨著數字應用的鏈條不斷延長，企業需要一個大數據平颱來積纍應用生成的數據。這個工作聽上去很容易，因為人們很早以前就使用磁帶來存儲數據，之後，存儲媒介發生瞭巨大的變化，能夠便捷地存儲大量數據。那麼為何還需要Greenplum這樣一個大數據和機器學習平颱？原因有兩個：1）量大；2）快速計算。說到大，當數據量達到PB級彆（相當於16000個64GB的iPhone中存儲的數據）時，企業利用廉價但是可靠的存儲來備份和管理是非常睏難的。說到快，想象讓用戶從16000個iPhone的數據中尋找一張5年前的照片就可以感受到大海撈針般的睏難；更何況企業的數據平颱要支撐的機器學習和人工智能的數學模型的復雜度要比尋找一張照片的復雜度高幾十到幾萬倍。可見，要想用極快的速度處理如此海量的數據是極其睏難的。這也是企業在構建大數據平颱時步履維艱的原因。Greenplum團隊的優秀專傢用企業積纍瞭15年的知識和創新來解決這些難題：如何利用低價的存儲設備來實現高可靠的數據存儲？數據的存儲如何為今天模型的計算做準備？如何給模型提供簡單但又標準的接口？數據管理如何在“便於存儲”和“便於日後查找”之間取得平衡？如何利用現在的I層雲計算資源？如何訪問文本和地理位置信息等各種數據源？如何訪問和計算存儲在其他係統（例如Hadoop）的數據？如何支撐今天主流的人工智能和機器學習模型？我們在創新過程中觸碰到瞭很多計算機科學本身的極限。希望這本著作能給讀者呈現一個解決瞭上述問題並可以實操的大數據平颱和戰略。

我們還在醞釀的第三部著作希望能幫助讀者更好地實現數字原生的第三階段：機器學習和人工智能。企業通過第一階段和第二階段的努力捕獲和存儲瞭大量的數據。為瞭更好地理解用戶的需求，不少企業進入瞭更高階的數字化戰略：大數據驅動的機器學習和人工智能。在這個階段的競爭中，企業會增設一個新的崗位：數據科學傢。數據科學傢會在大數據平颱上創造和優化數學模型，以期待改進數字世界和物理世界的運作來更好地為人服務。前兩部麯提供瞭軟件工具和方法論以幫助企業成為基於大數據的人工智能和機器學習戰略的數學公司，不少企業在實踐過程中希望作者能夠分享實踐案例並就企業領導力轉變提供谘詢。考慮到這樣一本著作的齣版需要兩年以上的時間，碰巧齣版社和作者看到瞭頂級大數據谘詢公司Booz Allen Hamilton的兩位高管收集瞭大量實際案例的著作《The Mathematical Corporation: Where Machine Intelligence and Human Ingenuity Achieve the Impossible》，其中關於“數學公司”的提法和作者的觀點不謀而閤。通過齣版社的努力，作者和團隊把這部著作翻譯成中文著作，可以作為第二部麯的伴侶著作來閱讀。

雖然數字原生第三階段的探討還在創新者和早期用戶者群體中進行，但是第二階段大數據平颱的建設已經在中國如火如荼地展開。大數據平颱在數字原生三部麯中扮演瞭承上啓下的關鍵角色，中大型的公司已經將大數據納入信息平颱的建設方案中。Greenplum因為開源生態和傑齣的創新能力被列為方案的候選技術選項，這也使Pivotal中國辦公室的同事們倍感欣慰。伴隨Greenplum生態的持續發展壯大，希望這部著作能給企業高層製定戰略提供建議和參考，既幫助工程團隊開發應用，又能指導運營團隊運維和保障。

本書內容組織方式

Greenplum經過15年的精心打磨，成為齣色的開源MPP數據庫和數據處理基礎平颱，已應用於銀行、保險、證券、電信、物流、安保、零售、能源和廣告等行業。我們希望本書能給已經建立或者準備建立大數據平颱的企業決策者、架構師、開發人員、數據工程師、數據科學傢和數據庫管理員帶來幫助，也希望從事大數據科研工作的教育工作者和學生能從中受益。

本書分為四個部分。

第一部分介紹大數據戰略。其中，第1章將分享作者對於ABC（人工智能、大數據和雲計算）之間關係的理解以及對人和人工智能的思考。第2章將介紹進取型企業為什麼需要大數據戰略以及如何建立大數據戰略。

第二部分介紹大數據平颱。其中，第3章將以數據平颱演進曆史和未來趨勢為主題，描述三次整閤的背景及影響，介紹選擇大數據平颱需要考慮的因素，以及為什麼Greenplum是理想的大數據平颱。第4章為Greenplum數據庫快速入門指南。第5章將介紹Greenplum架構的主要特點和核心引擎。第6章將介紹數據加載、數據聯邦和數據虛擬化。第7章將介紹Greenplum的資源管理以及對混閤負載的支持。

第三部分介紹機器學習與數據分析。其中，第8章介紹Greenplum的各種過程化編程語言（用戶自定義函數），用戶可以使用Python、R、Java等語言實現用戶自定義函數，還可以通過容器化技術實現自定義函數的安全性和隔離性。第9章將介紹Greenplum內建的機器學習庫MADlib，數據科學傢可以使用內建的50多種機器學習算法基於SQL對數據進行高級分析，並介紹如何擴展MADlib以實現新算法。第10章和第11章將分彆介紹Greenplum如何對文本數據和時空數據（GIS）進行存儲、計算和分析。第12章將介紹Greenplum豐富的圖計算能力。

第四部分介紹運維管理和數據遷移。其中，第13章將介紹各種監控和管理工具及相關企業級産品。第14章介紹數據庫備份、恢復和遷移。第15章和第16章將分彆介紹如何從Oracle和Teradata遷移到Greenplum。

限於作者學識，本書難免有疏漏之處，懇請同行和各位讀者批判指正，我們將不勝感激。您可以通過數字化三部麯的官網（DigitX.cn）或Greenplum中文官方社區（greenplum.cn）給我們留言並瞭解Greenplum的技術信息、獲得著作的相關學習資源。

著者簡介

馮雷(Ray Feng)

Pivotal中國常務董事(Managing Director)兼研發中心總經理。Pivotal中國成立至今，馮雷主持瞭近十億人民幣投資的中國運營和研發體係。作為Pivotal全球産品關鍵領導人，為Pivotal公司的數字化理念建立及其對應的Cloud Foundry和Greenplum産品提供戰略輸入。馮雷於2010年從美國矽榖歸國，在世界500強公司EMC旗下組建瞭Pivotal中國。在歸國之前，馮雷曾在500強企業甲骨文(Oracle)總部從事雲計算産品研發。作為雲計算早的一批從業人員，幫助甲骨文雲計算資源調度領域成為意見領袖。擁有多項雲計算專利。

姚延棟

Pivotal中國研發中心副總裁，在Pivotal公司全球範圍內為Greenplum技術發展路綫提供戰略輸入。聯閤創建瞭Pivotal中國研發中心，發起瞭Greenplum中國開源社區，奠定瞭包括阿裏雲、騰訊雲和百度雲在內的廣大開源Greenplum用戶群。在Pivotal中國招募並建設瞭Greenplum和HAWQ團隊成為大數據和機器學習的意見領袖，培養團隊成員同時成為Apache和Greenplum代碼提交者。在創建Greenplum/Pivotal中國之前, 曾在Sun Microsystem 與 Symantec 係統和存儲部門工作多年。擁有多項國內外雲計算和大數據專利。

高小明

Pivotal中國研發中心Greenplum産品總監，先後參與和負責數據分析協作平颱Chorus、開源PaaS雲平颱Cloud Foundry、MPP數據庫Greenplum等産品的開發、運維和技術推廣。目前著重關注PaaS雲平颱與大數據平颱支撐下的數字化轉型、微服務架構以及容器化與混閤負載給數據産品帶來的機遇和挑戰。

楊瑜

Pivotal中國研發中心Greenplum工程技術總監，長期從事 Greenplum 內核的研發和管理工作，先後參與和負責基於Greenplum內核的機器學習庫MADlib的研發、Greenplum 內核和PostgreSQL內核持續歸並等工作，並參與組建Greenplum文本挖掘引擎GPText團隊，有豐富的一綫內核研發經驗。

圖書目錄

序
前　言
第一部分　大數據戰略
第1章　ABC：人工智能、大數據和雲計算 2
1.1　再談雲計算 2
1.1.1　雲計算由南嚮轉為北嚮 2
1.1.2　P層雲的精細化發展 3
1.1.3　大數據係統在雲中部署不斷朝南上移 4
1.2　大數據 5
1.2.1　從CRUD到CRAP 5
1.2.2　MPP（大規模並行計算） 7
1.2.3　大數據係統 8
1.2.4　當大數據遇到雲計算 10
1.3　人工智能 11
1.3.1　模型化方法 12
1.3.2　AI的發展史 14
1.3.3　對AI應用的正確預期 15
1.4　ABC之間的關係 16
1.5　AI和人 18
1.5.1　經驗與邏輯 18
1.5.2　公理化的邏輯係統 21
1.5.3　圖靈機和可計算數 25
1.5.4　認知邊界上的考量 28
第2章　建立基於大數據的高階數字化戰略 32
2.1　基於雲原生應用的數字化戰略 32
2.2　大數據和AI：企業未來的終極
競爭點 34
2.3　大數據戰略的落地 36
2.3.1　大數據和AI人纔 36
2.3.2　AI驅動的開發方法和文化 37
2.3.3　大數據基礎設施的建設 39
2.4　大數據和AI的展望 41
第二部分　大數據平颱
第3章　數據處理平颱的演進 45
3.1　前數據處理時代 45
3.2　早期的電子數據處理 47
3.2.1　電子計算機的齣現 47
3.2.2　軟件 47
3.3　數據庫 49
3.3.1　數據模型 50
3.3.2　數據獨立性和高級數據處理語言 54
3.3.3　數據保護 57
3.3.4　數據庫早期發展過程中的睏境 57
3.4　NoSQL數據庫 58
3.4.1　NoSQL齣現的背景 58
3.4.2　NoSQL産品的共性 60
3.4.3　NoSQL的分類 61
3.5　SQL數據庫的迴歸 62
3.5.1　NoSQL與SQL的融閤 62
3.5.2　Hadoop不等於大數據 63
3.5.3　SQL從未離開 64
3.6　集成數據處理和分析平颱 65
3.6.1　數據類型 65
3.6.2　業務場景 66
3.6.3　集中還是分散 67
3.7　數據平颱的選型 68
3.8　小結 69
第4章　Greenplum數據庫快速入門 72
4.1　Greenplum數據庫的發展和現狀 72
4.2　Greenplum數據庫的特性 73
4.3　Greenplum數據庫的組成 75
4.4　Greenplum數據庫的安裝與部署 76
4.4.1　準備工作 76
4.4.2　安裝Greenplum 77
4.4.3　初始化Greenplum數據庫 80
4.5　Greenplum數據庫的常用操作 82
4.6　Greenplum數據庫的常用命令 83
4.6.1　gpstart 83
4.6.2　gpstop 83
4.6.3　gpstate 83
4.6.4　gpactivatestandby 84
4.6.5　gpconfig 84
4.6.6　gpdeletesystem 84
4.7　小結 85
第5章　Greenplum的架構和核心引擎 86
5.1　Greenplum的架構 86
5.1.1　Greenplum Master 87
5.1.2　Greenplum Segment 87
5.1.3　Greenplum Interconnect 87
5.1.4　Greenplum Standby Master 87
5.1.5　Greenplum Mirror Segment 88
5.2　Greenplum查詢計劃 88
5.2.1　單機查詢計劃 89
5.2.2　並行查詢計劃 90
5.3　Greenplum數據庫查詢處理的過程 95
5.3.1　Greenplum數據庫的主要功能組件 95
5.3.2　Greenplum數據庫查詢的執行流程 96
5.4　小結 97
第6章　從ETL到數據聯邦和數據虛擬化 98
6.1　Greenplum中的ETL 99
6.1.1　PostgreSQL的ETL工具箱 99
6.1.2　GPLOAD 100
6.2　Greenplum的數據聯邦 104
6.2.1　dblink簡介 104
6.2.2　外部錶 107
6.2.3　GPFDIST外部錶 109
6.2.4　可執行外部錶 119
6.2.5　Greenplum的S3外部錶 120
6.2.6　GPHDFS外部錶 127
6.2.7　Spark連接器 129
6.2.8　Gemfire連接器 129
6.3　Greenplum的數據虛擬化框架 130
6.3.1　PXF的架構 130
6.3.2　PXF的環境配置 131
6.3.3　GPHDFS與PXF比較 132
6.4　小結 133
第7章　混閤負載和資源管理 134
7.1　混閤負載的機遇和挑戰 134
7.2　混閤負載的業務和技術要求 136
7.3　資源管理 139
7.4　並發管理 145
7.5　小結 146
第三部分　機器學習與數據分析
第8章　Greenplum中的過程化編程語言 149
8.1　PL/Python 150
8.1.1　PL/Python簡介 150
8.1.2　受信任的過程化編程語言 151
8.1.3　安裝Python包 152
8.1.4　安裝Greenplum數據計算Python包集閤 153
8.1.5　類型轉換 153
8.1.6　PL/Python函數中的數據共享 154
8.2　PL/R 155
8.2.1　PL/R簡介 156
8.2.2　安裝R包 158
8.2.3　安裝Greenplum數據計算R包集閤 158
8.3　PL/Container 158
8.3.1　PL/Container簡介 159
8.3.2　一個簡單的例子 159
8.3.3　PL/Container的基本操作方法 162
8.3.4　PL/Container實踐總結 166
8.3.5　關於PL/Container的開發 167
8.4　小結 167
第9章　MADlib 機器學習庫 168
9.1　MADlib入門 168
9.1.1　MADlib簡介 168
9.1.2　MADlib的特點 169
9.1.3　MADlib與其他機器學習算法庫的比較 172
9.1.4　MADlib的快速安裝 173
9.2　MADlib的架構 174
9.2.1　SQL用戶接口 174
9.2.2　Python驅動函數 175
9.2.3　C++機器學習算法實現 175
9.2.4　C++數據庫抽象層 176
9.3　MADlib應用 177
9.3.1　數據預處理 177
9.3.2　監督學習 178
9.3.3　非監督學習 184
9.3.4　時間序列 187
9.3.5　自定義機器學習算法 188
9.4　小結 191
第10章　Greenplum半結構化文本數據分析 192
10.1　GPText文本分析概述 192
10.1.1　GPText數據提取 192
10.1.2　GPText的文本處理、索引流程和高階分析 193
10.2　GPText內置的全文檢索引擎：Apache SolrCloud 194
10.3　GPText架構：高速並行索引和查詢 195
10.4　數據準備 197
10.5　GPText的使用：簡單的SQL和UDF函數 198
10.6　GPText的安裝 200
10.7　GPText索引 201
10.7.1　創建GPText索引 201
10.7.2　加載GPText索引 204
10.7.3　GPText 增減索引列 205
10.8　GPText簡單查詢 205
10.8.1　GPText 查詢的語法 205
10.8.2　GPText 臨近查詢 206
10.8.3　GPText top查詢 206
10.9　GPText高級查詢 207
10.9.1　GPText Facet 查詢 207
10.9.2　GPText 高亮查詢結果 209
10.10　GPText分區錶查詢 210
10.11　GPText對自然語言處理的支持 211
10.12　GPText定製化索引 213
10.13　GPText管理工具 214
10.14　GPText用於文本挖掘和分析 215
10.15　小結 216
第11章　地理空間數據分析和處理 218
11.1　概述 218
11.1.1　什麼是地理空間數據 218
11.1.2　地理空間數據應用與分析中的挑戰 220
11.2　Greenplum PostGIS 223
11.2.1　Greenplum PostGIS 簡介 223
11.2.2　安裝Greenplum PostGIS 組件 224
11.2.3　第一次使用 227
11.3　Greenplum PostGIS應用實例 228
11.3.1　GIS數據準備 228
11.3.2　使用Greenplum PostGIS空間數據操作符進行GIS數據查詢 230
11.3.3　使用Greenplum PostGIS的UDF進行GIS數據分析 233
11.3.4　柵格數據 235
11.4　小結 239
第12章　Greenplum數據庫與圖計算 240
12.1　圖的概念 240
12.2　圖的應用 241
12.2.1　電子電路設計自動化 241
12.2.2　搜索引擎 242
12.2.3　社交網絡 242
12.3　圖數據的處理 243
12.4　Greenplum對圖數據的支持 244
12.5　MADlib中的圖結構和算法 245
12.5.1　圖的錶示 245
12.5.2　MADlib支持的圖算法 245
12.5.3　MADlib圖算法詳解 246
12.6　小結 277
第四部分　Greenplum的運維和遷移
第13章　Greenplum的監控和管理 281
13.1　監控Greenplum集群的狀態 282
13.1.1　gpstate命令 282
13.1.2　係統錶gp_segment_configuration 283
13.1.3　Segment的故障恢復和再平衡 284
13.1.4　常用的監控命令 287
13.2　管理Greenplum集群 289
13.2.1　參數配置 289
13.2.2　訪問管理 290
13.2.3　統計信息 292
13.2.4　管理錶膨脹 294
13.3　Greenplum指令中心（GPCC） 297
13.3.1　GPCC簡介 297
13.3.2　可視化監控 298
13.3.3　查詢監控和分析 301
13.3.4　工作負載管理 305
13.3.5　監控告警係統 307
13.4　小結 309
第14章　Greenplum數據庫的備份、恢復和遷移 310
14.1　非並行數據庫備份 310
14.2　非並行數據庫恢復 313
14.3　並行數據庫備份 313
14.4　並行數據庫恢復 316
14.5　高效的並行數據庫備份和恢復工具gpbackup/gprestore 317
14.6　新一代Greenplum數據遷移工具GPCOPY 322
14.7　小結 324
第15章　從Oracle遷移到Greenplum 326
15.1　概述 326
15.2　Oracle與Greenplum的架構對比 327
15.2.1　Oracle的主要痛點 329
15.2.2　Greenplum的優勢 330
15.3　從Oracle遷移到Greenplum的流程 331
15.3.1　遷移場景 332
15.3.2　遷移過程 334
15.3.3　特殊場景分析 344
15.4　小結 352
第16章　從Teradata遷移到Greenplum 353
16.1　Teradata産品和用戶麵臨的問題 353
16.2　從Teradata遷移到Greenplum的可行性 354
16.3　如何從Teradata遷移到Greenplum 356
16.3.1　遷移流程概述 356
16.3.2　Teradata數據卸載及DDL導齣規範 357
16.3.3　數據操作語句轉換 364
16.3.4　函數轉換 367
16.3.5　ETL應用工具連接轉換 369
16.3.6　其他應用接口遷移 372
16.4　特殊場景 373
16.4.1　事前微批去重 373
16.4.2　事後批量去重 374
16.5　小結 374
附錄A　Greenplum社區 375
附錄B　外部錶實例 380
附錄C　Greenplum的SSL證書 386
術語錶 390
· · · · · · (收起)