譯者序
前言
關於本書
關於作者
關於封麵插圖
第1章 大數據世界中的數據科學1
1.1 數據科學和大數據的好處和用途2
1.2 數據種類3
1.2.1 結構化數據3
1.2.2 非結構化數據3
1.2.3 自然語言數據4
1.2.4 計算機數據4
1.2.5 圖類數據5
1.2.6 音頻、視頻和圖像數據5
1.2.7 流數據6
1.3 數據科學過程6
1.3.1 設置研究目標6
1.3.2 檢索數據6
1.3.3 數據準備7
1.3.4 數據探索7
1.3.5 數據建模7
1.3.6 展示與自動化7
1.4 大數據生態係統與數據科學7
1.4.1 分布式文件係統7
1.4.2 分布式編程框架9
1.4.3 數據集成框架9
1.4.4 機器學習框架9
1.4.5 NoSQL數據庫10
1.4.6 調度工具10
1.4.7 基準測試工具10
1.4.8 係統部署11
1.4.9 服務開發11
1.4.10 安全11
1.5 Hadoop工作示例介紹11
1.6 本章小結16
第2章 數據科學過程17
2.1 數據科學過程概述17
2.2 步驟1:定義研究目標並創立項目章程19
2.2.1 瞭解研究的目標和背景20
2.2.2 創立項目章程20
2.3 步驟2:檢索數據20
2.3.1 從存儲在公司內部的數據開始21
2.3.2 不要害怕去購買數據21
2.3.3 檢查數據質量以預防問題發生22
2.4 步驟3:數據的清洗、整閤以及轉換22
2.4.1 數據清洗22
2.4.2 盡可能早地修正錯誤27
2.4.3 從不同的數據源整閤數據28
2.4.4 數據轉換30
2.5 步驟4:探索性數據分析32
2.6 步驟5:構建模型35
2.6.1 模型與變量的選擇35
2.6.2 模型執行36
2.6.3 模型診斷與模型比較39
2.7 步驟6:展示結果並在其上搭建應用程序40
2.8 本章小結40
第3章 機器學習42
3.1 什麼是機器學習,為什麼需要關注它42
3.1.1 機器學習在數據科學中的應用43
3.1.2 機器學習在數據科學過程中的使用43
3.1.3 Python工具在機器學習中的應用44
3.2 建模過程45
3.2.1 特徵工程以及模型選取46
3.2.2 模型的訓練47
3.2.3 模型的驗證47
3.2.4 預測新的觀測值48
3.3 機器學習的類型48
3.3.1 有監督學習48
3.3.2 無監督學習53
3.4 半監督學習60
3.5 本章小結61
第4章 單機上處理大數據63
4.1 大數據處理過程中遇到的難題63
4.2 處理巨量數據的通用技術64
4.2.1 選擇閤適的算法65
4.2.2 選擇閤適的數據結構71
4.2.3 選擇閤適的工具73
4.3 處理大數據集的通用編程技巧75
4.3.1 不必重復發明輪子75
4.3.2 充分利用硬件76
4.3.3 減少計算需求76
4.4 案例研究1:預測惡意URL77
4.4.1 步驟1:確立研究目標77
4.4.2 步驟2:獲取URL數據77
4.4.3 步驟4:數據探索78
4.4.4 步驟5:建模79
4.5 案例研究2:在數據庫中建立一個推薦係統80
4.5.1 所需的工具及技術80
4.5.2 步驟1:研究問題82
4.5.3 步驟3:數據準備82
4.5.4 步驟5:建模86
4.5.5 步驟6:展示與自動化86
4.6 本章小結88
第5章 大數據世界的第一步89
5.1 數據分布存儲和框架處理89
5.1.1 Hadoop:存儲和處理大數據集的框架90
5.1.2 Spark:取代MapReduce以獲得更好的性能92
5.2 案例研究:藉貸的風險評估93
5.2.1 步驟1:研究目標94
5.2.2 步驟2:數據檢索95
5.2.3 步驟3:數據準備98
5.2.4 步驟4(數據探索)和步驟6(報告形成)101
5.3 本章小結111
第6章 瞭解NoSQL112
6.1 NoSQL簡介114
6.1.1 ACID:關係型數據庫核心原則114
6.1.2 CAP理論:多節點數據庫的問題115
6.1.3 NoSQL數據庫的BASE原則116
6.1.4 NoSQL數據庫的種類117
6.2 案例研究:這是什麼疾病123
6.2.1 步驟1:設置研究目標124
6.2.2 步驟2和步驟3:數據檢索與數據準備124
6.2.3 步驟4:數據探索131
6.2.4 再迴到步驟3:為描述疾病概況做數據準備137
6.2.5 再迴到步驟4:為描述疾病概況做數據探索140
6.2.6 步驟6:展示與自動化140
6.3 本章小結141
第7章 圖數據庫的興起143
7.1 互聯數據及圖數據庫概述143
7.2 圖數據庫Neo4j概述146
7.3 數據互聯案例:食譜推薦引擎152
7.3.1 步驟1:設置研究目標153
7.3.2 步驟2:數據檢索154
7.3.3 步驟3:數據準備155
7.3.4 步驟4:數據探索157
7.3.5 步驟5:數據建模159
7.3.6 步驟6:數據展示162
7.4 本章小結162
第8章 文本挖掘和文本分析164
8.1 現實世界中的文本挖掘165
8.2 文本挖掘技術169
8.2.1 詞袋169
8.2.2 詞乾提取和詞形還原170
8.2.3 決策樹分類器171
8.3 案例研究:Reddit帖子分類173
8.3.1 自然語言工具包173
8.3.2 數據科學過程綜述及第1步:研究目標175
8.3.3 第2步:數據檢索175
8.3.4 第3步:數據準備178
8.3.5 步驟4:數據探索180
8.3.6 再迴到步驟3:數據準備的調整182
8.3.7 步驟5:數據分析185
8.3.8 步驟6:展示與自動化188
8.4 本章小結189
第9章 麵嚮終端用戶的數據可視化191
9.1 數據可視化選項192
9.2 Crossfilter—JavaScript MapReduce庫194
9.2.1 安裝195
9.2.2 利用Crossfilter篩選藥品數據集198
9.3 用dc.js創建一個交互式控製麵闆201
9.4 控製麵闆開發工具205
......
· · · · · · (
收起)