作者介紹 XII
關於封麵圖 XIII
前言 XIV
第1章 簡介:什麼是數據科學 1
1.1 大數據和數據科學的喧囂 1
1.2 衝齣迷霧 2
1.3 為什麼是現在 3
1.4 數據科學的現狀和曆史 5
1.5 數據科學的知識結構 8
1.6 思維實驗:元定義 10
1.7 什麼是數據科學傢 11
1.7.1 學術界對數據科學傢的定義 12
1.7.2 工業界對數據科學傢的定義 12
第2章 統計推斷、探索性數據分析和數據科學工作流程 14
2.1 大數據時代的統計學思考 14
2.1.1 統計推斷 15
2.1.2 總體和樣本 16
2.1.3 大數據的總體和樣本 17
2.1.4 大數據意味著大膽的假設 19
2.1.5 建模 21
2.2 探索性數據分析 26
2.2.1 探索性數據分析的哲學 27
2.2.2 練習:探索性數據分析 29
2.3 數據科學的工作流程 31
2.4 思維實驗:如何模擬混沌 34
2.5 案例學習:RealDirect 35
2.5.1 RealDirect是如何賺錢的 36
2.5.2 練一練:RealDirect公司的數據策略 36
第3章 算法 39
3.1 機器學習算法 40
3.2 三大基本算法 41
3.2.1 綫性迴歸模型 42
3.2.2 k 近鄰模型(k-NN) 55
3.2.3 k 均值算法 64
3.3 練習:機器學習算法基礎 68
3.4 總結 72
3.5 思維實驗:關於統計學傢的自動化 73
第4章 垃圾郵件過濾器、樸素貝葉斯與數據清理 74
4.1 思維實驗:從實例中學習 74
4.1.1 綫性迴歸為何不適用 75
4.1.2 k 近鄰效果如何 77
4.2 樸素貝葉斯模型 78
4.2.1 貝葉斯法則 79
4.2.2 個彆單詞的過濾器 80
4.2.3 直通樸素貝葉斯 82
4.3 拉普拉斯平滑法 83
4.4 對比樸素貝葉斯和k 近鄰 85
4.5 Bash代碼示例 85
4.6 網頁抓取:API和其他工具 87
4.7 Jake的練習題:文章分類問題中的樸素貝葉斯模型 88
第5章 邏輯迴歸 92
5.1 思維實驗 93
5.2 分類器 94
5.2.1 運行時間 95
5.2.2 你自己 95
5.2.3 模型的可解釋性 95
5.2.4 可擴展性 96
5.3 邏輯迴歸:一個來自M6D 的真實案例研究 96
5.3.1 點擊模型 96
5.3.2 模型背後 97
5.3.3 α和β 的參數估計 99
5.3.4 牛頓法 101
5.3.5 隨機梯度下降法 101
5.3.6 操練 101
5.3.7 模型評價 102
5.4 練習題 105
第6章 時間戳數據與金融建模 110
6.1 Kyle Teague與GetGlue公司 110
6.2 時間戳 112
6.2.1 探索性數據分析(EDA) 113
6.2.2 指標和新變量 117
6.2.3 下一步怎麼做 117
6.3 輪到Cathy O'Neill瞭 118
6.4 思維實驗 118
6.5 金融建模 119
6.5.1 樣本期內外以及因果關係 120
6.5.2 金融數據處理 121
6.5.3 對數收益率 123
6.5.4 實例:標準普爾指數 124
6.5.5 如何衡量波動率 126
6.5.6 指數平滑法 128
6.5.7 金融模型的反饋 128
6.5.8 聊聊迴歸模型 130
6.5.9 先驗信息量 130
6.5.10 一個小例子 131
6.6 練習:GetGlue提供的時間戳數據 134
第7章 從數據到結論 136
7.1 William Cukierski 136
7.1.1 背景介紹:數據科學競賽 136
7.1.2 背景介紹:眾包模式 137
7.2 Kaggle模式 139
7.2.1 Kaggle的參賽者 140
7.2.2 Kaggle的客戶 141
7.3 思維實驗:關於作業自動評分係統 143
7.4 特徵選擇 145
7.4.1 例子:留住用戶 146
7.4.2 過濾型 149
7.4.3 包裝型 149
7.4.4 決策樹與嵌入型變量選擇 151
7.4.5 熵 153
7.4.6 決策樹算法 155
7.4.7 如何在決策樹模型中處理連續性變量 156
7.4.8 隨機森林 157
7.4.9 用戶黏性:模型的預測能力與可解釋性 159
7.5 David Huffaker:榖歌社會學研究的新方法 160
7.5.1 從描述性統計到預測模型 161
7.5.2 榖歌的社交研究 163
7.5.3 隱私保護 163
7.5.4 思維實驗:如何消除用戶的顧慮 164
第8章 構建麵嚮大量用戶的推薦引擎 165
8.1 一個真實的推薦引擎 166
8.1.1 最近鄰算法迴顧 167
8.1.2 最近鄰模型的已知問題 168
8.1.3 超越近鄰模型:基於機器學習的分類模型 169
8.1.4 高維度問題 171
8.1.5 奇異值分解(SVD) 172
8.1.6 關於SVD的重要特性 172
8.1.7 主成分分析(PCA) 173
8.1.8 交替最小二乘法 174
8.1.9 固定矩陣V,更新矩陣U 175
8.1.10 關於這些算法的一點思考 176
8.2 思維實驗:如何過濾模型中的泡沫 176
8.3 練習:搭建自己的推薦係統 176
第9章 數據可視化與欺詐偵測 179
9.1 數據可視化的曆史 179
9.1.1 Gabriel Tarde 180
9.1.2 Mark 的思維實驗 181
9.2 到底什麼是數據科學 181
9.2.1 Processing 182
9.2.2 Franco Moretti 182
9.3 一個數據可視化的方案實例 183
9.4 Mark 的數據可視化項目 186
9.4.1 《紐約時報》大廳裏的可視化:Moveable Type 186
9.4.2 屏幕上的生命:Cascade可視化項目 188
9.4.3 Cronkite廣場項目 189
9.4.4 eBay與圖書網購 190
9.4.5 公共劇場裏的“莎士比亞機” 192
9.4.6 這些展覽的目的是什麼 193
9.5 數據科學和風險 193
9.5.1 關於Square公司 194
9.5.2 支付風險 194
9.5.3 模型效果的評估問題 197
9.5.4 建模小貼士 200
9.6 數據可視化在Square 203
9.7 Ian的思維實驗 204
9.8 關於數據可視化 204
第10章 社交網絡與數據新聞學 207
10.1 Morning Analytics與社交網絡 207
10.2 社交網絡分析 209
10.3 關於社交網絡分析的相關術語 209
10.3.1 如何衡量嚮心性 210
10.3.2 使用哪種嚮心性測度 211
10.4 思維實驗 212
10.5 Morningside Analytics 212
10.6 從統計學的角度看社交網絡分析 215
10.6.1 網絡的錶示方法與特徵值嚮心度 215
10.6.2 隨機網絡的第一個例子:Erdos-Renyi模型 217
10.6.3 隨機網絡的第二個例子:指數隨機網絡圖模型 217
10.7 數據新聞學 220
10.7.1 關於數據新聞學的曆史迴顧 220
10.7.2 數據新聞報告的寫作:來自專傢的建議 220
第11章 因果關係研究 222
11.1 相關性並不代錶因果關係 223
11.1.1 對因果關係提問 223
11.1.2 乾擾因子:一個關於在綫約會網站的例子 224
11.2 OK Cupid的發現 225
11.3 黃金準則:隨機化臨床實驗 226
11.4 A/B測試 228
11.5 退一步求其次:關於觀察性研究 229
11.5.1 辛普森悖論 230
11.5.2 魯賓因果關係模型 231
11.5.3 因果關係的可視化 232
11.5.4 定義:因果關係 233
11.6 三個小建議 235
第12章 流行病學 236
12.1 Madigan的學術背景 236
12.2 思維實驗 237
12.3 統計學在現代 238
12.4 醫學文獻與觀察性研究 238
12.5 分層法不解決乾擾因子的問題 239
12.6 就沒有更好的辦法嗎 241
12.7 研究性實驗(OMOP) 242
12.8 最後的思維實驗 246
第13章 從競賽中學到的:數據泄漏和模型評價 247
13.1 Claudia作為數據科學傢的知識結構 247
13.1.1 首席數據科學傢的生活 248
13.1.2 作為一名女數據科學傢 248
13.2 數據挖掘競賽 249
13.3 如何成為齣色的建模者 250
13.4 數據泄漏 250
13.4.1 市場預測 251
13.4.2 亞馬遜案例學習:齣手闊綽的顧客 251
13.4.3 珠寶抽樣問題 251
13.4.4 IBM 客戶鎖定 252
13.4.5 乳腺癌檢測 253
13.4.6 預測肺炎 253
13.5 如何避免數據泄漏 254
13.6 模型評價 255
13.6.1 準確度重要嗎 256
13.6.2 概率的重要性,不是非0 即1 256
13.7 如何選擇算法 259
13.8 最後一個例子 259
13.9 臨彆感言 260
第14章 數據工程:MapReduce、Pregel、Hadoop 261
14.1 關於David Crawshaw 262
14.2 思維實驗 262
14.3 MapReduce 263
14.4 單詞頻率問題 264
14.5 其他MapReduce案例 267
14.6 Pregel 268
14.7 關於Josh Wills 269
14.8 思維實驗 269
14.9 給數據科學傢的話 269
14.9.1 數據豐富和數據匱乏 270
14.9.2 設計模型 270
14.10 算算Hadoop的經濟賬 270
14.10.1 Hadoop簡介 271
14.10.2 Cloudera 271
14.11 Josh 的工作流程 272
14.12 如何開始使用Hadoop 272
第15章 聽聽學生們怎麼說 273
15.1 重在過程 273
15.2 不再簡單 274
15.3 援助之手 275
15.4 殊途同歸 277
15.5 逢山開路,遇水架橋 279
15.6 作品展示 279
第16章 下一代數據科學傢、自大狂和職業道德 281
16.1 前麵都講瞭些什麼 281
16.2 什麼是數據科學(再問一次) 282
16.3 誰是下一代的數據科學傢 283
16.3.1 成為解決問題的人 284
16.3.2 培養軟技能 284
16.3.3 成為提問者 285
16.4 做一個有道德感的數據科學傢 286
16.5 對於職業生涯的建議 289
· · · · · · (
收起)