第1 章 嚮量、矩陣和數組 ..................................................................... 1
1.0 簡介 .....................................................................................................1
1.1 創建一個嚮量 ......................................................................................1
1.2 創建一個矩陣 ......................................................................................2
1.3 創建一個稀疏矩陣 ...............................................................................3
1.4 選擇元素 ..............................................................................................5
1.5 展示一個矩陣的屬性 ...........................................................................6
1.6 對多個元素同時應用某個操作 ............................................................7
1.7 找到最大值和最小值 ...........................................................................8
1.8 計算平均值、方差和標準差 ................................................................9
1.9 矩陣變形 ............................................................................................10
1.10 轉置嚮量或矩陣 ............................................................... 11
1.11 展開一個矩陣 ....................................................................................12
1.12 計算矩陣的秩 ....................................................................................13
1.13 計算行列式 ........................................................................................14
1.14 獲取矩陣的對角綫元素 .....................................................................14
1.15 計算矩陣的跡 ....................................................................................15
1.16 計算特徵值和特徵嚮量 .....................................................................16
1.17 計算點積 ...........................................................................................17
1.18 矩陣的相加或相減 ............................................................................18
1.19 矩陣的乘法 ........................................................................................19
1.20 計算矩陣的逆 ....................................................................................20
1.21 生成隨機數 ........................................................................................21
第2 章 加載數據 ................................................................................ 23
2.0 簡介 ...................................................................................................23
2.1 加載樣本數據集 ................................................................................23
2.2 創建仿真數據集 ................................................................................25
2.3 加載CSV 文件 ..................................................................................28
2.4 加載Excel 文件 .................................................................................29
2.5 加載JSON 文件 .................................................................................29
2.6 查詢SQL 數據庫 ...............................................................................31
第3 章 數據整理 ................................................................................ 33
3.0 簡介 ...................................................................................................33
3.1 創建一個數據幀 ................................................................................34
3.2 描述數據 ............................................................................................35
3.3 瀏覽數據幀 ........................................................................................37
3.4 根據條件語句來選擇行 .....................................................................39
3.5 替換值 ...............................................................................................40
3.6 重命名列 ............................................................................................41
3.7 計算最小值、最大值、總和、平均值與計數值 ................................43
3.8 查找唯一值 ........................................................................................44
3.9 處理缺失值 ........................................................................................45
3.10 刪除一列 ...........................................................................................47
3.11 刪除一行 ............................................................................................48
3.12 刪除重復行 ........................................................................................49
3.13 根據值對行分組 ................................................................................51
3.14 按時間段對行分組 ............................................................................52
3.15 遍曆一個列的數據 ............................................................................54
3.16 對一列的所有元素應用某個函數 ......................................................55
3.17 對所有分組應用一個函數 .................................................................56
3.18 連接多個數據幀 ................................................................................57
3.19 閤並兩個數據幀 ................................................................................59
第4 章 處理數值型數據 ...................................................................... 63
4.0 簡介 ...................................................................................................63
4.1 特徵的縮放 ........................................................................................63
4.2 特徵的標準化 ....................................................................................65
4.3 歸一化觀察值 ....................................................................................66
4.4 生成多項式和交互特徵 .....................................................................69
4.5 轉換特徵 ............................................................................................70
4.6 識彆異常值 ........................................................................................71
4.7 處理異常值 ........................................................................................73
4.8 將特徵離散化 ....................................................................................75
4.9 使用聚類的方式將觀察值分組 ..........................................................77
4.10 刪除帶有缺失值的觀察值 .................................................................79
4.11 填充缺失值 ........................................................................................81
第5 章 處理分類數據 ......................................................................... 83
5.0 簡介 ...................................................................................................83
5.1 對nominal 型分類特徵編碼 ..............................................................84
5.2 對ordinal 分類特徵編碼 ....................................................................86
5.3 對特徵字典編碼 ................................................................................88
5.4 填充缺失的分類值 .............................................................................91
5.5 處理不均衡分類 ................................................................................93
第6 章 處理文本 ................................................................................ 97
6.0 簡介 ...................................................................................................97
6.1 清洗文本 ............................................................................................97
6.2 解析並清洗HTML ............................................................................99
6.3 移除標點 .......................................................................................... 100
6.4 文本分詞 .......................................................................................... 101
6.5 刪除停止詞(stop word)......................................... 102
6.6 提取詞乾 .......................................................................................... 103
6.7 標注詞性 .......................................................................................... 104
6.8 將文本編碼成詞袋(Bag of Words)................................................ 107
6.9 按單詞的重要性加權 ....................................... 109
第7 章 處理日期和時間 .................................................................... 113
7.0 簡介 ................................................................................................. 113
7.1 把字符串轉換成日期 ......................................................... 113
7.2 處理時區 .......................................................................................... 115
7.3 選擇日期和時間 .............................................................................. 116
7.4 將日期數據切分成多個特徵 ............................................................ 117
7.5 計算兩個日期之間的時間差 ............................................................ 118
7.6 對一周內的各天進行編碼 ............................................................... 119
7.7 創建一個滯後的特徵 ....................................................... 120
7.8 使用滾動時間窗口 ........................................................................... 121
7.9 處理時間序列中的缺失值 ............................................................... 123
第8 章 圖像處理 .............................................................................. 127
8.0 簡介 ................................................................................................. 127
8.1 加載圖像 .......................................................................................... 128
8.2 保存圖像 .......................................................................................... 130
8.3 調整圖像大小 .................................................................................. 131
8.4 裁剪圖像 .......................................................................................... 132
8.5 平滑處理圖像 .................................................................................. 133
8.6 圖像銳化 .......................................................................................... 136
8.7 提升對比度 .................................................................. 138
8.8 顔色分離 .......................................................................................... 140
8.9 圖像二值化 .......................................... 142
8.10 移除背景............................................. 144
8.11 邊緣檢測 .......................................................................................... 148
8.12 角點檢測 ................................. 150
8.13 為機器學習創建特徵 ................................................. 153
8.14 將顔色平均值編碼成特徵 ............................................................... 156
8.15 將色彩直方圖編碼成特徵 ............................................................... 157
第9 章 利用特徵提取進行特徵降維 ................................................... 161
9.0 簡介 ................................................................................................. 161
9.1 使用主成分進行特徵降維 ............................................................... 161
9.2 對綫性不可分數據進行特徵降維 .................................................... 164
9.3 通過最大化類間可分性進行特徵降維 ............................................. 166
9.4 使用矩陣分解法進行特徵降維...................................... 169
9.5 對稀疏數據進行特徵降維 ............................................................... 170
第10 章 使用特徵選擇進行降維 ........................................................ 173
10.0 簡介........................................................... 173
10.1 數值型特徵方差的閾值化...................................... 173
10.2 二值特徵的方差閾值化............................................ 175
10.3 處理高度相關性的特徵 .......................................... 176
10.4 刪除與分類任務不相關的特徵 ...................................................... 178
10.5 遞歸式特徵消除 ............................................................................ 180
第11 章 模型評估 ............................................................................ 183
11.0 簡介 ...................................................................... 183
11.1 交叉驗證模型 .......................................... 183
11.2 創建一個基準迴歸模型........................................ 187
11.3 創建一個基準分類模型 .................................. 188
11.4 評估二元分類器 ................................................ 190
11.5 評估二元分類器的閾值 ..................................... 193
11.6 評估多元分類器 .......................................................... 197
11.7 分類器性能的可視化 ..................................................................... 198
11.8 評估迴歸模型 ............................................. 201
11.9 評估聚類模型 ............................................................ 203
11.10 創建自定義評估指標 ..................................................................... 204
11.11 可視化訓練集規模的影響 ............................................................. 206
11.12 生成對評估指標的報告 .................................................... 208
11.13 可視化超參數值的效果 ................................................. 209
第12 章 模型選擇 ............................................................................ 213
12.0 簡介 .................................................... 213
12.1 使用窮舉搜索選擇最佳模型 .......................................................... 213
12.2 使用隨機搜索選擇最佳模型 .......................................................... 216
12.3 從多種學習算法中選擇最佳模型.................. 218
12.4 將數據預處理加入模型選擇過程 .............................. 220
12.5 用並行化加速模型選擇 ................................. 221
12.6 使用針對特定算法的方法加速模型選擇 ....................................... 223
12.7 模型選擇後的性能評估 ............................ 224
第13 章 綫性迴歸 ............................................................................ 227
13.0 簡介 ........................................ 227
13.1 擬閤一條直綫 .......................................... 227
13.2 處理特徵之間的影響 ..................................................................... 229
13.3 擬閤非綫性關係 ............................................................................ 231
13.4 通過正則化減少方差 ..................................................................... 233
13.5 使用套索迴歸減少特徵 .............................................. 235
第14 章 樹和森林 ............................................................................ 237
14.0 簡介 ............................... 237
14.1 訓練決策樹分類器 ......................................................................... 237
14.2 訓練決策樹迴歸模型 ..................................................................... 239
14.3 可視化決策樹模型 ......................................................................... 240
14.4 訓練隨機森林分類器 ..................................................................... 243
14.5 訓練隨機森林迴歸模型 ............................ 244
14.6 識彆隨機森林中的重要特徵 .......................................................... 245
14.7 選擇隨機森林中的重要特徵 .......................................................... 248
14.8 處理不均衡的分類 ......................................................................... 249
14.9 控製決策樹的規模 ......................................................................... 250
14.10 通過boosting 提高性能 ................................................................ 252
14.11 使用袋外誤差(Out-of-Bag Error)評估隨機森林模型 ................ 253
第15 章 KNN ................................................................................... 255
15.0 簡介 ................................................................... 255
15.1 找到一個觀察值的最近鄰 ................................................. 255
15.2 創建一個KNN 分類器................................................................... 258
15.3 確定最佳的鄰域點集的大小 .......................................................... 260
15.4 創建一個基於半徑的最近鄰分類器 ......................... 261
第16 章 邏輯迴歸 ............................................................................ 263
16.0 簡介 ............................................................... 263
16.1 訓練二元分類器 ............................................................................ 263
16.2 訓練多元分類器 ............................................................................ 265
16.3 通過正則化來減小方差 ............................................. 266
16.4 在超大數據集上訓練分類器 .......................................................... 267
16.5 處理不均衡的分類 ......................................................................... 269
第17 章 支持嚮量機 ......................................................................... 271
17.0 簡介 ..................................................................... 271
17.1 訓練一個綫性分類器 ..................................................................... 271
17.2 使用核函數處理綫性不可分的數據 ..................................... 274
17.3 計算預測分類的概率 ..................................................................... 278
17.4 識彆支持嚮量 ....................................................... 279
17.5 處理不均衡的分類 ......................................................................... 281
第18 章 樸素貝葉斯 ......................................................................... 283
18.0 簡介 ............................................................. 283
18.1 為連續的數據訓練分類器 ............................................. 284
18.2 為離散數據和計數數據訓練分類器 ............................... 286
18.3 為具有二元特徵的數據訓練樸素貝葉斯分類器 ............................ 287
18.4 校準預測概率 ........................................ 288
第19 章 聚類 ................................................................................... 291
19.0 簡介 ................................................................ 291
19.1 使用K-Means 聚類算法 ................................................................ 291
19.2 加速K-Means 聚類 ........................................................................ 294
19.3 使用Meanshift 聚類算法 ............................................................... 295
19.4 使用DBSCAN 聚類算法 ............................................................... 296
19.5 使用層次閤並聚類算法 .......................................... 298
第20 章 神經網絡 ............................................................................ 301
20.0 簡介 ...................................................................... 301
20.1 為神經網絡預處理數據 .................................................... 302
20.2 設計一個神經網絡 ......................................................................... 304
20.3 訓練一個二元分類器 ..................................................................... 307
20.4 訓練一個多元分類器 ..................................................................... 309
20.5 訓練一個迴歸模型 ......................................................................... 311
20.6 做預測 ........................................................................................... 313
20.7 可視化訓練曆史 ............................................................................ 315
20.8 通過權重調節減少過擬閤 ..................................... 318
20.9 通過提前結束減少過擬閤 ........................................ 320
20.10 通過Dropout 減少過擬閤 ............................................................. 322
20.11 保存模型訓練過程 ......................................................................... 324
20.12 使用k 摺交叉驗證評估神經網絡 ................................................ 326
20.13 調校神經網絡 ........................................................................ 328
20.14 可視化神經網絡 ............................................................................ 331
20.15 圖像分類 ....................................................................................... 333
20.16 通過圖像增強來改善捲積神經網絡的性能 .............................. 337
20.17 文本分類 ....................................................................................... 339
第21 章 保存和加載訓練後的模型 ..................................................... 343
21.0 簡介 ....................................................................................... 343
21.1 保存和加載scikit-learn 模型 ......................................................... 343
21.2 保存和加載Keras 模型 .................................................................. 345
· · · · · · (
收起)