前言.................................................................................................................... viii
第1章 集體智慧導言......................................................................................... 1
什麼是集體智慧......................................................................................................................2
什麼是機器學習......................................................................................................................3
機器學習的局限......................................................................................................................4
真實生活中的例子..................................................................................................................5
學習型算法的其他用途..........................................................................................................5
第2章 提供推薦................................................................................................ 7
協作型過濾..............................................................................................................................7
搜集偏好.................................................................................................................................8
尋找相近的用戶......................................................................................................................9
推薦物品...............................................................................................................................15
匹配商品...............................................................................................................................17
構建一個基於del.icio.us的鏈接推薦係統..........................................................................19
基於物品的過濾....................................................................................................................22
使用MovieLens數據集........................................................................................................25
基於用戶進行過濾還是基於物品進行過濾........................................................................27
練習.......................................................................................................................................28
第3章 發現群組.............................................................................................. 29
監督學習和無監督學習........................................................................................................29
單詞嚮量...............................................................................................................................30
分級聚類...............................................................................................................................33
繪製樹狀圖............................................................................................................................38
列聚類...................................................................................................................................40
K-均值聚類............................................................................................................................42
針對偏好的聚類....................................................................................................................44
以二維形式展現數據............................................................................................................49
有關聚類的其他事宜............................................................................................................53
練習.......................................................................................................................................53
第4章 搜索與排名.......................................................................................... 54
搜索引擎的組成....................................................................................................................54
一個簡單的爬蟲程序............................................................................................................56
建立索引...............................................................................................................................58
查詢.......................................................................................................................................63
基於內容的排名....................................................................................................................64
利用外部迴指鏈接................................................................................................................69
從點擊行為中學習................................................................................................................74
練習.......................................................................................................................................84
第5章 優化..................................................................................................... 86
組團旅遊...............................................................................................................................87
描述題解...............................................................................................................................88
成本函數...............................................................................................................................89
隨機搜索...............................................................................................................................91
爬山法...................................................................................................................................92
模擬退火算法........................................................................................................................95
遺傳算法...............................................................................................................................97
真實的航班搜索..................................................................................................................101
涉及偏好的優化..................................................................................................................106
網絡可視化..........................................................................................................................110
其他可能的應用場閤..........................................................................................................115
練習.....................................................................................................................................116
第6章 文檔過濾.............................................................................................117
過濾垃圾信息......................................................................................................................117
文檔和單詞..........................................................................................................................118
對分類器進行訓練..............................................................................................................119
計算概率..............................................................................................................................121
樸素分類器..........................................................................................................................123
費捨爾方法..........................................................................................................................127
將經過訓練的分類器持久化..............................................................................................132
過濾博客訂閱源..................................................................................................................134
對特徵檢測的改進..............................................................................................................136
使用Akismet........................................................................................................................138
替代方法..............................................................................................................................139
練習.....................................................................................................................................140
第7章 決策樹建模........................................................................................ 142
預測注冊用戶......................................................................................................................142
引入決策樹..........................................................................................................................144
對樹進行訓練......................................................................................................................145
選擇最閤適的拆分方案......................................................................................................147
以遞歸方式構造樹..............................................................................................................149
決策樹的顯示......................................................................................................................151
對新的觀測數據進行分類..................................................................................................153
決策樹的剪枝......................................................................................................................154
處理缺失數據......................................................................................................................156
處理數值型結果..................................................................................................................158
對住房價格進行建模..........................................................................................................158
對“熱度”評價進行建模..................................................................................................161
什麼時候使用決策樹..........................................................................................................164
練習.....................................................................................................................................165
第8章 構建價格模型..................................................................................... 167
構造一個樣本數據集..........................................................................................................167
k-最近鄰算法.......................................................................................................................169
為近鄰分配權重..................................................................................................................172
交叉驗證..............................................................................................................................176
不同類型的變量..................................................................................................................178
對縮放結果進行優化..........................................................................................................181
不對稱分布..........................................................................................................................183
使用真實數據——eBay API...............................................................................................189
何時使用k-最近鄰算法......................................................................................................195
練習.....................................................................................................................................196
第9章 高階分類:核方法與SVM ................................................................. 197
婚介數據集..........................................................................................................................197
數據中的難點......................................................................................................................199
基本的綫性分類..................................................................................................................202
分類特徵..............................................................................................................................205
對數據進行縮放處理..........................................................................................................209
理解核方法..........................................................................................................................211
支持嚮量機..........................................................................................................................215
使用LIBSVM......................................................................................................................217
基於Facebook的匹配........................................................................................................219
練習.....................................................................................................................................225
第10章 尋找獨立特徵................................................................................... 226
搜集一組新聞......................................................................................................................227
先前的方法..........................................................................................................................231
非負矩陣因式分解..............................................................................................................232
結果呈現..............................................................................................................................240
利用股票市場的數據..........................................................................................................243
練習.....................................................................................................................................248
第11章 智能進化.......................................................................................... 250
什麼是遺傳編程..................................................................................................................250
將程序以樹形方式錶示......................................................................................................253
構造初始種群......................................................................................................................257
測試題解..............................................................................................................................259
對程序進行變異..................................................................................................................260
交叉.....................................................................................................................................263
構築環境..............................................................................................................................265
一個簡單的遊戲..................................................................................................................268
更多可能性..........................................................................................................................273
練習.....................................................................................................................................276
第12章 算法總結.......................................................................................... 277
貝葉斯分類器......................................................................................................................277
決策樹分類器......................................................................................................................281
神經網絡..............................................................................................................................285
支持嚮量機..........................................................................................................................289
k-最近鄰...............................................................................................................................293
聚類.....................................................................................................................................296
多維縮放..............................................................................................................................300
非負矩陣因式分解..............................................................................................................302
優化.....................................................................................................................................304
附錄A:第三方函數庫..................................................................................... 309
附錄B:數學公式............................................................................................. 316
索引.................................................................................................................. 323
· · · · · · (
收起)