機器學習實戰

機器學習實戰 pdf epub mobi txt 電子書 下載2025

出版者:人民郵電齣版社
作者:Peter Harrington
出品人:
頁數:332
译者:李銳
出版時間:2013-6
價格:69.00元
裝幀:
isbn號碼:9787115317957
叢書系列:
圖書標籤:
  • 機器學習
  • python
  • MachineLearning
  • 數據挖掘
  • 算法
  • 數據分析
  • 計算機
  • 編程
  • 機器學習
  • 實戰
  • 算法
  • 編程
  • 數據分析
  • 人工智能
  • 深度學習
  • 模型
  • 應用
  • 案例
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

機器學習是人工智能研究領域中一個極其重要的研究方嚮,在現今的大數據時代背景下,捕獲數據並從中萃取有價值的信息或模式,成為各行業求生存、謀發展的決定性手段,這使得這一過去為分析師和數學傢所專屬的研究領域越來越為人們所矚目。

本書第一部分主要介紹機器學習基礎,以及如何利用算法進行分類,並逐步介紹瞭多種經典的監督學習算法,如k近鄰算法、樸素貝葉斯算法、Logistic迴歸算法、支持嚮量機、AdaBoost集成方法、基於樹的迴歸算法和分類迴歸樹(CART)算法等。第三部分則重點介紹無監督學習及其一些主要算法:k均值聚類算法、Apriori算法、FP-Growth算法。第四部分介紹瞭機器學習算法的一些附屬工具。

全書通過精心編排的實例,切入日常工作任務,摒棄學術化語言,利用高效的可復用Python代碼來闡釋如何處理統計數據,進行數據分析及可視化。通過各種實例,讀者可從中學會機器學習的核心算法,並能將其運用於一些策略性任務中,如分類、預測、推薦。另外,還可用它們來實現一些更高級的功能,如匯總和簡化等。

著者簡介

Peter Harrington

擁有電氣工程學士和碩士學位,他曾經在美國加州和中國的英特爾公司工作7年。Peter擁有5項美國專利,在三種學術期刊上發錶過文章。他現在是Zillabyte公司的首席科學傢,在加入該公司之前,他曾擔任2年的機器學習軟件顧問。Peter在業餘時間還參加編程競賽和建造3D打印機。

圖書目錄

目 錄

第一部分 分類
第1章 機器學習基礎  2
1.1  何謂機器學習  3
1.1.1  傳感器和海量數據  4
1.1.2  機器學習非常重要  5
1.2  關鍵術語  5
1.3  機器學習的主要任務  7
1.4  如何選擇閤適的算法  8
1.5  開發機器學習應用程序的步驟  9
1.6  Python語言的優勢  10
1.6.1  可執行僞代碼  10
1.6.2  Python比較流行  10
1.6.3  Python語言的特色  11
1.6.4  Python語言的缺點  11
1.7  NumPy函數庫基礎  12
1.8  本章小結  13
第2章 k-近鄰算法   15
2.1  k-近鄰算法概述  15
2.1.1  準備:使用Python導入數據  17
2.1.2  從文本文件中解析數據  19
2.1.3  如何測試分類器  20
2.2  示例:使用k-近鄰算法改進約會網站的配對效果  20
2.2.1  準備數據:從文本文件中解析數據  21
2.2.2  分析數據:使用Matplotlib創建散點圖  23
2.2.3  準備數據:歸一化數值  25
2.2.4  測試算法:作為完整程序驗證分類器  26
2.2.5  使用算法:構建完整可用係統  27
2.3  示例:手寫識彆係統  28
2.3.1  準備數據:將圖像轉換為測試嚮量  29
2.3.2  測試算法:使用k-近鄰算法識彆手寫數字  30
2.4  本章小結  31
第3章 決策樹   32
3.1  決策樹的構造  33
3.1.1  信息增益  35
3.1.2  劃分數據集  37
3.1.3  遞歸構建決策樹  39
3.2  在Python中使用Matplotlib注解繪製樹形圖  42
3.2.1  Matplotlib注解  43
3.2.2  構造注解樹  44
3.3  測試和存儲分類器  48
3.3.1  測試算法:使用決策樹執行分類  49
3.3.2  使用算法:決策樹的存儲  50
3.4  示例:使用決策樹預測隱形眼鏡類型  50
3.5  本章小結  52
第4章 基於概率論的分類方法:樸素貝葉斯   53
4.1  基於貝葉斯決策理論的分類方法  53
4.2  條件概率  55
4.3  使用條件概率來分類  56
4.4  使用樸素貝葉斯進行文檔分類  57
4.5  使用Python進行文本分類  58
4.5.1  準備數據:從文本中構建詞嚮量  58
4.5.2  訓練算法:從詞嚮量計算概率  60
4.5.3  測試算法:根據現實情況修改分類器  62
4.5.4  準備數據:文檔詞袋模型  64
4.6  示例:使用樸素貝葉斯過濾垃圾郵件  64
4.6.1  準備數據:切分文本  65
4.6.2  測試算法:使用樸素貝葉斯進行交叉驗證  66
4.7  示例:使用樸素貝葉斯分類器從個人廣告中獲取區域傾嚮  68
4.7.1  收集數據:導入RSS源  68
4.7.2  分析數據:顯示地域相關的用詞  71
4.8  本章小結  72
第5章 Logistic迴歸   73
5.1  基於Logistic迴歸和Sigmoid函數的分類  74
5.2  基於最優化方法的最佳迴歸係數確定  75
5.2.1  梯度上升法  75
5.2.2  訓練算法:使用梯度上升找到最佳參數  77
5.2.3  分析數據:畫齣決策邊界  79
5.2.4  訓練算法:隨機梯度上升  80
5.3  示例:從疝氣病癥預測病馬的死亡率  85
5.3.1  準備數據:處理數據中的缺失值  85
5.3.2  測試算法:用Logistic迴歸進行分類  86
5.4  本章小結  88
第6章 支持嚮量機  89
6.1  基於最大間隔分隔數據  89
6.2  尋找最大間隔  91
6.2.1  分類器求解的優化問題  92
6.2.2  SVM應用的一般框架  93
6.3  SMO高效優化算法  94
6.3.1  Platt的SMO算法  94
6.3.2  應用簡化版SMO算法處理小規模數據集  94
6.4  利用完整Platt SMO算法加速優化  99
6.5  在復雜數據上應用核函數  105
6.5.1  利用核函數將數據映射到高維空間  106
6.5.2  徑嚮基核函數  106
6.5.3  在測試中使用核函數  108
6.6  示例:手寫識彆問題迴顧  111
6.7  本章小結  113
第7章 利用AdaBoost元算法提高分類
性能   115
7.1  基於數據集多重抽樣的分類器  115
7.1.1  bagging:基於數據隨機重抽樣的分類器構建方法  116
7.1.2  boosting  116
7.2  訓練算法:基於錯誤提升分類器的性能  117
7.3  基於單層決策樹構建弱分類器  118
7.4  完整AdaBoost算法的實現  122
7.5  測試算法:基於AdaBoost的分類  124
7.6  示例:在一個難數據集上應用AdaBoost  125
7.7  非均衡分類問題  127
7.7.1  其他分類性能度量指標:正確率、召迴率及ROC麯綫  128
7.7.2  基於代價函數的分類器決策控製  131
7.7.3  處理非均衡問題的數據抽樣方法  132
7.8  本章小結  132
第二部分 利用迴歸預測數值型數據
第8章 預測數值型數據:迴歸   136
8.1  用綫性迴歸找到最佳擬閤直綫  136
8.2  局部加權綫性迴歸  141
8.3  示例:預測鮑魚的年齡  145
8.4  縮減係數來“理解”數據  146
8.4.1  嶺迴歸  146
8.4.2  lasso  148
8.4.3  前嚮逐步迴歸  149
8.5  權衡偏差與方差  152
8.6  示例:預測樂高玩具套裝的價格  153
8.6.1  收集數據:使用Google購物的API  153
8.6.2  訓練算法:建立模型  155
8.7  本章小結  158
第9章 樹迴歸  159
9.1  復雜數據的局部性建模  159
9.2  連續和離散型特徵的樹的構建  160
9.3  將CART算法用於迴歸  163
9.3.1  構建樹  163
9.3.2  運行代碼  165
9.4  樹剪枝  167
9.4.1  預剪枝  167
9.4.2  後剪枝  168
9.5  模型樹  170
9.6  示例:樹迴歸與標準迴歸的比較  173
9.7  使用Python的Tkinter庫創建GUI  176
9.7.1  用Tkinter創建GUI  177
9.7.2  集成Matplotlib和Tkinter  179
9.8  本章小結  182
第三部分 無監督學習
第10章 利用K-均值聚類算法對未標注數據分組  184
10.1  K-均值聚類算法  185
10.2  使用後處理來提高聚類性能  189
10.3  二分K-均值算法  190
10.4  示例:對地圖上的點進行聚類  193
10.4.1  Yahoo! PlaceFinder API  194
10.4.2  對地理坐標進行聚類  196
10.5  本章小結  198
第11章 使用Apriori算法進行關聯分析  200
11.1  關聯分析  201
11.2  Apriori原理  202
11.3  使用Apriori算法來發現頻繁集  204
11.3.1  生成候選項集  204
11.3.2  組織完整的Apriori算法  207
11.4  從頻繁項集中挖掘關聯規則  209
11.5  示例:發現國會投票中的模式  212
11.5.1  收集數據:構建美國國會投票記錄的事務數據集  213
11.5.2  測試算法:基於美國國會投票記錄挖掘關聯規則  219
11.6  示例:發現毒蘑菇的相似特徵  220
11.7  本章小結  221
第12章 使用FP-growth算法來高效發現頻繁項集  223
12.1  FP樹:用於編碼數據集的有效方式  224
12.2  構建FP樹  225
12.2.1  創建FP樹的數據結構  226
12.2.2  構建FP樹  227
12.3  從一棵FP樹中挖掘頻繁項集  231
12.3.1  抽取條件模式基  231
12.3.2  創建條件FP樹  232
12.4  示例:在Twitter源中發現一些共現詞  235
12.5  示例:從新聞網站點擊流中挖掘  238
12.6  本章小結  239
第四部分 其他工具
第13章 利用PCA來簡化數據  242
13.1  降維技術  242
13.2  PCA  243
13.2.1  移動坐標軸  243
13.2.2  在NumPy中實現PCA  246
13.3  示例:利用PCA對半導體製造數據降維  248
13.4  本章小結  251
第14章 利用SVD簡化數據  252
14.1  SVD的應用  252
14.1.1  隱性語義索引  253
14.1.2  推薦係統  253
14.2  矩陣分解  254
14.3  利用Python實現SVD  255
14.4  基於協同過濾的推薦引擎  257
14.4.1  相似度計算  257
14.4.2  基於物品的相似度還是基於用戶的相似度?  260
14.4.3  推薦引擎的評價  260
14.5  示例:餐館菜肴推薦引擎  260
14.5.1  推薦未嘗過的菜肴  261
14.5.2  利用SVD提高推薦的效果  263
14.5.3  構建推薦引擎麵臨的挑戰  265
14.6  基於SVD的圖像壓縮  266
14.7  本章小結  268
第15章 大數據與MapReduce  270
15.1  MapReduce:分布式計算的框架  271
15.2  Hadoop流  273
15.2.1  分布式計算均值和方差的mapper  273
15.2.2  分布式計算均值和方差的reducer  274
15.3  在Amazon網絡服務上運行Hadoop程序  275
15.3.1  AWS上的可用服務  276
15.3.2  開啓Amazon網絡服務之旅  276
15.3.3  在EMR上運行Hadoop作業  278
15.4  MapReduce上的機器學習  282
15.5  在Python中使用mrjob來自動化MapReduce  283
15.5.1  mrjob與EMR的無縫集成  283
15.5.2  mrjob的一個MapReduce腳本剖析  284
15.6  示例:分布式SVM的Pegasos算法  286
15.6.1  Pegasos算法  287
15.6.2  訓練算法:用mrjob實現MapReduce版本的SVM  288
15.7  你真的需要MapReduce嗎?  292
15.8  本章小結  292
附錄A  Python入門  294
附錄B  綫性代數  303
附錄C  概率論復習  309
附錄D  資源  312
索引  313
版權聲明  316
· · · · · · (收起)

讀後感

評分

1. 这本书的价值是提供了一系列有趣的「实验作业」和「对应的数据」,以及乱七八糟的 Python 代码,迫使读者在同样数据集上自己写一个更好的。 2. 作者的 Python 代码写得真的真的很渣。 3. 作者的 SVM 写错了,不是 Platt 的原始 SMO 算法,里面的 error cache 形同虚设。 ...  

評分

評分

尽管评论里对这本书褒贬不一,我觉得这些都是根据每个人不同的能力背景出发而给的评论。而对于我这样能力的人来说,这本书可以说是最适合了。我是什么能力状况呢,计算机专业背景,有那么几年开发经验,但是机器学习方面是小白。 看这本书需要一定的编程经验,但不需要很强,...  

評分

这本书最大的优点在于有源码实现,很赞,但是理论部分太差了,看了逻辑回归和支持向量机两章,发现好多理论都没讲,就比如逻辑回归中的Cost函数都没说,如果不了解,源码读起来也是一头雾水,所以对于初学者还需要一本理论较强的书,推荐李航博士的统计机器学习方法,刚好配套~  

評分

1. 这本书的价值是提供了一系列有趣的「实验作业」和「对应的数据」,以及乱七八糟的 Python 代码,迫使读者在同样数据集上自己写一个更好的。 2. 作者的 Python 代码写得真的真的很渣。 3. 作者的 SVM 写错了,不是 Platt 的原始 SMO 算法,里面的 error cache 形同虚设。 ...  

用戶評價

评分

代碼質量不行,感覺這作者 Python 水平太一般。當作入門讀物還不錯。

评分

講的比較清楚,雖然偏基礎一些

评分

曆時1個月,終於讀完。問自己,當初在學校的時間都在乾嘛呢?全書分為4個部分,分彆是分類(有監督學習,包括KNN/決策樹/樸素貝葉斯/邏輯斯蒂迴歸/svm/改變樣本權重的bagging和adaboosting)、迴歸(有監督學習,綫性迴歸、局部加權、特徵維度比樣本個數多時縮減係數,如嶺迴歸、lasso等,樹迴歸,這塊掌握不太好)、無監督學習(kmeans、apriori/fp-growth)以及其他工具(PCA/SVD/MAPREDUCE)。基本上都比較清楚瞭,過段時間再刷一遍代碼吧

评分

比較老舊瞭。

评分

比較老舊瞭。

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有