精通數據科學：從綫性迴歸到深度學習 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:人民郵電齣版社

作者:唐亙

出品人:異步圖書

頁數:432

译者:

出版時間:2018-5-8

價格:99.00元

裝幀:平裝

isbn號碼:9787115479105

叢書系列:深度學習係列

圖書標籤:

數據科學
機器學習
Python
統計分析
數據分析
算法
人工智能
AI
數據科學
機器學習
綫性迴歸
深度學習
統計建模
Python
人工智能
算法
編程
模型訓練

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到小美書屋

book.quotespace.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

數據科學是一門內涵很廣的學科，它涉及到統計分析、機器學習以及計算機科學三方麵的知識和技能。本書深入淺齣、全麵係統地介紹瞭這門學科的內容。

本書分為13章，最初的3章主要介紹數據科學想要解決的問題、常用的IT工具Python以及這門學科所涉及的數學基礎。第4-7章主要討論數據模型，主要包含三方麵的內容：一是統計中最經典的綫性迴歸和邏輯迴歸模型；二是計算機估算模型參數的隨機梯度下降法，這是模型工程實現的基礎；三是來自計量經濟學的啓示，主要涉及特徵提取的方法以及模型的穩定性。接下來的8-10章主要討論算法模型，也就是機器學習領域比較經典的模型。這三章依次討論瞭監督式學習、生成式模型以及非監督式學習。目前數據科學最前沿的兩個領域分彆是大數據和人工智能。本書的第11章將介紹大數據中很重要的分布式機器學習，而本書的最後兩章將討論人工智能領域的神經網絡和深度學習。

本書通俗易懂，而且理論和實踐相結閤，可作為數據科學傢和數據工程師的學習用書，也適閤對數學科學有強烈興趣的初學者使用。同時也可作為高等院校計算機、數學及相關專業的師生用書和培訓學校的教材。

著者簡介

唐亙，數據科學傢，專注於機器學習和大數據，熱愛並積極參與Apache Spark、scikit-learn等開源項目。作為講師和技術顧問，為多傢機構（包括惠普、華為、復旦大學等）提供百餘場技術培訓。

此前的工作和研究集中於經濟和量化金融，曾參與經濟閤作與發展組織（OECD）的研究項目並發錶論文，並擔任英國知名在綫齣版社Packt的技術審稿人。

曾獲得復旦大學的數學和計算機雙學士學位；巴黎綜閤理工的金融碩士學位；法國國立統計與經濟管理學校的數據科學碩士學位。

圖書目錄

第1章數據科學概述 1
1.1　挑戰　2
1.1.1　工程實現的挑戰　2
1.1.2　模型搭建的挑戰　3
1.2　機器學習　5
1.2.1　機器學習與傳統編程　5
1.2.2　監督式學習和非監督式學習　8
1.3　統計模型　8
1.4　關於本書　10
第2章 Python安裝指南與簡介：告彆空談　12
2.1　Python簡介　13
2.1.1　什麼是Python　15
2.1.2　Python在數據科學中的地位　16
2.1.3　不可能繞過的第三方庫　17
2.2　Python安裝　17
2.2.1　Windows下的安裝　18
2.2.2　Mac下的安裝　21
2.2.3　Linux下的安裝　24
2.3　Python上手實踐　26
2.3.1　Python shell　26
2.3.2　第一個Python程序：Word Count　28
2.3.3　Python編程基礎　30
2.3.4　Python的工程結構　34
2.4　本章小結　35
第3章　數學基礎：惱人但又不可或缺的知識　36
3.1　矩陣和嚮量空間　37
3.1.1　標量、嚮量與矩陣　37
3.1.2　特殊矩陣　39
3.1.3　矩陣運算　39
3.1.4　代碼實現　42
3.1.5　嚮量空間　44
3.2　概率：量化隨機　46
3.2.1　定義概率：事件和概率空間　47
3.2.2　條件概率：信息的價值　48
3.2.3　隨機變量：兩種不同的隨機　50
3.2.4　正態分布：殊途同歸　52
3.2.5　P-value：自信的猜測　53
3.3　微積分　55
3.3.1　導數和積分：位置、速度　55
3.3.2　極限：變化的終點　57
3.3.3　復閤函數：鏈式法則　58
3.3.4　多元函數：偏導數　59
3.3.5　極值與最值：最優選擇　59
3.4　本章小結　61
第4章　綫性迴歸：模型之母　62
4.1　一個簡單的例子　64
4.1.1　從機器學習的角度看這個問題　66
4.1.2　從統計學的角度看這個問題　69
4.2　上手實踐：模型實現　73
4.2.1　機器學習代碼實現　74
4.2.2　統計方法代碼實現　77
4.3　模型陷阱　82
4.3.1　過度擬閤：模型越復雜越好嗎　84
4.3.2　模型幻覺之統計學方案：假設檢驗　87
4.3.3　模型幻覺之機器學習方案：懲罰項　89
4.3.4　比較兩種方案　92
4.4　模型持久化　92
4.4.1　模型的生命周期　93
4.4.2　保存模型　93
4.5　本章小結　96
第5章　邏輯迴歸：隱藏因子　97
5.1　二元分類問題：是與否　98
5.1.1　綫性迴歸：為何失效　98
5.1.2　窗口效應：看不見的纔是關鍵　100
5.1.3　邏輯分布：勝者生存　102
5.1.4　參數估計之似然函數：統計學角度　104
5.1.5　參數估計之損失函數：機器學習角度　104
5.1.6　參數估計之最終預測：從概率到選擇　106
5.1.7　空間變換：非綫性到綫性　106
5.2　上手實踐：模型實現　108
5.2.1　初步分析數據：直觀印象　108
5.2.2　搭建模型　113
5.2.3　理解模型結果　116
5.3　評估模型效果：孰優孰劣　118
5.3.1　查準率與查全率　119
5.3.2　ROC麯綫與AUC　123
5.4　多元分類問題：超越是與否　127
5.4.1　多元邏輯迴歸：邏輯分布的威力　128
5.4.2　One-vs.-all：從二元到多元　129
5.4.3　模型實現　130
5.5　非均衡數據集　132
5.5.1　準確度悖論　132
5.5.2　一個例子　133
5.5.3　解決方法　135
5.6　本章小結　136
第6章　工程實現：計算機是怎麼算的　138
6.1　算法思路：模擬滾動　139
6.2　數值求解：梯度下降法　141
6.3　上手實踐：代碼實現　142
6.3.1　TensorFlow基礎　143
6.3.2　定義模型　148
6.3.3　梯度下降　149
6.3.4　分析運行細節　150
6.4　更優化的算法：隨機梯度下降法　153
6.4.1　算法細節　153
6.4.2　代碼實現　154
6.4.3　兩種算法比較　156
6.5　本章小結　158
第7章　計量經濟學的啓示：他山之石　159
7.1　定量與定性：變量的數學運算閤理嗎　161
7.2　定性變量的處理　162
7.2.1　虛擬變量　162
7.2.2　上手實踐：代碼實現　164
7.2.3　從定性變量到定量變量　168
7.3　定量變量的處理　170
7.3.1　定量變量轉換為定性變量　171
7.3.2　上手實踐：代碼實現　171
7.3.3　基於卡方檢驗的方法　173
7.4　顯著性　175
7.5　多重共綫性：多變量的煩惱　176
7.5.1　多重共綫性效應　176
7.5.2　檢測多重共綫性　180
7.5.3　解決方法　185
7.5.4　虛擬變量陷阱　188
7.6　內生性：變化來自何處　191
7.6.1　來源　192
7.6.2　內生性效應　193
7.6.3　工具變量　195
7.6.4　邏輯迴歸的內生性　198
7.6.5　模型的聯結　200
7.7　本章小結　201
第8章　監督式學習：目標明確　202
8.1　支持嚮量學習機　203
8.1.1　直觀例子　204
8.1.2　用數學理解直觀　205
8.1.3　從幾何直觀到最優化問題　207
8.1.4　損失項　209
8.1.5　損失函數與懲罰項　210
8.1.6　Hard margin 與soft margin比較　211
8.1.7　支持嚮量學習機與邏輯迴歸：隱藏的假設　213
8.2　核函數　216
8.2.1　空間變換：從非綫性到綫性　216
8.2.2　拉格朗日對偶　218
8.2.3　支持嚮量　220
8.2.4　核函數的定義：優化運算　221
8.2.5　常用的核函數　222
8.2.6　Scale variant　225
8.3　決策樹　227
8.3.1　決策規則　227
8.3.2　評判標準　229
8.3.3　代碼實現　231
8.3.4　決策樹預測算法以及模型的聯結　231
8.3.5　剪枝　235
8.4　樹的集成　238
8.4.1　隨機森林　238
8.4.2　Random forest embedding　239
8.4.3　GBTs之梯度提升　241
8.4.4　GBTs之算法細節　242
8.5　本章小結　244
第9章　生成式模型：量化信息的價值　246
9.1　貝葉斯框架　248
9.1.1　濛提霍爾問題　248
9.1.2　條件概率　249
9.1.3　先驗概率與後驗概率　251
9.1.4　參數估計與預測公式　251
9.1.5　貝葉斯學派與頻率學派　252
9.2　樸素貝葉斯　254
9.2.1　特徵提取：文字到數字　254
9.2.2　伯努利模型　256
9.2.3　多項式模型　258
9.2.4　TF-IDF　259
9.2.5　文本分類的代碼實現　260
9.2.6　模型的聯結　265
9.3　判彆分析　266
9.3.1　綫性判彆分析　267
9.3.2　綫性判彆分析與邏輯迴歸比較　269
9.3.3　數據降維　270
9.3.4　代碼實現　273
9.3.5　二次判彆分析　275
9.4　隱馬爾可夫模型　276
9.4.1　一個簡單的例子　276
9.4.2　馬爾可夫鏈　278
9.4.3　模型架構　279
9.4.4　中文分詞：監督式學習　280
9.4.5　中文分詞之代碼實現　282
9.4.6　股票市場：非監督式學習　284
9.4.7　股票市場之代碼實現　286
9.5　本章小結　289
第10章非監督式學習：聚類與降維　290
10.1　K-means　292
10.1.1　模型原理　292
10.1.2　收斂過程　293
10.1.3　如何選擇聚類個數　295
10.1.4　應用示例　297
10.2　其他聚類模型　298
10.2.1　混閤高斯之模型原理　299
10.2.2　混閤高斯之模型實現　300
10.2.3　譜聚類之聚類結果　303
10.2.4　譜聚類之模型原理　304
10.2.5　譜聚類之圖片分割　307
10.3　Pipeline　308
10.4　主成分分析　309
10.4.1　模型原理　310
10.4.2　模型實現　312
10.4.3　核函數　313
10.4.4　Kernel PCA的數學原理　315
10.4.5　應用示例　316
10.5　奇異值分解　317
10.5.1　定義　317
10.5.2　截斷奇異值分解　317
10.5.3　潛在語義分析　318
10.5.4　大型推薦係統　320
10.6　本章小結　323
第11章分布式機器學習：集體力量　325
11.1　Spark簡介　327
11.1.1　Spark安裝　328
11.1.2　從MapReduce到Spark　333
11.1.3　運行Spark　335
11.1.4　Spark DataFrame　336
11.1.5　Spark的運行架構　339
11.2　最優化問題的分布式解法　341
11.2.1　分布式機器學習的原理　341
11.2.2　一個簡單的例子　342
11.3　大數據模型的兩個維度　344
11.3.1　數據量維度　344
11.3.2　模型數量維度　346
11.4　開源工具的另一麵　348
11.4.1　一個簡單的例子　349
11.4.2　開源工具的阿喀琉斯之踵　351
11.5　本章小結　351
第12章神經網絡：模擬人的大腦　353
12.1　神經元　355
12.1.1　神經元模型　355
12.1.2　Sigmoid神經元與二元邏輯迴歸　356
12.1.3　Softmax函數與多元邏輯迴歸　358
12.2　神經網絡　360
12.2.1　圖形錶示　360
12.2.2　數學基礎　361
12.2.3　分類例子　363
12.2.4　代碼實現　365
12.2.5　模型的聯結　369
12.3　反嚮傳播算法　370
12.3.1　隨機梯度下降法迴顧　370
12.3.2　數學推導　371
12.3.3　算法步驟　373
12.4　提高神經網絡的學習效率　373
12.4.1　學習的原理　373
12.4.2　激活函數的改進　375
12.4.3　參數初始化　378
12.4.4　不穩定的梯度　380
12.5　本章小結　381
第13章深度學習：繼續探索　383
13.1　利用神經網絡識彆數字　384
13.1.1　搭建模型　384
13.1.2　防止過擬閤之懲罰項　386
13.1.3　防止過擬閤之dropout　387
13.1.4　代碼實現　389
13.2　捲積神經網絡　394
13.2.1　模型結構之捲積層　395
13.2.2　模型結構之池化層　397
13.2.3　模型結構之完整結構　399
13.2.4　代碼實現　400
13.2.5　結構真的那麼重要嗎　405
13.3　其他深度學習模型　406
13.3.1　遞歸神經網絡　406
13.3.2　長短期記憶　407
13.3.3　非監督式學習　409
13.4　本章小結　411
· · · · · · (收起)

讀後感

評分☆☆☆☆☆

本书的配套代码和训练模型的数据有两个下载地址，分别是： 1. Github 2. 异步社区另外对于Python的版本，需要注意的是：为了节省篇幅、突出重点，本书正文中所展示的代码是基于Linux系统下的Python 2.7，而网上可以下载的配套代码则兼容Python 3和Windows系统。其实对于机器学...

評分☆☆☆☆☆

数学不好的，看不懂。数学好的，不屑看。。。另外有些错别字，太离谱了。。。如果你已经会机器学习，也有数据基础。这本书，读起来就很通畅，可惜，这种读者，大概不会买这本书。。。因为这本书的主打卖点，就是由浅入深，融会贯通、串起机器学习中涉及的方方面面数学知识。。...

評分☆☆☆☆☆

我与作者曾在线下有一面之缘，听说他出新书之后，就立马买了一本来看。阅读之后，有不少新鲜的感受，所以将自己的豆瓣处女文献给这本书。整体来说，这本书介绍的内容还是蛮全面的，广度很够，比较经典的模型、算法都有涉及。这一点上来讲是对得起书的名字“从线性回归到深度学...

評分☆☆☆☆☆