數據科學實戰 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:人民郵電齣版社

作者:[美] Rachel Schutt

出品人:

頁數:316

译者:馮淩秉

出版時間:2015-3

價格:79.00元

裝幀:平裝

isbn號碼:9787115383495

叢書系列:圖靈程序設計叢書

圖書標籤:

數據科學
數據分析
數據挖掘
機器學習
大數據
統計
計算機
數據
數據科學
實戰
機器學習
Python
統計分析
可視化
大數據
算法
建模
案例

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到小美書屋

book.quotespace.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

• 統計推斷、探索性數據分析（EDA）及數據科學工作流程

• 算法

• 垃圾郵件過濾、樸素貝葉斯和數據清理

• 邏輯迴歸

• 金融建模

• 推薦引擎和因果關係

• 數據可視化

• 社交網絡與數據新聞

• 數據工程、MapReduce、Pregel和Hadoop

著者簡介

作者簡介：

Rachel Schutt

美國新聞集團旗下數據科學部門高級副總裁、哥倫比亞大學統計係兼職教授、約翰遜實驗室高級研究科學傢，同時也是哥倫比亞大學數據科學及工程研究所教育委員會的發起人之一。她曾在榖歌研究院工作數年，負責設計算法原型並通過建模理解用戶行為。

Cathy O'Neil

約翰遜實驗室高級數據科學傢、哈佛大學數學博士、麻省理工學院數學係博士後、巴納德學院教授，曾發錶過大量算術代數幾何方麵的論文。他曾在著名的全球投資管理公司D.E. Shaw擔任對衝基金金融師，後加入專門評估銀行和對衝基金風險的軟件公司RiskMetrics，個人博客：mathbabe.org。

譯者簡介：

馮淩秉

澳大利亞國立大學統計學博士，本科和研究生分彆畢業於中南財經政法大學和中國人民大學。現在，他任職於江西財經大學金融管理國際研究院，任講師、碩士生導師，研究方嚮為應用統計與金融計量。

王群鋒

畢業於西安電子科技大學，現任職於IBM西安研發中心，從事下一代統計預測軟件的開發運維工作。

圖書目錄

作者介紹　　 XII
關於封麵圖　　XIII
前言　　XIV
第1章　簡介：什麼是數據科學　　1
1.1　大數據和數據科學的喧囂　　1
1.2　衝齣迷霧　　2
1.3　為什麼是現在　　3
1.4　數據科學的現狀和曆史　　5
1.5　數據科學的知識結構　　8
1.6　思維實驗：元定義　　10
1.7　什麼是數據科學傢　　11
1.7.1　學術界對數據科學傢的定義　　12
1.7.2　工業界對數據科學傢的定義　　12
第2章　統計推斷、探索性數據分析和數據科學工作流程　　14
2.1　大數據時代的統計學思考　　14
2.1.1　統計推斷　　15
2.1.2　總體和樣本　　16
2.1.3　大數據的總體和樣本　　17
2.1.4　大數據意味著大膽的假設　　19
2.1.5　建模　　21
2.2　探索性數據分析　　26
2.2.1　探索性數據分析的哲學　　27
2.2.2　練習：探索性數據分析　　29
2.3　數據科學的工作流程　　31
2.4　思維實驗：如何模擬混沌　　34
2.5　案例學習：RealDirect　　35
2.5.1　RealDirect是如何賺錢的　　36
2.5.2　練一練：RealDirect公司的數據策略　　36
第3章　算法　　39
3.1　機器學習算法　　40
3.2　三大基本算法　　41
3.2.1　綫性迴歸模型　　42
3.2.2　k 近鄰模型（k-NN）　　55
3.2.3　k 均值算法　　64
3.3　練習：機器學習算法基礎　　68
3.4　總結　　72
3.5　思維實驗：關於統計學傢的自動化　　73
第4章　垃圾郵件過濾器、樸素貝葉斯與數據清理　　74
4.1　思維實驗：從實例中學習　　74
4.1.1　綫性迴歸為何不適用　　75
4.1.2　k 近鄰效果如何　　77
4.2　樸素貝葉斯模型　　78
4.2.1　貝葉斯法則　　79
4.2.2　個彆單詞的過濾器　　80
4.2.3　直通樸素貝葉斯　　82
4.3　拉普拉斯平滑法　　83
4.4　對比樸素貝葉斯和k 近鄰　　85
4.5　Bash代碼示例　　85
4.6　網頁抓取：API和其他工具　　87
4.7　Jake的練習題：文章分類問題中的樸素貝葉斯模型　　88
第5章　邏輯迴歸　　92
5.1　思維實驗　　93
5.2　分類器　　94
5.2.1　運行時間　　95
5.2.2　你自己　　95
5.2.3　模型的可解釋性　　95
5.2.4　可擴展性　　96
5.3　邏輯迴歸：一個來自M6D 的真實案例研究　　96
5.3.1　點擊模型　　96
5.3.2　模型背後　　97
5.3.3　α和β 的參數估計　　99
5.3.4　牛頓法　　101
5.3.5　隨機梯度下降法　　101
5.3.6　操練　　101
5.3.7　模型評價　　102
5.4　練習題　　105
第6章　時間戳數據與金融建模　　110
6.1　Kyle Teague與GetGlue公司　　110
6.2　時間戳　　112
6.2.1　探索性數據分析（EDA）　　113
6.2.2　指標和新變量　　117
6.2.3　下一步怎麼做　　117
6.3　輪到Cathy O'Neill瞭　　118
6.4　思維實驗　　118
6.5　金融建模　　119
6.5.1　樣本期內外以及因果關係　　120
6.5.2　金融數據處理　　121
6.5.3　對數收益率　　123
6.5.4　實例：標準普爾指數　　124
6.5.5　如何衡量波動率　　126
6.5.6　指數平滑法　　128
6.5.7　金融模型的反饋　　128
6.5.8　聊聊迴歸模型　　130
6.5.9　先驗信息量　　130
6.5.10　一個小例子　　131
6.6　練習：GetGlue提供的時間戳數據　　134
第7章　從數據到結論　　136
7.1　William Cukierski　　136
7.1.1　背景介紹：數據科學競賽　　136
7.1.2　背景介紹：眾包模式　　137
7.2　Kaggle模式　　139
7.2.1　Kaggle的參賽者　　140
7.2.2　Kaggle的客戶　　141
7.3　思維實驗：關於作業自動評分係統　　143
7.4　特徵選擇　　145
7.4.1　例子：留住用戶　　146
7.4.2　過濾型　　149
7.4.3　包裝型　　149
7.4.4　決策樹與嵌入型變量選擇　　151
7.4.5　熵　　153
7.4.6　決策樹算法　　155
7.4.7　如何在決策樹模型中處理連續性變量　　156
7.4.8　隨機森林　　157
7.4.9　用戶黏性：模型的預測能力與可解釋性　　159
7.5　David Huffaker：榖歌社會學研究的新方法　　160
7.5.1　從描述性統計到預測模型　　161
7.5.2　榖歌的社交研究　　163
7.5.3　隱私保護　　163
7.5.4　思維實驗：如何消除用戶的顧慮　　164
第8章　構建麵嚮大量用戶的推薦引擎　　165
8.1　一個真實的推薦引擎　　166
8.1.1　最近鄰算法迴顧　　167
8.1.2　最近鄰模型的已知問題　　168
8.1.3　超越近鄰模型：基於機器學習的分類模型　　169
8.1.4　高維度問題　　171
8.1.5　奇異值分解（SVD）　　172
8.1.6　關於SVD的重要特性　　172
8.1.7　主成分分析（PCA）　　173
8.1.8　交替最小二乘法　　174
8.1.9　固定矩陣V，更新矩陣U　　175
8.1.10　關於這些算法的一點思考　　176
8.2　思維實驗：如何過濾模型中的泡沫　　176
8.3　練習：搭建自己的推薦係統　　176
第9章　數據可視化與欺詐偵測　　179
9.1　數據可視化的曆史　　179
9.1.1　Gabriel Tarde　　180
9.1.2　Mark 的思維實驗　　181
9.2　到底什麼是數據科學　　181
9.2.1　Processing　　182
9.2.2　Franco Moretti　　182
9.3　一個數據可視化的方案實例　　183
9.4　Mark 的數據可視化項目　　186
9.4.1　《紐約時報》大廳裏的可視化：Moveable Type　　186
9.4.2　屏幕上的生命：Cascade可視化項目　　188
9.4.3　Cronkite廣場項目　　189
9.4.4　eBay與圖書網購　　190
9.4.5　公共劇場裏的“莎士比亞機”　　192
9.4.6　這些展覽的目的是什麼　　193
9.5　數據科學和風險　　193
9.5.1　關於Square公司　　194
9.5.2　支付風險　　194
9.5.3　模型效果的評估問題　　197
9.5.4　建模小貼士　　200
9.6　數據可視化在Square　　203
9.7　Ian的思維實驗　　204
9.8　關於數據可視化　　204
第10章　社交網絡與數據新聞學　　207
10.1　Morning Analytics與社交網絡　　207
10.2　社交網絡分析　　209
10.3　關於社交網絡分析的相關術語　　209
10.3.1　如何衡量嚮心性　　210
10.3.2　使用哪種嚮心性測度　　211
10.4　思維實驗　　212
10.5　Morningside Analytics　　212
10.6　從統計學的角度看社交網絡分析　　215
10.6.1　網絡的錶示方法與特徵值嚮心度　　215
10.6.2　隨機網絡的第一個例子：Erdos-Renyi模型　　217
10.6.3　隨機網絡的第二個例子：指數隨機網絡圖模型　　217
10.7　數據新聞學　　220
10.7.1　關於數據新聞學的曆史迴顧　　220
10.7.2　數據新聞報告的寫作：來自專傢的建議　　220
第11章　因果關係研究　　222
11.1　相關性並不代錶因果關係　　223
11.1.1　對因果關係提問　　223
11.1.2　乾擾因子：一個關於在綫約會網站的例子　　224
11.2　OK Cupid的發現　　225
11.3　黃金準則：隨機化臨床實驗　　226
11.4　A/B測試　　228
11.5　退一步求其次：關於觀察性研究　　229
11.5.1　辛普森悖論　　230
11.5.2　魯賓因果關係模型　　231
11.5.3　因果關係的可視化　　232
11.5.4　定義：因果關係　　233
11.6　三個小建議　　235
第12章　流行病學　　236
12.1　Madigan的學術背景　　236
12.2　思維實驗　　237
12.3　統計學在現代　　238
12.4　醫學文獻與觀察性研究　　238
12.5　分層法不解決乾擾因子的問題　　239
12.6　就沒有更好的辦法嗎　　241
12.7　研究性實驗（OMOP）　　242
12.8　最後的思維實驗　　246
第13章　從競賽中學到的：數據泄漏和模型評價　　247
13.1　Claudia作為數據科學傢的知識結構　　247
13.1.1　首席數據科學傢的生活　　248
13.1.2　作為一名女數據科學傢　　248
13.2　數據挖掘競賽　　249
13.3　如何成為齣色的建模者　　250
13.4　數據泄漏　　250
13.4.1　市場預測　　251
13.4.2　亞馬遜案例學習：齣手闊綽的顧客　　251
13.4.3　珠寶抽樣問題　　251
13.4.4　IBM 客戶鎖定　　252
13.4.5　乳腺癌檢測　　253
13.4.6　預測肺炎　　253
13.5　如何避免數據泄漏　　254
13.6　模型評價　　255
13.6.1　準確度重要嗎　　256
13.6.2　概率的重要性，不是非0 即1　　256
13.7　如何選擇算法　　259
13.8　最後一個例子　　259
13.9　臨彆感言　　260
第14章　數據工程：MapReduce、Pregel、Hadoop　　261
14.1　關於David Crawshaw　　262
14.2　思維實驗　　262
14.3　MapReduce　　263
14.4　單詞頻率問題　　264
14.5　其他MapReduce案例　　267
14.6　Pregel　　268
14.7　關於Josh Wills　　269
14.8　思維實驗　　269
14.9　給數據科學傢的話　　269
14.9.1　數據豐富和數據匱乏　　270
14.9.2　設計模型　　270
14.10　算算Hadoop的經濟賬　　270
14.10.1　Hadoop簡介　　271
14.10.2　Cloudera　　271
14.11　Josh 的工作流程　　272
14.12　如何開始使用Hadoop　　272
第15章　聽聽學生們怎麼說　　273
15.1　重在過程　　273
15.2　不再簡單　　274
15.3　援助之手　　275
15.4　殊途同歸　　277
15.5　逢山開路，遇水架橋　　279
15.6　作品展示　　279
第16章　下一代數據科學傢、自大狂和職業道德　　281
16.1　前麵都講瞭些什麼　　281
16.2　什麼是數據科學（再問一次）　　282
16.3　誰是下一代的數據科學傢　　283
16.3.1　成為解決問題的人　　284
16.3.2　培養軟技能　　284
16.3.3　成為提問者　　285
16.4　做一個有道德感的數據科學傢　　286
16.5　對於職業生涯的建議　　289
· · · · · · (收起)

讀後感

評分☆☆☆☆☆

Now that answering complex and compelling questions with data can make the difference in an election or a business model, data science is an attractive discipline. But how can you learn this wide-ranging, interdisciplinary field? With this book, you’ll get...

評分☆☆☆☆☆

这本书蛮不错的，就是看的时候碰到一些小错误，记录如下，如果本书的编者看到了，也方便勘误。 P43 第11行 “事”改为“是” P45 第9行 “歌”改为“个” P52 图3-6说明文字第2行 “直”改为“致” P96 正文第6行 “Emprical”改为“Empirical” P103 倒数第4行 “...

評分☆☆☆☆☆

我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看过了我看...