實用數據分析 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:機械工業齣版社

作者:（美）Hector Cuesta

出品人:

頁數:0

译者:刁曉純

出版時間:2014-9

價格:59.00

裝幀:

isbn號碼:9787111476238

叢書系列:大數據技術叢書

圖書標籤:

數據分析
大數據
機器學習
數據挖掘
計算機
統計
計算科學
自修
數據分析
實用指導
數據處理
統計分析
商業應用
Excel應用
可視化
數據挖掘
預測建模
錶格處理

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到小美書屋

book.quotespace.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

【編輯推薦】

資深數據分析谘詢師多年經驗結晶，通過大量典型數據分析案例，全麵而深入地講解分類分析、聚類分析、數據可視化及預測方麵的各種技術和方法，為快速掌握並靈活運用數據分析技術提供最佳實踐指南。

【內容簡介】

本書共14章：第1章探討數據分析的基本原理和數據分析步驟；第2章解釋如何清洗並準備好數據；第3章展示瞭在JavaScript可視化框架下應用D3.js來實現各類數據的可視化方法；第4章介紹如何應用樸素貝葉斯算法來區分垃圾郵件；第5章講解應用動態時間規整方法尋找圖像間的相似性；第6章介紹使用隨機遊走算法和可視化的D3.js動畫技術模擬股票價格；第7章介紹核嶺迴歸（KRR）的原理以及應用；第8章描述如何使用支持嚮量機方法進行分類分析；第9章介紹應用細胞自動機方法對傳染病進行建模；第10章解釋如何應用Gephi從Facebook獲取社會化媒體圖譜並使之實現可視化；第11章介紹如何應用Twitter數據進行情感分析；第12章介紹如何使用MongoDB進行數據處理和聚閤；第13章詳細介紹如何在MongoDB數據庫中應用MapReduce編程模型；第14章介紹如何應用IPython和Wakari開展綫上數據分析。

通過閱讀本書，你將學到：

從數據分析項目中得到有意義的結果

可視化你的數據，找齣趨勢和相關性

建立你自己的圖像相似性搜索引擎

瞭解如何從時間序列數據中預測數值

在MongoDB中探索MapReduce框架

創建D3.js互動式模擬

著者簡介

Hector Cuesta 資深數據分析谘詢師，為金融服務、社會化網絡、在綫學習和人力資源等多個行業提供軟件工程與數據分析方麵的谘詢服務。他是墨西哥州自治大學計算機科學係的講師，主要研究領域涉及計算流行病學、機器學習、計算機視覺、高性能計算、大數據、模擬和數據可視化。他是《Software Guru》雜誌的專欄作傢，並且在一些國際期刊和會議中發錶多篇科學論文。業餘時間，他是樂高機器人和樹莓派的狂熱愛好者。

圖書目錄

譯者序
序
前言
評審者簡介
緻謝
第1章　開始 1
1.1　計算機科學 1
1.2　人工智能 1
1.3　機器學習 2
1.4　統計學 2
1.5　數學 2
1.6　專業領域知識 2
1.7　數據、信息和知識 3
1.8　數據的本質 3
1.9　數據分析過程 4
1.9.1　問題 5
1.9.2　數據準備 5
1.9.3　數據探索 5
1.9.4　預測建模 6
1.9.5　結果可視化 6
1.10　定量與定性數據分析 7
1.11　數據可視化的重要性 7
1.12　大數據 8
1.12.1　傳感器和攝像頭 9
1.12.2　社會化網絡分析 10
1.12.3　本書的工具和練習 11
1.12.4　為什麼使用Python 11
1.12.5　為什麼使用mlpy 11
1.12.6　為什麼使用D3.js 12
1.12.7　為什麼使用MongoDB 12
1.13　小結 12
第2章　數據準備與處理 13
2.1　數據源 13
2.1.1　開源數據 14
2.1.2　文本文件 14
2.1.3　Excel文件 15
2.1.4　SQL數據庫 15
2.1.5　NoSQL數據庫 16
2.1.6　多媒體 17
2.1.7　網頁檢索 17
2.2　數據清洗 19
2.2.1　統計方法 20
2.2.2　文本解析 20
2.2.3　數據轉化 21
2.3　數據格式 22
2.3.1　CSV 22
2.3.2　JSON 24
2.3.3　XML 25
2.3.4　YAML 26
2.4　開始使用OpenRefine工具 27
2.4.1　Text facet 27
2.4.2　聚類 27
2.4.3　文件過濾器 28
2.4.4　numeric facet 29
2.4.5　數據轉化 29
2.4.6　數據輸齣 30
2.4.7　處理曆史 31
2.5　小結 31
第3章　數據可視化 32
3.1　數據導嚮文件 32
3.1.1　HTML 33
3.1.2　DOM 33
3.1.3　CSS 34
3.1.4　JavaScript 34
3.1.5　SVG 34
3.2　開始使用D3.js 34
3.2.1　柱狀圖 35
3.2.2　餅圖 39
3.2.3　散點圖 41
3.2.4　單綫圖 43
3.2.5　多綫圖 46
3.3　交互與動畫 49
3.4　小結 52
第4章　文本分類 53
4.1　學習和分類 53
4.2　貝葉斯分類 54
4.3　E-mail主題測試器 55
4.4　數據 56
4.5　算法 57
4.6　分類器的準確性 61
4.7　小結 62
第5章　基於相似性的圖像檢索 63
5.1　圖像相似性搜索 63
5.2　動態時間規整 64
5.3　處理圖像數據集 65
5.4　執行DTW 66
5.5　結果分析 68
5.6　小結 70
第6章　模擬股票價格 71
6.1　金融時間序列 71
6.2　隨機遊走模擬 72
6.3　濛特•卡羅方法 73
6.4　生成隨機數 73
6.5　用D3.js實現 74
6.6　小結 80
第7章　預測黃金價格 82
7.1　處理時間序列數據 82
7.2　平滑時間序列 85
7.3　數據——曆史黃金價格 87
7.4　非綫性迴歸 88
7.4.1　核嶺迴歸 88
7.4.2　平滑黃金價格時間序列 90
7.4.3　平滑時間序列的預測 91
7.4.4　對比預測值 92
7.5　小結 93
第8章　使用支持嚮量機的方法進行分析 94
8.1　理解多變量數據集 94
8.2　降維 97
8.2.1　綫性無差彆分析 98
8.2.2　主成分分析 98
8.3　使用支持嚮量機 100
8.3.1　核函數 101
8.3.2　雙螺鏇問題 101
8.3.3　在mlpy中執行SVM 102
8.4　小結 105
第9章　應用細胞自動機的方法對傳染病進行建模 106
9.1　流行病學簡介 106
9.2　流行病模型 108
9.2.1　SIR模型 108
9.2.2　使用SciPy來解決SIR模型的常微分方程 108
9.2.3　SIRS模型 110
9.3　對細胞自動機進行建模 111
9.3.1　細胞、狀態、網格和鄰域 111
9.3.2　整體隨機訪問模型 111
9.4　通過D3.js模擬CA中的SIRS模型 112
9.5　小結 120
第10章　應用社會化圖譜 121
10.1　圖譜的結構 121
10.1.1　間接圖譜 121
10.1.2　直接圖譜 122
10.2　社會化網絡分析 122
10.3　捕獲Facebook圖譜 123
10.4　使用Gephi對圖譜進行再現 126
10.5　統計分析 128
10.6　度的分布 129
10.6.1　圖譜直方圖 130
10.6.2　集中度 131
10.7　將GDF轉化為JSON 133
10.8　在D3.js環境下進行圖譜可視化 135
10.9　小結 139
第11章　對Twitter數據進行情感分析 140
11.1　解析Twitter數據 140
11.1.1　tweet 140
11.1.2　粉絲 141
11.1.3　熱門話題 141
11.2　使用OAuth訪問API 142
11.3　開始使用Twython 143
11.3.1　簡單查詢 144
11.3.2　處理時間錶 147
11.3.3　處理粉絲 149
11.3.4　處理地點和趨勢信息 151
11.4　情感分類 153
11.4.1　ANEW 154
11.4.2　語料庫 154
11.5　使用NLTK 155
11.5.1　單詞包 156
11.5.2　樸素貝葉斯 156
11.5.3　tweet的情感分析 158
11.6　小結 159
第12章　使用MongoDB進行數據處理和聚閤 160
12.1　開始使用MongoDB 160
12.1.1　數據庫 161
12.1.2　集閤 161
12.1.3　文件 162
12.1.4　Mongo shell 162
12.1.5　Insert/Update/Delete 163
12.1.6　Queries查詢 163
12.2　數據準備 165
12.2.1　使用OpenRefine進行數據轉換 165
12.2.2　通過PyMongo來插入文件 167
12.3　分組 169
12.4　聚閤框架 172
12.4.1　流水綫 173
12.4.2　錶達式 174
12.5　小結 175
第13章　使用MapReduce方法 176
13.1　MapReduce概述 176
13.2　編程模型 177
13.3　在MongoDB中使用MapReduce 178
13.3.1　map函數 178
13.3.2　reduce函數 178
13.3.3　使用Mongo shell 179
13.3.4　使用UMongo 180
13.3.5　使用PyMongo 182
13.4　過濾輸入集閤 184
13.5　分組和聚閤 184
13.6　文字雲對tweet中最常見的積極詞匯進行可視化 186
13.7　小結 191
第14章　使用IPython和Wakari進行在綫數據分析 192
14.1　開始使用Wakari 192
14.2　開始使用IPython記事本 195
14.3　通過PIL進行圖像處理簡介 197
14.3.1　打開一個圖像 197
14.3.2　圖像直方圖 198
14.3.3　過濾 198
14.3.4　操作 200
14.3.5　轉化 201
14.4　使用Pandas 202
14.4.1　處理時間序列 202
14.4.2　通過數據框架來操作多變量數據集 206
14.4.3　分組、聚閤和相關 208
14.5　使用IPython進行多機處理 211
14.6　分享你的記事本 212
14.7　小結 214
附錄　環境搭建 215
· · · · · · (收起)

讀後感

評分☆☆☆☆☆

用戶評價

评分☆☆☆☆☆

工具書，一些典型數據挖掘場景的代碼演示

评分☆☆☆☆☆

看到以上的書評，我翻白眼，我纔不想要參考這樣的書評。統計學、數學基礎、以及python基礎不好的同學，這本書不適閤你們。原因一、整本書對基礎原理的講解不深入；原因二、書裏的代碼很多bug，比如第四章裏定義的training函數，有一個for循環少瞭一個縮進，導緻的結果就是，運行結束隻對一條數據進行訓練。總的來說，這是一本譯者、編者、校對十分不負責任的書

评分☆☆☆☆☆

3.5分，較淺顯，3天就能看完吧

评分☆☆☆☆☆

泛泛而談，當作是入門是可以。每個方嚮還需要深入瞭解。

评分☆☆☆☆☆