Python數據科學導論

Python數據科學導論 pdf epub mobi txt 電子書 下載2025

出版者:機械工業齣版社
作者:[美] 戴維·謝倫(Davy Cielen)
出品人:
頁數:222
译者:劉義
出版時間:2017-9-1
價格:59.00元
裝幀:平裝
isbn號碼:9787111578260
叢書系列:數據科學與工程技術叢書
圖書標籤:
  • 數據科學
  • python
  • 計算機
  • 軟件開發
  • 機器學習
  • Python
  • 數據科學
  • 數據分析
  • 機器學習
  • Pandas
  • NumPy
  • Matplotlib
  • 統計學
  • 數據可視化
  • 編程入門
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

本書涵蓋的主題非常廣泛,介紹瞭數據科學方方麵麵的知識,每一章都側重於介紹數據科學的某一方麵,為讀者以後的深入學習打下基礎。具體內容包括:第1、2章係統介紹大數據科學的背景知識及框架結構;第3~5章介紹機器學習相關知識;第6~9章介紹幾個比較有趣的數據科學主題。本書是學習數據科學知識的入門教材,在深入學習本書的實例前,需要掌握SQL、Python及HTML5的入門知識,瞭解統計學和機器學習相關知識。

著者簡介

圖書目錄

譯者序
前言
關於本書
關於作者
關於封麵插圖
第1章 大數據世界中的數據科學1
1.1 數據科學和大數據的好處和用途2
1.2 數據種類3
1.2.1 結構化數據3
1.2.2 非結構化數據3
1.2.3 自然語言數據4
1.2.4 計算機數據4
1.2.5 圖類數據5
1.2.6 音頻、視頻和圖像數據5
1.2.7 流數據6
1.3 數據科學過程6
1.3.1 設置研究目標6
1.3.2 檢索數據6
1.3.3 數據準備7
1.3.4 數據探索7
1.3.5 數據建模7
1.3.6 展示與自動化7
1.4 大數據生態係統與數據科學7
1.4.1 分布式文件係統7
1.4.2 分布式編程框架9
1.4.3 數據集成框架9
1.4.4 機器學習框架9
1.4.5 NoSQL數據庫10
1.4.6 調度工具10
1.4.7 基準測試工具10
1.4.8 係統部署11
1.4.9 服務開發11
1.4.10 安全11
1.5 Hadoop工作示例介紹11
1.6 本章小結16
第2章 數據科學過程17
2.1 數據科學過程概述17
2.2 步驟1:定義研究目標並創立項目章程19
2.2.1 瞭解研究的目標和背景20
2.2.2 創立項目章程20
2.3 步驟2:檢索數據20
2.3.1 從存儲在公司內部的數據開始21
2.3.2 不要害怕去購買數據21
2.3.3 檢查數據質量以預防問題發生22
2.4 步驟3:數據的清洗、整閤以及轉換22
2.4.1 數據清洗22
2.4.2 盡可能早地修正錯誤27
2.4.3 從不同的數據源整閤數據28
2.4.4 數據轉換30
2.5 步驟4:探索性數據分析32
2.6 步驟5:構建模型35
2.6.1 模型與變量的選擇35
2.6.2 模型執行36
2.6.3 模型診斷與模型比較39
2.7 步驟6:展示結果並在其上搭建應用程序40
2.8 本章小結40
第3章 機器學習42
3.1 什麼是機器學習,為什麼需要關注它42
3.1.1 機器學習在數據科學中的應用43
3.1.2 機器學習在數據科學過程中的使用43
3.1.3 Python工具在機器學習中的應用44
3.2 建模過程45
3.2.1 特徵工程以及模型選取46
3.2.2 模型的訓練47
3.2.3 模型的驗證47
3.2.4 預測新的觀測值48
3.3 機器學習的類型48
3.3.1 有監督學習48
3.3.2 無監督學習53
3.4 半監督學習60
3.5 本章小結61
第4章 單機上處理大數據63
4.1 大數據處理過程中遇到的難題63
4.2 處理巨量數據的通用技術64
4.2.1 選擇閤適的算法65
4.2.2 選擇閤適的數據結構71
4.2.3 選擇閤適的工具73
4.3 處理大數據集的通用編程技巧75
4.3.1 不必重復發明輪子75
4.3.2 充分利用硬件76
4.3.3 減少計算需求76
4.4 案例研究1:預測惡意URL77
4.4.1 步驟1:確立研究目標77
4.4.2 步驟2:獲取URL數據77
4.4.3 步驟4:數據探索78
4.4.4 步驟5:建模79
4.5 案例研究2:在數據庫中建立一個推薦係統80
4.5.1 所需的工具及技術80
4.5.2 步驟1:研究問題82
4.5.3 步驟3:數據準備82
4.5.4 步驟5:建模86
4.5.5 步驟6:展示與自動化86
4.6 本章小結88
第5章 大數據世界的第一步89
5.1 數據分布存儲和框架處理89
5.1.1 Hadoop:存儲和處理大數據集的框架90
5.1.2 Spark:取代MapReduce以獲得更好的性能92
5.2 案例研究:藉貸的風險評估93
5.2.1 步驟1:研究目標94
5.2.2 步驟2:數據檢索95
5.2.3 步驟3:數據準備98
5.2.4 步驟4(數據探索)和步驟6(報告形成)101
5.3 本章小結111
第6章 瞭解NoSQL112
6.1 NoSQL簡介114
6.1.1 ACID:關係型數據庫核心原則114
6.1.2 CAP理論:多節點數據庫的問題115
6.1.3 NoSQL數據庫的BASE原則116
6.1.4 NoSQL數據庫的種類117
6.2 案例研究:這是什麼疾病123
6.2.1 步驟1:設置研究目標124
6.2.2 步驟2和步驟3:數據檢索與數據準備124
6.2.3 步驟4:數據探索131
6.2.4 再迴到步驟3:為描述疾病概況做數據準備137
6.2.5 再迴到步驟4:為描述疾病概況做數據探索140
6.2.6 步驟6:展示與自動化140
6.3 本章小結141
第7章 圖數據庫的興起143
7.1 互聯數據及圖數據庫概述143
7.2 圖數據庫Neo4j概述146
7.3 數據互聯案例:食譜推薦引擎152
7.3.1 步驟1:設置研究目標153
7.3.2 步驟2:數據檢索154
7.3.3 步驟3:數據準備155
7.3.4 步驟4:數據探索157
7.3.5 步驟5:數據建模159
7.3.6 步驟6:數據展示162
7.4 本章小結162
第8章 文本挖掘和文本分析164
8.1 現實世界中的文本挖掘165
8.2 文本挖掘技術169
8.2.1 詞袋169
8.2.2 詞乾提取和詞形還原170
8.2.3 決策樹分類器171
8.3 案例研究:Reddit帖子分類173
8.3.1 自然語言工具包173
8.3.2 數據科學過程綜述及第1步:研究目標175
8.3.3 第2步:數據檢索175
8.3.4 第3步:數據準備178
8.3.5 步驟4:數據探索180
8.3.6 再迴到步驟3:數據準備的調整182
8.3.7 步驟5:數據分析185
8.3.8 步驟6:展示與自動化188
8.4 本章小結189
第9章 麵嚮終端用戶的數據可視化191
9.1 數據可視化選項192
9.2 Crossfilter—JavaScript MapReduce庫194
9.2.1 安裝195
9.2.2 利用Crossfilter篩選藥品數據集198
9.3 用dc.js創建一個交互式控製麵闆201
9.4 控製麵闆開發工具205
......
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

值得細度,對於大數據分析挖掘的工作流程把握非常地道,建議閱讀時配閤實踐和搜索引擎。

评分

裏麵的一整套數據處理流程的介紹還是不錯的,作為入門瞭解數據科學框架可用,但代碼學習的話,還是建議配專門的代碼書籍學習。

评分

值得細度,對於大數據分析挖掘的工作流程把握非常地道,建議閱讀時配閤實踐和搜索引擎。

评分

值得細度,對於大數據分析挖掘的工作流程把握非常地道,建議閱讀時配閤實踐和搜索引擎。

评分

值得細度,對於大數據分析挖掘的工作流程把握非常地道,建議閱讀時配閤實踐和搜索引擎。

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有