敏捷數據科學

敏捷數據科學 pdf epub mobi txt 電子書 下載2025

出版者:電子工業齣版社
作者:[美] Russell Jurne
出品人:
頁數:184
译者:馮文中
出版時間:2014-7
價格:49.00元
裝幀:平裝
isbn號碼:9787121236198
叢書系列:
圖書標籤:
  • 數據挖掘
  • Hadoop
  • 計算機
  • 數據分析
  • 敏捷
  • 大數據
  • 編程
  • Python
  • 敏捷
  • 數據科學
  • 機器學習
  • 數據分析
  • 項目管理
  • Scrum
  • Python
  • R語言
  • 數據挖掘
  • 統計學
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

《敏捷數據科學:用Hadoop創建數據分析應用》麵嚮大數據挖掘,以敏捷視角呈現高效構建數據模型的全程實踐和思路。在一組以一個真實電子郵箱數據挖掘為例的數據-價值金字塔進階模式中,你將學到:一整套實用工具及其方法論,可快速實現在Hadoop 上構建數據分析應用;用Python、Apache Pig 及D3.js等輕量級工具創建用於探索數據的敏捷環境;一種可根據數據中信息快速切換,進行不同類型數據分析的迭代式開發方法。

《敏捷數據科學:用Hadoop創建數據分析應用》適閤所有與數據工作相關的從業者,同時也適閤有誌成為數據科學工作者的廣大讀者作為入門讀物。

著者簡介

作者介紹:Russsel Jurney 在美國和墨西哥的賭場開始他的數據分析生涯。他開發瞭一個 Web 應用來分析老虎機的性能。在經曆瞭創業、交互式媒體和新聞業以後,他到瞭矽榖,在 Ning 和LinkedIn 開始構建可擴展的數據分析應用。

譯者介紹:硃洪波 阿裏巴巴數據挖掘專傢,機器學習團隊負責人,司職於解決商業客戶對數據的深層需求。紙質書愛好者,相信理性與邏輯的力量。

圖書目錄

第1 部分 起步 ............................................................... 1
第1 章 理論 .................................................................. 3
敏捷大數據 ............................................................................................................3
Big Words 定義 ......................................................................................................4
敏捷大數據團隊 .....................................................................................................5
認識機遇和問題 ..............................................................................................6
敏捷大數據流程 ................................................................................................... 11
代碼檢查和結對編程 ...........................................................................................12
敏捷的場所:開發的效率 ....................................................................................13
協作空間 .......................................................................................................14
私人空間 .......................................................................................................14
個人空間 .......................................................................................................14
用大幅打印件明確錶達想法 ................................................................................15
第2 章 數據 ............................................................... 17
電子郵件 ..............................................................................................................17
處理原始數據 ......................................................................................................18
原始的電子郵件 ............................................................................................18
結構化與半結構化數據 .................................................................................18
SQL ......................................................................................................................20
NoSQL .................................................................................................................24
序列化 ...........................................................................................................24
從演變的模式中抽取和展示特徵 ..................................................................25
數據流水綫 ...................................................................................................26
數據透視 ..............................................................................................................27
社交網絡 .......................................................................................................28
時間序列 .......................................................................................................30
自然語言 .......................................................................................................31
概率 ...............................................................................................................33
小結 .....................................................................................................................35
第3 章 敏捷開發工具 ................................................... 37
可擴展性= 簡潔...................................................................................................37
敏捷大數據處理 ...................................................................................................38
設置運行Python 的虛擬環境 ...............................................................................39
使用Avro 對事件進行序列化 ..............................................................................40
在Python 中使用Avro ..................................................................................40
收集數據 ..............................................................................................................42
使用Pig 處理數據................................................................................................44
安裝Pig .........................................................................................................45
使用MongoDB 發布數據 ....................................................................................49
安裝MongoDB ..............................................................................................49
安裝MongoDB 的Java 驅動程序 .................................................................50
安裝mongo-hadoop .......................................................................................50
用Pig 嚮MongoDB 推送數據 .......................................................................50
使用ElasticSearch 搜索數據 ................................................................................52
安裝 ...............................................................................................................52
使用Wonderdog 整閤ElasticSearch 和Pig ...................................................53
對工作流程的反思 ...............................................................................................55
輕量級的Web 應用 ..............................................................................................56
Python 和 Flask .............................................................................................56
展示數據 ..............................................................................................................58
安裝Bootstrap ...............................................................................................58
啓用Bootstrap ...............................................................................................59
使用d3.js 和nvd3.js 可視化數據 ..................................................................63
小結 .....................................................................................................................64
第4 章 在雲端 ............................................................. 65
引言 .....................................................................................................................65
GitHub .................................................................................................................67
dotCloud ...............................................................................................................67
dotCloud Echo 服務 .......................................................................................68
Python 工作者服務 ........................................................................................71
Amazon Web Services ..........................................................................................71
Simple Storage Service ..................................................................................71
Elastic MapReduce ........................................................................................72
MongoDB 即服務 ..........................................................................................79
輔助工具(Instrumentation) ................................................................................81
Google Analytics ...........................................................................................81
Mortar Data ...................................................................................................82
第2 部分 登上金字塔 ................................................... 85
第5 章 收集和展示數據 ............................................... 89
整閤軟件棧 ..........................................................................................................90
收集並序列化收件箱 ...........................................................................................90
處理和發布郵件數據 ...........................................................................................91
在瀏覽器中顯示郵件 ...........................................................................................93
用Flask 和pymongo 處理郵件數據 ..............................................................94
使用Jinja2 渲染HTML5 頁麵 ......................................................................94
敏捷檢查點 ..........................................................................................................98
生成電子郵件清單 ...............................................................................................99
用MongoDB 顯示郵件 .................................................................................99
對數據展示的分析 ...................................................................................... 101
搜索郵件 ............................................................................................................ 106
使用Pig,ElasticSearch 和Wonderdog 構建索引 ....................................... 106
在網頁中搜索郵件數據 ............................................................................... 107
結論 ................................................................................................................... 108
第6 章 使用圖錶可視化數據 ....................................... 111
優秀的圖錶 ........................................................................................................ 112
抽取實體:郵件地址 ......................................................................................... 112
抽取郵件 ..................................................................................................... 112
對時間進行可視化 ............................................................................................. 116
結論 ................................................................................................................... 122
第7 章 利用報錶探索數據 .......................................... 123
為數據添加聯係 ................................................................................................. 126
用TF-IDF 從郵件中提取關鍵字 ........................................................................ 133
小結 ................................................................................................................... 138
第8 章 預測 .............................................................. 141
預測電子郵件的迴復率 ...................................................................................... 142
個性化 ................................................................................................................ 147
小結 ................................................................................................................... 148
第9 章 驅動行動 ........................................................ 149
好郵件的屬性 .................................................................................................... 150
使用樸素貝葉斯方法進行更好的預測 ............................................................... 150
P(Reply | From ∩ To) ........................................................................................ 150
P(Reply | Token) ................................................................................................. 151
實時預測 ............................................................................................................ 153
記錄事件日誌 .................................................................................................... 157
小結 ................................................................................................................... 157
索引 ........................................................................... 159
· · · · · · (收起)

讀後感

評分

这本书的第二版已经于2018年出版了。这第一版面世于2014年,第二版在此基础之上有非常大幅度的修改。但最最基本的思路没有变化:端到端,全栈,敏捷,技术为具体业务服务。 第二版的链接在下面: [Spark全栈数据分析] 对比两个版本,除了内容扩充了不少,处理的问题更加充实,...

評分

这本书的第二版已经于2018年出版了。这第一版面世于2014年,第二版在此基础之上有非常大幅度的修改。但最最基本的思路没有变化:端到端,全栈,敏捷,技术为具体业务服务。 第二版的链接在下面: [Spark全栈数据分析] 对比两个版本,除了内容扩充了不少,处理的问题更加充实,...

評分

这本书的第二版已经于2018年出版了。这第一版面世于2014年,第二版在此基础之上有非常大幅度的修改。但最最基本的思路没有变化:端到端,全栈,敏捷,技术为具体业务服务。 第二版的链接在下面: [Spark全栈数据分析] 对比两个版本,除了内容扩充了不少,处理的问题更加充实,...

評分

这本书的第二版已经于2018年出版了。这第一版面世于2014年,第二版在此基础之上有非常大幅度的修改。但最最基本的思路没有变化:端到端,全栈,敏捷,技术为具体业务服务。 第二版的链接在下面: [Spark全栈数据分析] 对比两个版本,除了内容扩充了不少,处理的问题更加充实,...

評分

这本书的第二版已经于2018年出版了。这第一版面世于2014年,第二版在此基础之上有非常大幅度的修改。但最最基本的思路没有变化:端到端,全栈,敏捷,技术为具体业务服务。 第二版的链接在下面: [Spark全栈数据分析] 对比两个版本,除了内容扩充了不少,处理的问题更加充实,...

用戶評價

评分

小動物係列,內插不錯,思路很清晰

评分

整本書用通俗易懂的一個案例介紹瞭一個完整數據流的處理過程,並沒有介紹算法等核心功能。對不瞭解etl,olap的初學者有一個簡明易懂的介紹,建議完全不懂大數據 數據清洗的人拿來看看,有過瞭解和研究的人不能得到幫助

评分

蠻失望的 整本書蜻蜓點水 關於算法幾乎沒有涉及

评分

走馬觀花

评分

小動物係列,內插不錯,思路很清晰

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有