Spark高級數據分析

Spark高級數據分析 pdf epub mobi txt 電子書 下載2025

出版者:人民郵電齣版社
作者:[美] Sandy Ryza
出品人:
頁數:244
译者:龔少成
出版時間:2015-11
價格:59.00元
裝幀:平裝
isbn號碼:9787115404749
叢書系列:圖靈程序設計叢書
圖書標籤:
  • 大數據
  • spark
  • 數據分析
  • Spark
  • 機器學習
  • 計算機
  • bigdata
  • 數據平颱
  • Spark
  • 大數據
  • 數據分析
  • 機器學習
  • 數據挖掘
  • 編程
  • Java
  • Scala
  • 實時處理
  • 分布式計算
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

本書是使用Spark進行大規模數據分析的實戰寶典,由著名大數據公司Cloudera的數據科學傢撰寫。四位作者首先結閤數據科學和大數據分析的廣闊背景講解瞭Spark,然後介紹瞭用Spark和Scala進行數據處理的基礎知識,接著討論瞭如何將Spark用於機器學習,同時介紹瞭常見應用中幾個最常用的算法。此外還收集瞭一些更加新穎的應用,比如通過文本隱含語義關係來查詢Wikipedia或分析基因數據。

著者簡介

Sandy Ryza

是Cloudera公司資深數據科學傢,Apache Spark項目的活躍代碼貢獻者。最近領導瞭Cloudera公司的Spark開發工作。他還是Hadoop項目管理委員會委員。

Uri Laserson

是Cloudera公司資深數據科學傢,專注於Hadoop生態係統中的Python部分。

Sean Owen

是Cloudera公司EMEA地區的數據科學總監,也是Apache Spark項目的代碼提交者。他創立瞭基於Spark、Spark Streaming和Kafka的Hadoop實時大規模學習項目Oryx(之前稱為Myrrix)。

Josh Wills

是Cloudera公司的高級數據科學總監,Apache Crunch項目的發起者和副總裁。

圖書目錄

推薦序  ix
譯者序  xi
序  xiii
前言  xv
第1章 大數據分析  1
1.1 數據科學麵臨的挑戰  2
1.2 認識Apache Spark  4
1.3 關於本書  5
第2章 用Scala和Spark進行數據分析  7
2.1 數據科學傢的Scala  8
2.2 Spark 編程模型  9
2.3 記錄關聯問題  9
2.4 小試牛刀:Spark shell和SparkContext  10
2.5 把數據從集群上獲取到客戶端  15
2.6 把代碼從客戶端發送到集群  18
2.7 用元組和case class對數據進行結構化  19
2.8 聚閤  23
2.9 創建直方圖  24
2.10 連續變量的概要統計  25
2.11 為計算概要信息創建可重用的代碼  26
2.12 變量的選擇和評分簡介  30
2.13 小結  31
第3章 音樂推薦和Audioscrobbler數據集  33
3.1 數據集  34
3.2 交替最小二乘推薦算法  35
3.3 準備數據  37
3.4 構建第一個模型  39
3.5 逐個檢查推薦結果  42
3.6 評價推薦質量  43
3.7 計算AUC  44
3.8 選擇超參數  46
3.9 産生推薦  48
3.10 小結  49
第4章  用決策樹算法預測森林植被  51
4.1 迴歸簡介  52
4.2 嚮量和特徵  52
4.3 樣本訓練  53
4.4 決策樹和決策森林  54
4.5 Covtype數據集  56
4.6 準備數據  57
4.7 第一棵決策樹  58
4.8 決策樹的超參數  62
4.9 決策樹調優  63
4.10 重談類彆型特徵  65
4.11 隨機決策森林  67
4.12 進行預測  69
4.13 小結  69
第5章 基於K均值聚類的網絡流量異常檢測  71
5.1 異常檢測  72
5.2 K均值聚類  72
5.3 網絡入侵  73
5.4 KDD Cup 1999數據集  73
5.5 初步嘗試聚類  74
5.6 K 的選擇  76
5.7 基於R的可視化  79
5.8 特徵的規範化  81
5.9 類彆型變量  83
5.10 利用標號的熵信息  84
5.11 聚類實戰  85
5.12 小結  86
第6章 基於潛在語義分析算法分析維基百科  89
6.1 詞項-文檔矩陣  90
6.2 獲取數據  91
6.3 分析和準備數據  92
6.4 詞形歸並  93
6.5 計算TF-IDF  94
6.6 奇異值分解  97
6.7 找齣重要的概念  98
6.8 基於低維近似的查詢和評分  101
6.9 詞項-詞項相關度  102
6.10 文檔-文檔相關度  103
6.11 詞項-文檔相關度  105
6.12 多詞項查詢  106
6.13 小結  107
第7章 用GraphX分析伴生網絡  109
7.1 對MEDLINE文獻引用索引的網絡分析  110
7.2 獲取數據  111
7.3 用Scala XML工具解析XML文檔  113
7.4 分析MeSH主要主題及其伴生關係  114
7.5 用GraphX來建立一個伴生網絡  116
7.6 理解網絡結構  119
7.6.1 連通組件  119
7.6.2 度的分布  122
7.7 過濾噪聲邊  124
7.7.1 處理EdgeTriplet  125
7.7.2 分析去掉噪聲邊的子圖  126
7.8 小世界網絡  127
7.8.1 係和聚類係數  128
7.8.2 用Pregel計算平均路徑長度  129
7.9 小結  133
第8章 紐約齣租車軌跡的空間和時間數據分析  135
8.1 數據的獲取  136
8.2 基於Spark的時間和空間數據分析  136
8.3 基於JodaTime和NScalaTime的時間數據處理  137
8.4 基於Esri Geometry API和Spray的地理空間數據處理  138
8.4.1 認識Esri Geometry API  139
8.4.2 GeoJSON簡介  140
8.5 紐約市齣租車客運數據的預處理  142
8.5.1 大規模數據中的非法記錄處理  143
8.5.2 地理空間分析  147
8.6 基於Spark的會話分析  149
8.7 小結  153
第9章 基於濛特卡羅模擬的金融風險評估  155
9.1 術語  156
9.2 VaR計算方法  157
9.2.1 方差-協方差法  157
9.2.2 曆史模擬法  157
9.2.3 濛特卡羅模擬法  157
9.3 我們的模型  158
9.4 獲取數據  158
9.5 數據預處理  159
9.6 確定市場因素的權重  162
9.7 采樣  164
9.8 運行試驗  167
9.9 迴報分布的可視化  170
9.10 結果的評估  171
9.11 小結  173
第10章 基因數據分析和BDG項目  175
10.1 分離存儲與模型  176
10.2 用ADAM CLI導入基因學數據  178
10.3 從ENCODE數據預測轉錄因子結閤位點  185
10.4 查詢1000 Genomes項目中的基因型  191
10.5 小結  193
第11章 基於PySpark和Thunder的神經圖像數據分析  195
11.1 PySpark簡介  196
11.2 Thunder工具包概況和安裝  199
11.3 用Thunder加載數據  200
11.4 用Thunder對神經元進行分類  207
11.5 小結  211
附錄A Spark進階  213
附錄B 即將發布的MLlib Pipelines API  221
作者介紹  226
封麵介紹  226
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

寫的還兼顧的基礎知識不太好, 應該假設看過那本基礎的. 感覺這種應用類的看書總覺太囉嗦太慢, 還是直接 源碼+注釋好些.

评分

不喜歡scala

评分

看瞭前麵幾個案例,由於都是用spark mllib庫以及rdd,相對來說有點舊瞭。隻是作為一本參考讀物看看即可

评分

看瞭前麵幾個案例,由於都是用spark mllib庫以及rdd,相對來說有點舊瞭。隻是作為一本參考讀物看看即可

评分

不喜歡scala

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有