PySpark實戰指南

PySpark實戰指南 pdf epub mobi txt 電子書 下載2025

出版者:機械工業齣版社
作者:Tomasz Drabas
出品人:
頁數:186
译者:欒雲傑
出版時間:2017-11-14
價格:49
裝幀:平裝
isbn號碼:9787111582380
叢書系列:大數據技術叢書
圖書標籤:
  • spark
  • python
  • 大數據
  • bigData
  • 計算機
  • 數據
  • 而知也無涯-2019
  • 互聯網
  • PySpark
  • 大數據
  • Spark
  • 機器學習
  • 數據處理
  • 分布式計算
  • 實戰
  • 編程
  • 數據科學
  • 雲計算
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

本文從Spark的基本特點齣發,藉助大量例子詳細介紹瞭如何使用Python調用Spark新特性、處理結構化及非結構化數據、使用PySpark中基本可用數據類型、生成機器學習模型、進行圖像操作以及閱讀串流數據等新興技術內容。

著者簡介

作者:(美)托馬茲·卓巴斯 作者:丹尼·李 譯者:欒雲傑 譯者:陳瑤 譯者:劉旭斌

托馬茲·卓巴斯(Tomasz Drabas),微軟數據科學傢,他擁有超過13年的數據分析經驗。托馬茲每天都和大數據打交道,解決機器學習問題(如異常檢測、流失預測),並使用Spark進行模式識彆。丹尼·李(Denny Lee),微軟Azure DocumentDB團隊的首席項目經理。他是一個經驗豐富的分布式係統和數據科學工程師,擁有超過18年的經驗,擅長開發互聯網級彆基礎架構、數據平颱和預測分析係統(包括內部部署和雲環境)。

圖書目錄

Contents?目 錄
譯者序

前言
關於作者
第1章 瞭解Spark 1
1.1 什麼是Apache Spark 1
1.2 Spark作業和API 2
1.2.1 執行過程 2
1.2.2 彈性分布式數據集 3
1.2.3 DataFrame 4
1.2.4 Dataset 5
1.2.5 Catalyst優化器 5
1.2.6 鎢絲計劃 5
1.3 Spark 2.0的架構 6
1.3.1 統一Dataset和DataFrame 7
1.3.2 SparkSession介紹 8
1.3.3 Tungsten Phase 2 8
1.3.4 結構化流 10
1.3.5 連續應用 10
1.4 小結 11
第2章 彈性分布式數據集 12
2.1 RDD的內部運行方式 12
2.2 創建RDD 13
2.2.1 Schema 14
2.2.2 從文件讀取 14
2.2.3 Lambda錶達式 15
2.3 全局作用域和局部作用域 16
2.4 轉換 17
2.4.1 .map(...)轉換 17
2.4.2 .filter(...)轉換 18
2.4.3 .flatMap(...)轉換 18
2.4.4 .distinct(...)轉換 18
2.4.5 .sample(...)轉換 19
2.4.6 .leftOuterJoin(...)轉換 19
2.4.7 .repartition(...)轉換 20
2.5 操作 20
2.5.1 .take(...)方法 21
2.5.2 .collect(...)方法 21
2.5.3 .reduce(...)方法 21
2.5.4 .count(...)方法 22
2.5.5 .saveAsTextFile(...)方法 22
2.5.6 .foreach(...)方法 23
2.6 小結 23
第3章 DataFrame 24
3.1 Python到RDD之間的通信 24
3.2 Catalyst優化器刷新 25
3.3 利用DataFrame加速PySpark 27
3.4 創建DataFrame 28
3.4.1 生成自己的JSON數據 29
3.4.2 創建一個DataFrame 29
3.4.3 創建一個臨時錶 30
3.5 簡單的DataFrame查詢 31
3.5.1 DataFrame API查詢 32
3.5.2 SQL查詢 32
3.6 RDD的交互操作 33
3.6.1 使用反射來推斷模式 33
3.6.2 編程指定模式 34
3.7 利用DataFrame API查詢 35
3.7.1 行數 35
3.7.2 運行篩選語句 35
3.8 利用SQL查詢 36
3.8.1 行數 36
3.8.2 利用where子句運行篩選語句 36
3.9 DataFrame場景——實時飛行性能 38
3.9.1 準備源數據集 38
3.9.2 連接飛行性能和機場 39
3.9.3 可視化飛行性能數據 40
3.10 Spark數據集(Dataset)API 41
3.11 小結 42
第4章 準備數據建模 43
4.1 檢查重復數據、未觀測數據和異常數據(離群值) 43
4.1.1 重復數據 43
4.1.2 未觀測數據 46
4.1.3 離群值 50
4.2 熟悉你的數據 51
4.2.1 描述性統計 52
4.2.2 相關性 54
4.3 可視化 55
4.3.1 直方圖 55
4.3.2 特徵之間的交互 58
4.4 小結 60
第5章 MLlib介紹 61
5.1 包概述 61
5.2 加載和轉換數據 62
5.3 瞭解你的數據 65
5.3.1 描述性統計 66
5.3.2 相關性 67
5.3.3 統計測試 69
5.4 創建最終數據集 70
5.4.1 創建LabeledPoint形式的RDD 70
5.4.2 分隔培訓和測試數據 71
5.5 預測嬰兒生存機會 71
5.5.1 MLlib中的邏輯迴歸 71
5.5.2 隻選擇最可預測的特徵 72
5.5.3 MLlib中的隨機森林 73
5.6 小結 74
第6章 ML包介紹 75
6.1 包的概述 75
6.1.1 轉換器 75
6.1.2 評估器 78
6.1.3 管道 80
6.2 使用ML預測嬰兒生存幾率 80
6.2.1 加載數據 80
6.2.2 創建轉換器 81
6.2.3 創建一個評估器 82
6.2.4 創建一個管道 82
6.2.5 擬閤模型 83
6.2.6 評估模型的性能 84
6.2.7 保存模型 84
6.3 超參調優 85
6.3.1 網格搜索法 85
6.3.2 Train-validation 劃分 88
6.4 使用PySpark ML的其他功能 89
6.4.1 特徵提取 89
6.4.2 分類 93
6.4.3 聚類 95
6.4.4 迴歸 98
6.5 小結 99
第7章 GraphFrames 100
7.1 GraphFrames介紹 102
7.2 安裝GraphFrames 102
7.2.1 創建庫 103
7.3 準備你的航班數據集 105
7.4 構建圖形 107
7.5 執行簡單查詢 108
7.5.1 確定機場和航班的數量 108
7.5.2 確定這個數據集中的最長延誤時間 108
7.5.3 確定延誤和準點/早到航班的數量對比 109
7.5.4 哪一班從西雅圖齣發的航班最有可能齣現重大延誤 109
7.5.5 西雅圖齣發到哪個州的航班最有可能齣現重大延誤 110
7.6 理解節點的度 110
7.7 確定最大的中轉機場 112
7.8 理解Motif 113
7.9 使用PageRank確定機場排名 114
……
第8章 TensorFrames 120
8.1 深度學習是什麼 120
8.1.1 神經網絡和深度學習的必要性 123
8.1.2 特徵工程是什麼 125
8.1.3 橋接數據和算法 125
8.2 TensorFlow是什麼 127
8.2.1 安裝PIP 129
8.2.2 安裝TensorFlow 129
8.2.3 使用常量進行矩陣乘法 130
8.2.4 使用placeholder進行矩陣乘法 131
8.2.5 討論 132
8.3 TensorFrames介紹 133
8.4 TensorFrames快速入門 134
8.4.1 配置和設置 134
8.4.2 使用TensorFlow嚮已有列添加常量 136
8.4.3 Blockwise reducing操作示例 137
8.5 小結 139
第9章 使用Blaze實現混閤持久化
· · · · · · (收起)

讀後感

評分

利用Python和Spark构建大规模数据的分析与挖掘, 如何使用Python来调用Spark的新特性; 如何处理结构化和非结构化的数据; 如何使用PySpark中一些基本的可用数据类型; 如何生成机器学习模型; 将会全面介绍PySpark各个包的使用方法。 目前我看到过最好地一本介绍PySpark中文图...

評分

利用Python和Spark构建大规模数据的分析与挖掘, 如何使用Python来调用Spark的新特性; 如何处理结构化和非结构化的数据; 如何使用PySpark中一些基本的可用数据类型; 如何生成机器学习模型; 将会全面介绍PySpark各个包的使用方法。 目前我看到过最好地一本介绍PySpark中文图...

評分

利用Python和Spark构建大规模数据的分析与挖掘, 如何使用Python来调用Spark的新特性; 如何处理结构化和非结构化的数据; 如何使用PySpark中一些基本的可用数据类型; 如何生成机器学习模型; 将会全面介绍PySpark各个包的使用方法。 目前我看到过最好地一本介绍PySpark中文图...

評分

利用Python和Spark构建大规模数据的分析与挖掘, 如何使用Python来调用Spark的新特性; 如何处理结构化和非结构化的数据; 如何使用PySpark中一些基本的可用数据类型; 如何生成机器学习模型; 将会全面介绍PySpark各个包的使用方法。 目前我看到过最好地一本介绍PySpark中文图...

評分

利用Python和Spark构建大规模数据的分析与挖掘, 如何使用Python来调用Spark的新特性; 如何处理结构化和非结构化的数据; 如何使用PySpark中一些基本的可用数据类型; 如何生成机器学习模型; 将会全面介绍PySpark各个包的使用方法。 目前我看到过最好地一本介绍PySpark中文图...

用戶評價

评分

還行吧,湊閤能看

评分

其實我就想知道這是個啥,自己虛擬機配瞭個pyspark,照著書練一練,目的達到瞭

评分

此書寫的一般。內容寬而不全。 主要傾嚮於dataframe的操作。基本pyspark的基本功能用法都寫瞭。評分低可能是一些沒有入門的直接去看的。還好我看之前已經通過查詢PYSPARK的API寫瞭很多程序瞭。因此看此書是一個補充。 其實還可以的.

评分

實在是為數不多的除官方文檔之外的pyspark,但感覺翻譯的真是差啊

评分

還行吧,湊閤能看

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有