R與Hadoop大數據分析實戰

R與Hadoop大數據分析實戰 pdf epub mobi txt 電子書 下載2025

出版者:機械工業齣版社
作者:(印) Vignesh Prajapati
出品人:
頁數:180
译者:李明
出版時間:2014-11-1
價格:49.00元
裝幀:平裝
isbn號碼:9787111483526
叢書系列:大數據技術叢書
圖書標籤:
  • R
  • 大數據
  • 互聯網
  • 統計
  • 數據可視化
  • 工具書
  • 計算機科學
  • 計算機
  • R
  • 大數據
  • Hadoop
  • 數據分析
  • 實戰
  • 編程
  • 統計
  • 機器學習
  • 可視化
  • 數據挖掘
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

本書全麵而係統地講解瞭如何將R語言與Hadoop技術結閤並應用於大數據分析,不僅係統且深入地闡釋瞭R與Hadoop集成技術的工具、方法、原則和最佳實踐,而且通過大量實踐案例深入剖析各種常見問題,能為用戶高效利用R語言與Hadoop技術進行大數據處理提供翔實指導。

全書分為四部分,共7章:第一部分(第1~2章)是基礎知識,主要講解R語言以及Hadoop的安裝過程、計算原理和基本概念;第二部分(第3~4章)是初級應用,主要講解RHIPE、RHadoop和streaming三種實現方案;第三部分(第5~6章)是高級實例,主要以RHadoop為技術背景,講解多個實際應用案例;第四部分(第7章)介紹數據庫連接,主要講解在RHadoop下如何與各類數據庫進行連接。

著者簡介

Vignesh Prajapati 資深大數據分析師,現為Pingax公司顧問、Enjay公司軟件工程師,精通R、Hadoop、Mahout、Pig、Hive等技術,在機器學習和大數據技術方麵擁有豐富經驗。目前他專注於利用大數據和雲技術為客戶提供有價值産品。

譯者簡介

李明

畢業於瀋陽理工大學信息工程學院電子科技與技術係,曾就職於凡客誠品、居然之傢等大型電子商務公司,目前就職於優酷土豆網。他的研究興趣是用R語言進行互聯網數據分析/挖掘,撰寫過大量有關R語言基礎和高級應用的文章,對互聯網數據統計係統的R語言實踐有較深研究,撰寫瞭《R語言與網站分析》一書。他的個人博客為www.bassary.com。

王威揚

2008年畢業於清華大學航天航空學院,同年獲得清華大學經濟學雙學位,2010年獲得芝加哥大學統計學碩士學位。畢業後曾先後任職於芝加哥大學計算機係、文思海輝技術有限公司、京東世紀貿易集團有限公司及互聯網初創企業,在科研、證券、銀行、電商、O2O行業負責數據倉庫建設及數據分析、挖掘工作,同時對高性能計算與開源分布式技術架構有濃厚興趣。

孫思棟

中南財經政法大學經濟學、信息與計算科學雙學士,現為清華大學中國應急管理研究基地助理研究員,參與瞭國傢清史編撰委員會文獻等3個省部級科研項目,對非結構化大數據處理有深入理解。

圖書目錄

目  錄
譯者序
前言
審校者簡介
緻謝
第1章 R和Hadoop入門 1
1.1 安裝R 2
1.2 安裝RStudio 3
1.3 R語言的功能特徵 3
1.3.1 使用R程序包 3
1.3.2 執行數據操作 3
1.3.3 日漸增多的社區支持 4
1.3.4 R語言數據建模 4
1.4 Hadoop的安裝 5
1.4.1 不同的Hadoop模式 6
1.4.2 Hadoop的安裝步驟 6
1.5 Hadoop的特點 12
1.5.1 HDFS簡介 13
1.5.2 MapReduce簡介 13
1.6 HDFS和MapReduce架構 14
1.6.1 HDFS架構 14
1.6.2 MapReduce架構 15
1.6.3 通過圖示瞭解HDFS和MapReduce架構 15
1.7 Hadoop的子項目 16
1.8 小結 19
第2章 編寫Hadoop MapReduce程序 20
2.1 MapReduce基礎概念 20
2.2 Hadoop MapReduce技術簡介 22
2.2.1 MapReduce中包含的實體 22
2.2.2 MapReduce中的主要執行進程 23
2.2.3 MapReduce的局限 25
2.2.4 MapReduce 可以解決的問題 26
2.2.5 使用Hadoop編程時用到不同的Java概念 26
2.3 Hadoop MapReduce原理 27
2.3.1 MapReduce對象 27
2.3.2 MapReduce中實現Map階段的執行單元數目 28
2.3.3 MapReduce中實現Reduce階段的執行單元數目 28
2.3.4 MapReduce的數據流 28
2.3.5 深入理解HadoopMapReduce 30
2.4 編寫Hadoop MapReduce示例程序 32
2.4.1 MapReduce job運行的步驟 33
2.4.2 MapReduce可解決的商業問題 38
2.5 在R環境中編寫Hadoop MapReduce程序的方式 39
2.5.1 RHadoop 39
2.5.2 RHIPE 40
2.5.3 Hadoop streaming 40
2.6 小結 40
第3章 集成R和Hadoop 41
3.1 RHIPE 42
3.1.1 安裝RHIPE 42
3.1.2 RHIPE架構 44
3.1.3 RHIPE實例 45
3.1.4 RHIPE參考函數 48
3.2 RHadoop 51
3.2.1 RHadoop架構 51
3.2.2 安裝RHadoop 52
3.2.3 RHadoop案例 53
3.2.4 RHadoop參考函數 56
3.3 小結 58
第4章 Hadoop Streaming中使用R 59
4.1 Hadoop Streaming基礎概念 59
4.2 使用R運行Hadoop streaming 62
4.2.1 MapReduce應用程序基礎 63
4.2.2 如何編寫MapReduce應用程序 65
4.2.3 如何運行MapReduce應用程序 67
4.2.4 如何瀏覽MapRecuce應用程序的輸齣 69
4.2.5 Hadoop MapReduce腳本的基礎R函數 70
4.2.6 管理Hadoop MapReduce任務 71
4.3 R語言擴展包HadoopStreaming介紹 72
4.3.1 hsTableReader函數 73
4.3.2 hsKeyValReader函數 75
4.3.3 hasLineReader函數 75
4.3.4 運行Hadoop streaming任務 78
4.3.5 執行Hadoop Streaming任務 79
4.4 小結 79
第5章 利用R和Hadoop學習數據分析 80
5.1 數據分析項目生命周期 80
5.1.1 問題定義 81
5.1.2 設計數據需求 81
5.1.3 數據預處理 81
5.1.4 數據分析 82
5.1.5 數據可視化 82
5.2 數據分析問題 83
5.2.1 展示網頁分類 83
5.2.2 計算股市變動頻率 92
5.2.3 案例研究:預測推土機售價 98
5.3 小結 107
第6章 應用機器學習做大數據分析 108
6.1 機器學習介紹 108
6.2 有監督機器學習算法 109
6.2.1 綫性迴歸 109
6.2.2 logistic迴歸 115
6.3 無監督機器學習算法 118
6.4 推薦算法 123
6.4.1 在R中産生推薦商品的步驟 125
6.4.2 使用R和Hadoop産生推薦商品 128
6.5 小結 131
第7章 從各種數據庫中導入與導齣數據 132
7.1 文件型數據庫 134
7.1.1 不同類型的文件 134
7.1.2 安裝R包 134
7.1.3 將數據導入R 134
7.1.4 從R導齣數據 135
7.2 MySQL 135
7.2.1 安裝MySQL 135
7.2.2 安裝RMySQL 136
7.2.3 列齣數據錶及其結構 136
7.2.4 導入數據進R 136
7.2.5 數據操縱 137
7.3 Excel 137
7.3.1 安裝Excel 138
7.3.2 導入數據進R 138
7.3.3 R和Excel的數據操縱 138
7.3.4 導齣數據到Excel 138
7.4 MongoDB 138
7.4.1 安裝MongoDB 139
7.4.2 安裝rmongodb 141
7.4.3 導入數據進R 141
7.4.4 數據操縱 142
7.5 SQLite 143
7.5.1 SQLite的特性 143
7.5.2 安裝SQLite 144
7.5.3 安裝RSQLite 144
7.5.4 將數據導師入R 144
7.5.5 數據操縱 145
7.6 PostgreSQL 145
7.6.1 PostgreSQL的特性 145
7.6.2 安裝PostgreSQL 145
7.6.3 安裝RPostgreSQL 146
7.6.4 從R導齣數據 146
7.7 Hive 147
7.7.1 Hive的特性 147
7.7.2 安裝Hive 147
7.7.3 安裝RHive 149
7.7.4 RHive操作 149
7.8 HBase 150
7.8.1 HBase的特性 150
7.8.2 安裝HBase 151
7.8.3 安裝Thrift 152
7.8.4 安裝RHBase 153
7.8.5 導入數據進R 153
7.8.6 數據操縱 153
7.9 小結 154
附錄 參考資源 155
· · · · · · (收起)

讀後感

評分

3种工具 * Rhipe * RHadoop https://github.com/RevolutionAnalytics/RHadoop/wiki * Hadoop Streaming 数据可视化 * ggplot2 * rChats * is an R package to create, customize and publish interactive javascript visualizations from R using a familiar lattice ...

評分

3种工具 * Rhipe * RHadoop https://github.com/RevolutionAnalytics/RHadoop/wiki * Hadoop Streaming 数据可视化 * ggplot2 * rChats * is an R package to create, customize and publish interactive javascript visualizations from R using a familiar lattice ...

評分

3种工具 * Rhipe * RHadoop https://github.com/RevolutionAnalytics/RHadoop/wiki * Hadoop Streaming 数据可视化 * ggplot2 * rChats * is an R package to create, customize and publish interactive javascript visualizations from R using a familiar lattice ...

評分

3种工具 * Rhipe * RHadoop https://github.com/RevolutionAnalytics/RHadoop/wiki * Hadoop Streaming 数据可视化 * ggplot2 * rChats * is an R package to create, customize and publish interactive javascript visualizations from R using a familiar lattice ...

評分

3种工具 * Rhipe * RHadoop https://github.com/RevolutionAnalytics/RHadoop/wiki * Hadoop Streaming 数据可视化 * ggplot2 * rChats * is an R package to create, customize and publish interactive javascript visualizations from R using a familiar lattice ...

用戶評價

评分

都要自己寫算法,無法利用R的現有函數

评分

馬馬虎虎,有點老,不過確實是基礎講解。

评分

都要自己寫算法,無法利用R的現有函數

评分

書上有錯誤,很多地方解釋不清楚,寫的太淺顯,可能因為R+Hadoop本身就是個坑吧

评分

R可拓展性較差 瞭解簡單的 hadoop相關

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有