命令行中的數據科學

命令行中的數據科學 pdf epub mobi txt 電子書 下載2025

出版者:人民郵電齣版社
作者:[荷] Jeroen Janssens
出品人:
頁數:188
译者:王曉偉
出版時間:2015-5
價格:49.00元
裝幀:平裝
isbn號碼:9787115391681
叢書系列:圖靈程序設計叢書
圖書標籤:
  • 大數據
  • 數據科學
  • 計算機
  • Python
  • datascience
  • 數據挖掘
  • Linux
  • 數據分析
  • 數據科學
  • 命令行
  • Python
  • 數據分析
  • Shell
  • 自動化
  • 實用工具
  • 技巧
  • 學習
  • 教程
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

本書集實用性和先進性於一身,為數據分析人員使用命令行這個靈活的工具提供瞭重要參考。作者講解瞭眾多實用的命令行工具,以及如何使用它們高效地獲取、清洗、探索和建模數據。無論你使用Windows、OS X,還是Linux,都可以安裝包含80多個命令行工具的“數據科學工具箱”,迅速建立自己的數據分析環境。無論你是否已經習慣於使用Python或R語言,都能夠通過本書體會到使用命令行的快捷、靈活與伸縮自如。

著者簡介

Jeroen Janssens

愛思唯爾(世界領先的科技及醫學齣版公司)首席數據科學傢,曾是紐約YPlan公司高級數據科學傢。專門從事機器學習、異常檢測和數據可視化。在荷蘭馬斯特裏赫特大學獲得人工智能碩士學位,在荷蘭蒂爾堡大學獲得機器學習博士學位。他熱衷於創建數據科學的開源工具,個人網站是http://jeroenjanssens.com/。

圖書目錄

前言  XIII
第1章 簡介  1
1.1 概述  1
1.2 數據科學就是OSEMN  2
1.2.1 數據獲取  2
1.2.2 數據清洗  2
1.2.3 數據探索  3
1.2.4 數據建模  3
1.2.5 數據解釋  3
1.3 插入的幾章  4
1.4 什麼是命令行  4
1.5 為什麼用命令行做數據科學工作  6
1.5.1 命令行的靈活性  6
1.5.2 命令行可增強  6
1.5.3 命令行可擴展  7
1.5.4 命令行可擴充  7
1.5.5 命令行無處不在  7
1.6 一個現實用例  8
1.7 延伸閱讀  11
第2章 入門指南  13
2.1 概述  13
2.2 設置數據科學工具箱  13
2.2.1 步驟1:下載和安裝VirtualBox  14
2.2.2 步驟2:下載和安裝Vagrant  14
2.2.3 步驟3:下載並啓動數據科學工具箱  14
2.2.4 步驟4:登錄(Linux 和Mac OS X)  16
2.2.5 步驟4:登錄(微軟Windows)  16
2.2.6 步驟5:關閉或重啓  16
2.3 必要的概念和工具  17
2.3.1 環境  17
2.3.2 運行命令行工具  18
2.3.3 五類命令行工具  19
2.3.4 命令行工具的組閤  21
2.3.5 輸入和輸齣重定嚮  22
2.3.6 處理文件  23
2.3.7 尋求幫助  24
2.4 延伸閱讀  26
第3章 數據獲取  27
3.1 概述  27
3.2 將本地文件復製到數據科學工具箱  28
3.2.1 本地數據科學工具箱  28
3.2.2 遠程數據科學工具箱  28
3.3 解壓縮文件  29
3.4 微軟Excel電子錶格的轉換  30
3.5 查詢關係數據庫  32
3.6 從互聯網下載  33
3.7 調用Web API  35
3.8 延伸閱讀  36
第4章 創建可重用的命令行工具  37
4.1 概述  38
4.2 將單行轉變為shell腳本  38
4.2.1 步驟1:復製和粘貼  39
4.2.2 步驟2:添加執行權限  40
4.2.3 步驟3:定義shebang  41
4.2.4 步驟4:刪除固定的輸入  42
4.2.5 步驟5:參數化  42
4.2.6 步驟6:擴展PATH  43
4.3 用Python 和R 創建命令行工具  44
4.3.1 移植shell 腳本  45
4.3.2 處理來自標準輸入的流數據  46
4.4 延伸閱讀  47
第5章 數據清洗  49
5.1 概述  50
5.2 純文本的常見清洗操作  50
5.2.1 行過濾  50
5.2.2 值提取  54
5.2.3 值替換和刪除  55
5.3 處理CSV  56
5.3.1 主體、頭部和列  56
5.3.2 對CSV執行SQL查詢  60
5.4 處理HTML/XML 和JSON  61
5.5 CSV的常見清洗操作  65
5.5.1 列的提取和重排序  65
5.5.2 行過濾  66
5.5.3 列閤並  67
5.5.4 多個CSV文件的閤並  70
5.6 延伸閱讀  73
第6章 管理數據工作流  75
6.1 概述  76
6.2 Drake簡介  76
6.3 Drake的安裝  76
6.4 獲取古騰堡計劃中下載最多的電子書  78
6.5 所有工作流都從單個步驟開始  79
6.6 具體情況具體對待  81
6.7 重新構建具體目標  82
6.8 討論  83
6.9 延伸閱讀  83
第7章 數據探索  85
7.1 概述  85
7.2 檢查數據及其屬性  86
7.2.1 確定有無數據頭  86
7.2.2 檢查所有數據  86
7.2.3 特徵名稱和數據類型  87
7.2.4 唯一標識、連續變量和因子  89
7.3 計算描述性統計信息  90
7.3.1 使用csvstat  90
7.3.2 在命令行中通過Rio使用R  92
7.4 生成可視化圖形  95
7.4.1 介紹Gunplot和feedgnuplot  95
7.4.2 介紹ggplot2  97
7.4.3 直方圖  99
7.4.4 條形圖  101
7.4.5 密度圖  102
7.4.6 箱綫圖  103
7.4.7 散點圖  103
7.4.8 摺綫圖  105
7.4.9 總結  106
7.5 延伸閱讀  106
第8章 並行管道  107
8.1 概述  108
8.2 串行處理  108
8.2.1 對數字進行遍曆  108
8.2.2 對行進行遍曆  109
8.2.3 對文件進行遍曆  110
8.3 並行處理  111
8.3.1 GNU Parallel介紹  112
8.3.2 指定輸入  113
8.3.3 控製並發任務的個數  114
8.3.4 記錄日誌和輸齣  115
8.3.5 創建並行工具  116
8.4 分布式處理  117
8.4.1 獲得運行中的AWS EC2實例列錶  117
8.4.2 在遠程機器上運行命令  118
8.4.3 在遠程機器間分發本地數據  119
8.4.4 在遠程機器上處理文件  120
8.5 討論  123
8.6 延伸閱讀  123
第9章 數據建模  125
9.1 概述  126
9.2 更多的酒,來吧!  126
9.3 用Tapkee降維  129
9.3.1 介紹Tapkee  130
9.3.2 安裝Tapkee  130
9.3.3 綫性和非綫性映射  130
9.4 用Weka 聚類  132
9.4.1 介紹Weka  132
9.4.2 在命令行裏改進Weka  132
9.4.3 在CSV和ARFF格式之間轉換  136
9.4.4 比較三種聚類算法  136
9.5 通過SciKit-Learn Laboratory進行迴歸  139
9.5.1 準備數據  139
9.5.2 運行實驗  139
9.5.3 解析結果  140
9.6 用BigML分類  141
9.6.1 生成均衡的訓練和測試數據集  141
9.6.2 調用API  143
9.6.3 檢查結果  143
9.6.4 小結  144
9.7 延伸閱讀  144
第10章 總結  145
10.1 讓我們迴顧一下  145
10.2 三條建議  146
10.2.1 有耐心  146
10.2.2 有所創新  146
10.2.3 肯於實踐  147
10.3 接下來做什麼  147
10.3.1 API  147
10.3.2 shell 編程  147
10.3.3 Python、R 和SQL  147
10.3.4 數據解釋  148
10.4 聯係方式  148
附錄A 命令行工具列錶  149
附錄B 參考文獻  167
作者介紹  169
封麵介紹  169
· · · · · · (收起)

讀後感

評分

在电脑上细看了前4章。 1. 最新版本已经使用docker来建「虚拟环境」了,2014年的版本是用VirtualBox。最新的在线版本 [https://www.datascienceatthecommandline.com/] 2. 数据处理的步骤还是那些:获取,数据清洗,可视化,建模,解释 3.命令行工具很强大,目测可以完成常用的...  

評分

本书集实用性和先进性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速...

評分

在电脑上细看了前4章。 1. 最新版本已经使用docker来建「虚拟环境」了,2014年的版本是用VirtualBox。最新的在线版本 [https://www.datascienceatthecommandline.com/] 2. 数据处理的步骤还是那些:获取,数据清洗,可视化,建模,解释 3.命令行工具很强大,目测可以完成常用的...  

評分

本书集实用性和先进性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速...

評分

本书集实用性和先进性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速...

用戶評價

评分

每一個人都應該掌握一些基本數據科學分析工具。

评分

稍微看瞭一下,主要是用命令行的形式來處理分析數據

评分

介紹一些數據科學的命令行工具,比較淺,2天就看完瞭。

评分

專業書

评分

2016-09-11想讀,2018-12-25已讀。有點強行命令行啊,果然還是奔著Anaconda去好一點

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有