前言
關於技術審校者
第1章 導入分析數據 1
1.1 引言 1
1.2 新建項目 1
1.3 將CSV數據讀入Incanter數據集 2
1.4 將JSON數據讀入Incanter數據集 4
1.5 使用Incanter讀入Excel數據 5
1.6 從JDBC數據庫讀取數據 6
1.7 將XML數據讀入Incanter數據集 9
1.8 從網頁錶中抓取數據 11
1.9 從網頁中抓取文本數據 15
1.10 讀取RDF數據 17
1.11 使用SPARQL讀取RDF數據 20
1.12 整閤不同格式的數據 24
第2章 清洗和校驗數據 29
2.1 引言 29
2.2 使用正則錶達式清洗數據 30
2.3 使用同義詞映射保持一緻性 31
2.4 識彆並去除重復數據 33
2.5 標準化數字格式 35
2.6 調整詞頻值的度量 36
2.7 標準化日期和時間 38
2.8 大數據集的延遲處理 40
2.9 大數據集抽樣 42
2.10 修正拼寫錯誤 43
2.11 解析自定義數據格式 46
2.12 使用Valip校驗數據 49
第3章 使用並發編程管理復雜度 51
3.1 引言 51
3.2 使用STM管理程序復雜度 52
3.3 使用agent管理程序復雜度 55
3.4 使用commute獲得更好的性能 57
3.5 將agent和STM結閤使用 58
3.6 使用ensure維護一緻性 60
3.7 將安全的副作用引入STM中 63
3.8 使用validator維護數據一緻性 65
3.9 使用watcher追蹤處理過程 68
3.10 使用watcher調試並發程序 70
3.11 從agent中錯誤恢復 71
3.12 使用sized queue管理輸入 73
第4章 使用並行編程提高性能 74
4.1 引言 74
4.2 使用pmap並行處理 75
4.3 使用Incanter並行處理 77
4.4 將濛特卡羅模擬進行劃分使pmap性能提升 79
4.5 使用模擬退火算法最優化分塊大小 83
4.6 使用reducers並行處理 86
4.7 使用reducers生成在綫統計 89
4.8 使用OpenCL和Calx駕馭你的GPU 91
4.9 使用類型提示 94
4.10 使用Criterium製定基準 96
第5章 使用Cascalog進行分布式數據處理 100
5.1 引言 100
5.2 使用Cascalog和Hadoop分布式處理 101
5.3 使用Cascalog查詢數據 104
5.4 使用Apache HDFS分布數據 105
5.5 使用Cascalog解析CSV文件 108
5.6 使用Cascalog執行復雜查詢 110
5.7 使用Cascalog聚閤數據 112
5.8 定義新Cascalog操作符 113
5.9 組成Cascalog查詢 116
5.10 處理Cascalog工作流中的錯誤 118
5.11 使用Cascalog轉換數據 119
5.12 使用Pallet在雲上執行Cascalog查詢 120
第6章 使用Incanter數據集 126
6.1 引言 126
6.2 加載Incanter樣例數據集 126
6.3 將Clojure數據結構加載到數據集中 127
6.4 使用view交互式查看數據集 129
6.5 將數據集轉換為矩陣 130
6.6 在Incanter中使用infix公式 132
6.7 使用$選擇列 133
6.8 使用$選擇行 135
6.9 使用$where過濾數據集 136
6.10 使用$group-by對數據分組 138
6.11 將數據集另存為CSV和JSON 139
6.12 使用$join進行多數據集投影 141
第7章 使用Incanter準備並執行統計數據分析 144
7.1 引言 144
7.2 使用$rollup生成匯總統計 144
7.3 通過變量差彆展示變化 146
7.4 調整變量以簡化變量關係 148
7.5 使用Incanter Zoo處理時間序列數據 150
7.6 平滑數據以降低噪聲 152
7.7 使用bootstrapping驗證抽樣統計 154
7.8 綫性關係建模 156
7.9 非綫性關係建模 158
7.10 多峰貝葉斯分布建模 162
7.11 使用本福德定律找齣數據錯誤 165
第8章 使用Mathematica和R 167
8.1 引言 167
8.2 在Mac OS X和Linux係統中配置Mathematica與Clojuratica的交互環境 168
8.3 在Windows係統中配置Mathematica與Clojuratica的交互環境 170
8.4 在Clojuratica中調用Mathematica函數 172
8.5 在Clojuratica中嚮Mathematica發送矩陣 173
8.6 在Clojuratica中運行Mathematica腳本 174
8.7 從Mathematica中創建函數 175
8.8 在Mathematica中並行處理函數 176
8.9 配置R與Clojure交互 177
8.10 在Clojure中調用R的函數 179
8.11 將嚮量傳入R 180
8.12 在Clojure中執行R文件 181
8.13 在Clojure中使用R繪圖 183
第9章 聚類、分類和使用Weka 185
9.1 引言 185
9.2 將CSV和ARFF文件加載到Weka中 185
9.3 在Weka數據集中對列進行過濾和重命名 187
9.4 使用K-means聚類發現成組數據 190
9.5 在Weka中尋找層次聚類結構 195
9.6 在Incanter中使用SOM聚類 197
9.7 使用決策樹分類數據 199
9.8 使用樸素貝葉斯分類器分類數據 201
9.9 使用支持嚮量機分類數據 203
9.10 使用Apriori算法發現數據中的關聯 205
第10章 使用Incanter繪圖 208
10.1 引言 208
10.2 使用Incanter創建散點圖 209
10.3 使用Incanter創建柱形圖 211
10.4 在柱形圖中繪製非數值型數據 212
10.5 使用Incanter創建直方圖 213
10.6 使用Incanter繪製函數 215
10.7 為Incanter圖錶加入方程式 216
10.8 為散點圖加入直綫 217
10.9 使用JFreeChart定製圖錶 218
10.10 將Incanter圖保存為PNG格式 220
10.11 使用PCA繪製多維數據 221
10.12 使用Incanter創建動態圖錶 223
第11章 創建網頁圖錶 225
11.1 引言 225
11.2 使用Ring和Compojure提供數據 226
11.3 使用Hiccup創建HTML網頁 229
11.4 配置和使用ClojureScript 231
11.5 用NVD3創建散點圖 234
11.6 用NVD3創建條形圖 239
11.7 用NVD3創建直方圖 242
11.8 使用力嚮布局進行圖像可視化 244
11.9 用D3創建交互式可視化 248
· · · · · · (
收起)