數據分析技術 使用SQL和Excel工具 pdf epub mobi txt 電子書 下載 2024
☆☆☆☆☆
簡體網頁||
繁體網頁
[美]Gordon S. Linoff 著 陶佰明
清華大學齣版社
陶佰明
2017-3-1
604
CNY 98.00
平裝
大數據應用與技術叢書
9787302461395
圖書標籤:
數據分析
SQL
EXCEL
計算機
純工具書
國際貿易
辦公自動化
産品經理
喜歡 數據分析技術 使用SQL和Excel工具 的讀者還喜歡
下載链接在页面底部
點擊這裡下載
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
发表于2024-12-23
數據分析技術 使用SQL和Excel工具 epub 下載 mobi 下載 pdf 下載 txt 電子書 下載 2024
數據分析技術 使用SQL和Excel工具 epub 下載 mobi 下載 pdf 下載 txt 電子書 下載 2024
數據分析技術 使用SQL和Excel工具 pdf epub mobi txt 電子書 下載 2024
圖書描述
SQL是數據查詢的基本語言,Excel是數據分析和展示的最常見工具。兩者結閤,可以組成一個強大且易於理解的業務數據分析工具。很多類重要的數據分析並不需要復雜且昂貴的數據挖掘工具。答案就在你的電腦桌上。
這是一本實用指南,作者Gordon S. Linoff是數據挖掘領域的權威專傢。書中介紹瞭如何使用SQL和Excel來設計並完成復雜的數據分析。本書的第1版被廣泛認可,第2版涵蓋瞭對SQL和Excel新功能的介紹,同時包括新的技術和實際業務示例。第2版介紹瞭業務經理和數據分析人員所需掌握的最新信息。
《數據分析技術 使用SQL和Excel工具》首先介紹數據挖掘所用的SQL基礎知識,如何使用Excel展示結果,以及用於理解數據的簡單的統計學概念。熟悉執行SQL和操作Excel後,本書介紹瞭核心分析技術。本書內容逐步從基礎查詢擴展到復雜的應用,使讀者能夠學習到某種數據分析的使用原因和時機,如何設計和實現,以及展示數據分析結果的強大方法。每一步都詳細解釋瞭業務環境、技術方法以及在所熟悉工具中的具體實現。
隨著對本書的閱讀,你會發現很多知識點,包括地理信息的重要性,圖錶中的數據隨時間的變化方式,如何使用生存分析理解客戶任期和變動,以及影響生存率的因素。同時,還會探索到一些方法,包括分析客戶的購買模式、分析購物車以及計算關聯規則。此外,本書還包含重要的SQL數據挖掘模型(綫性迴歸模型、樸素貝葉斯模型等)、建立客戶簽名所需的信息、用於分析結果集的模型、包含纍積增量圖錶和ROC圖錶、使用SQL的最佳實踐、提高查詢性能的方法等。
數據分析技術 使用SQL和Excel工具 下載 mobi epub pdf txt 電子書
著者簡介
Gordon S. Linoff從事數據庫工作數十年。在他的記憶中,他開始學習SQL時,還是SQL92標準版。當時他正領導一支開發團隊(現已不存在的Thinking Machines公司),編寫第一個側重於復雜查詢的高性能數據庫,用於支持決策分析。
此後,Gordon在1998年閤作創建瞭Data Miners公司,這是一傢緻力於數據挖掘、分析和大數據的谘詢公司。在他的工作生涯中,數據仍然是永恒的主題——而且通常是存儲於關係型數據庫中的數據。他對SQL的理解和應用也變得越來越深刻和嫻熟。在2014年,他是Stack Overflow的最多貢獻者,Stack Overflow是行業內領先的技術問答網站。
Gordon編寫的另外幾本書也都是暢銷書:《數據挖掘技術(第3版)——應用於市場營銷、銷售與客戶關係管理》、Mastering Data Mining和Mining the Web——這些書籍都側重於數據挖掘和數據分析。本書延續廣受好評的第1版,側重於如何實際地獲取和解釋數據結果,更具有實踐性。
圖書目錄
第1章 數據挖掘者眼中的SQL 1
1.1 數據庫、SQL和大數據 2
1.1.1 什麼是大數據? 2
1.1.2 關係型數據庫 3
1.1.3 Hadoop和Hive 3
1.1.4 NoSQL和其他類型的數據庫 3
1.1.5 SQL 4
1.2 繪製數據結構 4
1.2.1 什麼是數據模型? 5
1.2.2 什麼是錶? 5
1.2.3 什麼是實體-關係圖錶? 8
1.2.4 郵政編碼錶 9
1.2.5 訂閱數據集 10
1.2.6 訂單數據集 11
1.2.7 關於命名的提示 12
1.3 使用數據流描述數據分析 12
1.3.1 什麼是數據流? 13
1.3.2 數據流、SQL和關係代數 16
1.4 SQL查詢 16
1.4.1 做什麼,而不是怎麼去做 16
1.4.2 SELECT語句 17
1.4.3 一個基礎的SQL查詢 17
1.4.4 一個基本的SQL求和查詢 19
1.4.5 聯接錶的意義 20
1.4.6 SQL的其他重要功能 26
1.5 子查詢和公用錶錶達式 29
1.5.1 用於命名變量的子查詢 29
1.5.2 處理統計信息的子查詢 32
1.5.3 子查詢和IN 33
1.5.4 用於UNION ALL的子查詢 37
1.6 小結 38
第2章 錶中有什麼?開始數據探索 39
2.1 什麼是數據探索? 40
2.2 Excel中的繪圖 40
2.2.1 基礎圖錶:柱形圖 41
2.2.2 單元格中的條形圖 45
2.2.3 柱形圖的有用變化形式 47
2.2.4 其他類型的圖錶 50
2.3 迷你圖 53
2.4 列中包含的值 55
2.4.1 直方圖 55
2.4.2 計數的直方圖 58
2.4.3 計數的纍積直方圖 60
2.4.4 數字值的直方圖(頻率) 60
2.5 探索更多的值——最小值、最大
值和模式 64
2.5.1 最小值和最大值 64
2.5.2 最常見的值(模式) 65
2.6 探索字符串值 66
2.6.1 長度的直方圖 66
2.6.2 起始或結尾包含空白字符
的字符串 66
2.6.3 處理大小寫問題 67
2.6.4 字符串中存儲的字符是
什麼? 67
2.7 探索兩個列中的值 69
2.7.1 每個州的平均銷售額
是多少? 70
2.7.2 在一個單獨的訂單中,産品重復
齣現的頻率是多少? 70
2.7.3 哪個州的American Express
用戶最多? 73
2.8 由一個列的數據擴展到所有列
的數據匯總 73
2.8.1 針對單列的匯總 74
2.8.2 返迴錶中所有列的查詢 76
2.8.3 使用SQL生成匯總編碼 76
2.9 小結 78
第3章 不同之處是如何不同? 79
3.1 基本的統計學概念 80
3.1.1 虛擬假設 80
3.1.2 可信度和概率 81
3.1.3 正態分布 82
3.2 平均值的區彆有多大? 85
3.2.1 方法 85
3.2.2 子集平均值的標準差 85
3.2.3 三個方法 87
3.3 對錶做抽樣 89
3.3.1 隨機抽樣 89
3.3.2 可重復的隨機樣本 90
3.3.3 分層比例抽樣 91
3.3.4 平衡的樣本 92
3.4 計數的可能性 93
3.4.1 有多少男性成員? 96
3.4.2 有多少加利福尼亞人? 98
3.4.3 虛擬假設和可信度 99
3.4.4 有多少客戶仍然是活躍
客戶? 100
3.4.5 比率或數字? 103
3.5 概率和它們的統計 104
3.5.1 概率的標準差 104
3.5.2 概率的置信區間 105
3.5.3 概率的不同 106
3.5.4 保守的下限值 107
3.6 卡方檢驗 107
3.6.1 期望值 108
3.6.2 卡方計算 108
3.6.3 卡方分布 109
3.6.4 SQL中的卡方檢驗 111
3.6.5 州和産品之間的特殊關係 112
3.7 月份和支付類型與不同産品
類型的特殊關係 114
3.7.1 多維卡方 114
3.7.2 使用SQL查詢 115
3.7.3 結果 115
3.8 小結 116
第4章 發生的地點在何處? 119
4.1 緯度和經度 120
4.1.1 緯度和經度的定義 120
4.1.2 度數、分鍾和秒 121
4.1.3 兩個位置之間的距離 122
4.1.4 包含郵政編碼的圖片 128
4.2 人口統計 131
4.2.1 極端情況:最富有的和最貧
窮的人 132
4.2.2 分彆在使用訂單和不使用訂
單的情況下比較郵政編碼 137
4.3 地理等級 142
4.3.1 州中最富有的郵政編碼 142
4.3.2 州中擁有最多訂單的郵政
編碼 143
4.3.3 地理數據中有趣的層級
結構 145
4.3.4 計算郡的財富 148
4.3.5 財富值的分布 150
4.3.6 在郡中,哪個郵政編碼是相對
最富有的? 151
4.3.7 擁有最高的相對訂單占有
份額的郡 152
4.4 在Excel中繪製地圖 155
4.4.1 為什麼繪製地圖? 155
4.4.2 不能繪圖 156
4.4.3 網絡地圖 156
4.4.4 郵政編碼散點圖之上的州
邊界 157
4.5 小結 159
第5章 關於時間 161
5.1 數據庫中的日期和時間 162
5.2 開始調研日期 166
5.2.1 確認日期中沒有時間 166
5.2.2 根據日期比較計數 167
5.2.3 訂單數和訂單大小 172
5.2.4 星期 175
5.3 兩個日期之間有多長? 178
5.3.1 以天為單位的持續時間 178
5.3.2 以星期為單位的持續時間 180
5.3.3 以月為單位的持續時間 180
5.3.4 有多少個星期一? 181
5.3.5 下一個周年紀念日(或生日)
是什麼時候? 184
5.4 跨年比較 188
5.4.1 以天為單位比較 188
5.4.2 以星期為單位比較 189
5.4.3 以月為單位比較 190
5.5 以天計算活躍客戶數量 196
5.5.1 某天的活躍客戶數量 196
5.5.2 每天的活躍客戶數量 196
5.5.3 有多少不同類型的客戶? 198
5.5.4 不同任期時段的客戶數量 198
5.5.5 隻使用SQL計算活躍客戶 201
5.6 Excel中的簡單圖錶動畫 203
5.6.1 從訂單生成日期到運貨
日期 203
5.6.2 訂單延時在每年中的變化 205
5.7 小結 208
第6章 客戶的持續時間有多久?使用
生存分析理解客戶和他們的
價值 209
6.1 生存分析 210
6.1.1 平均壽命 211
6.1.2 醫學研究 212
6.1.3 關於風險率的示例 212
6.2 風險計算 213
6.2.1 數據調研 214
6.2.2 風險率 216
6.2.3 客戶可視化:時間與任期 217
6.2.4 截尾 219
6.3 生存率和保留率 220
6.3.1 生存率的點的估計 220
6.3.2 計算任意任期的生存率 221
6.3.3 在SQL中計算生存率 222
6.3.4 簡單的客戶保留率計算 225
6.3.5 保留率和生存率的區彆 226
6.3.6 風險率和生存率的簡單
示例 227
6.4 對比不同的客戶分組 230
6.4.1 市場總結 230
6.4.2 市場分層 231
6.4.3 生存率比例 234
6.4.4 條件生存率 234
6.5 隨時間變化的生存率 236
6.5.1 特定風險率隨時間的變化 236
6.5.2 按照起始年份分類的客戶
生存率 238
6.5.3 之前的生存率什麼樣? 239
6.6 由生存率衍生齣來的重要
指標 241
6.6.1 估算生存點 241
6.6.2 客戶任期的中間值 242
6.6.3 客戶生命周期的中間值 242
6.6.4 風險率的置信度 243
6.7 使用生存率計算客戶價值 245
6.7.1 估算收入 246
6.7.2 對個體的未來收入的估算 247
6.7.3 當前客戶分組的收入估算 249
6.7.4 所有客戶未來收入的估算 251
6.8 預測 253
6.8.1 對已有客戶的預測 254
6.8.2 對新開始者的預測 258
6.9 小結 259
第7章 影響生存率的因素:客戶
任期 261
7.1 哪些因素是重要的,何時
重要? 262
7.1.1 方法說明 262
7.1.2 使用平均值比較數字因素 264
7.1.3 風險比例 268
7.2 左截斷 271
7.2.1 認識左截斷 271
7.2.2 左截斷的影響 273
7.2.3 如何從理論上解決左截斷
問題 274
7.2.4 估算一個任期的風險率 275
7.2.5 估算所有任期的風險率 276
7.2.6 在SQL中計算 277
7.3 時間窗 278
7.3.1 一個商業問題 278
7.3.2 時間窗=左截斷+右截尾 278
7.4 競爭風險 283
7.4.1 競爭風險的示例 283
7.4.2 競爭風險的“風險率” 284
7.4.3 競爭風險的“生存率” 286
7.4.4 隨著時間的變化,客戶身上
發生瞭什麼? 287
7.5 事件前後 291
7.5.1 三種情況 291
7.5.2 使用生存率預測來理解一次
性事件 293
7.5.3 比較前後風險率 294
7.5.4 基於對列的方法 294
7.5.5 基於對列的方法:完全隊列 295
7.5.6 事件影響的直接估計 297
7.6 小結 301
第8章 多次購買以及其他重復事件 303
8.1 標識客戶 304
8.1.1 誰是那個客戶? 304
8.1.2 其他客戶信息 313
8.1.3 每一年齣現多少新客戶? 316
8.2 RFM分析 325
8.2.1 維度 325
8.2.2 計算RFM單元格 329
8.2.3 RFM的有用程度 330
8.3 隨著時間的變化,哪些傢庭的
購買金額在增長? 334
8.3.1 最早值和最晚值的比較 334
8.3.2 第一年和最後一年的值的
比較 341
8.3.3 最佳擬閤綫的趨勢 343
8.4 距離下一次事件的時間 344
8.4.1 計算背後的想法 344
8.4.2 使用SQL計算下一次購買
日期 345
8.4.3 從下一次購買日期到時間至
事件的分析 346
8.4.4 時間到事件分析的分層 347
8.5 小結 347
第9章 購物車裏有什麼?購物車
分析 349
9.1 探索産品 349
9.1.1 産品的散點圖 350
9.1.2 産品組的運輸年份 351
9.1.3 訂單中的重復産品 353
9.1.4 單位數量的直方圖 358
9.1.5 在一個訂單中,哪個産品可能
齣現多次購買的情況? 359
9.1.6 改變價格 361
9.2 産品和客戶價值 362
9.2.1 訂單大小的一緻性 362
9.2.2 與一次性客戶關聯的産品 365
9.2.3 與最好的客戶相關的産品 368
9.2.4 剩餘價值 370
9.3 産品的地理分布 372
9.3.1 每一個州中最常見的産品 372
9.3.2 哪些産品廣受歡迎,哪些産品
隻在本地受歡迎? 373
9.4 哪些客戶購買瞭指定産品? 375
9.4.1 哪些客戶擁有最受歡迎的
産品? 375
9.4.2 客戶擁有哪個産品? 376
9.4.3 哪些客戶有3個特定的
産品? 381
9.4.4 普遍的嵌套集閤的查詢 384
9.5 小結 385
第10章 關聯規則 387
10.1 項集 388
10.1.1 兩個産品的組閤 388
10.1.2 更常見的項集 391
10.1.3 傢庭,而不是訂單 396
10.2 最簡單的關聯規則 399
10.2.1 關聯和規則 400
10.2.2 零項關聯規則 400
10.2.3 概率的分布情況 401
10.2.4 零項關聯告訴瞭我們
什麼? 402
10.3 單項關聯規則 402
10.3.1 單項關聯規則的價值 402
10.3.2 生成所有的單項規則 404
10.3.3 包含評估信息的單項
規則 405
10.3.4 基於産品組的單項規則 406
10.4 雙項關聯 407
10.4.1 計算雙項關聯 408
10.4.2 使用卡方找到最佳規則 409
10.4.3 異質相關 413
10.5 擴展關聯規則 416
10.5.1 多項關聯 416
10.5.2 一個查詢中的多項關聯 418
10.5.3 使用産品屬性的規則 418
10.5.4 左右兩側項集內容不同
的規則 419
10.5.5 之前和之後:有序關聯
規則 419
10.6 小結 422
第11章 SQL數據挖掘模型 423
11.1 定嚮數據挖掘介紹 424
11.1.1 定嚮模型 424
11.1.2 建模中的數據 425
11.1.3 建模應用示例 427
11.1.4 模型評估 429
11.2 相似性模型 429
11.2.1 模型是什麼? 430
11.2.2 最好的郵政編碼是
哪個? 430
11.2.3 基礎的相似性模型 431
11.2.4 使用Z分數計算相似性
模型 433
11.2.5 鄰近模型示例 434
11.3 最受歡迎産品的查找模型 435
11.3.1 最受歡迎的産品 435
11.3.2 計算最受歡迎的産品組 436
11.3.3 評估查找模型 437
11.3.4 使用調試查找模型做
預測 437
11.3.5 使用二元分類 439
11.4 用於訂單大小的查找模型 440
11.4.1 最基本的模型:無維度
模型 440
11.4.2 添加一個維度 441
11.4.3 添加額外的維度 443
11.4.4 檢查不穩定性 443
11.4.5 使用平均值圖錶評估
模型 444
11.5 用於響應率的查找模型 445
11.5.1 將整體概率作為一個
模型 445
11.5.2 探索不同的維度 446
11.5.3 模型的精準度 447
11.5.4 ROC圖錶和AUC 450
11.5.5 加入更多的維度 453
11.6 樸素貝葉斯模型(證據模型) 455
11.6.1 概率的一些概念 455
11.6.2 計算樸素貝葉斯模型 457
11.6.3 樸素貝葉斯模型:評分和
提升度 463
11.6.4 樸素貝葉斯模型和查找
模型的比較 465
11.7 小結 466
第12章 最佳擬閤綫:綫性迴歸
模型 467
12.1 最佳擬閤綫 468
12.1.1 任期和支付金額 468
12.1.2 最佳擬閤綫的屬性 469
12.1.3 小心數據 473
12.1.4 圖錶中的趨勢綫 474
12.1.5 使用LINEST()函數的
最佳擬閤 479
12.2 使用R2衡量擬閤程度 483
12.2.1 R2值 483
12.2.2 R2的局限性 484
12.2.3 R2的含義 484
12.3 直接計算最佳擬閤綫係數 485
12.3.1 計算係數 485
12.3.2 在SQL中計算最佳
擬閤綫 486
12.3.3 價格彈性 487
12.4 加權的綫性迴歸 492
12.4.1 在第一年停止的客戶 492
12.4.2 加權的最佳擬閤 493
12.4.3 圖錶中的加權最佳
擬閤綫 494
12.4.4 SQL中的加權最佳
擬閤綫 495
12.4.5 使用Solver的加權最佳
擬閤綫 496
12.5 多個輸入 498
12.5.1 Excel中的多維迴歸 498
12.5.2 建立包含三個變量的
模型 500
12.5.3 使用Solver處理多維
迴歸 501
12.5.4 逐個選擇輸入變量 501
12.5.5 SQL中的多維迴歸 502
12.6 小結 503
第13章 為進一步分析數據創建客戶
簽名 505
13.1 什麼是客戶簽名? 506
13.1.1 什麼是客戶? 506
13.1.2 客戶簽名的源數據 507
13.1.3 使用客戶簽名 510
13.2 設計客戶簽名 511
13.2.1 調試和預測 511
13.2.2 字段的角色 511
13.2.3 時間段 512
13.3 建立客戶簽名的操作 515
13.3.1 驅動錶 515
13.3.2 查找數據 518
13.3.3 最初的交易 520
13.3.4 鏇轉 521
13.3.5 總結 528
13.4 抽取特徵 530
13.4.1 地理位置信息 530
13.4.2 日期時間列 531
13.4.3 字符串中的模式 532
13.5 總結客戶行為 534
13.5.1 計算時間序列的斜率 534
13.5.2 周末消費者 537
13.5.3 下降的使用行為 540
13.6 小結 541
第14章 性能問題:高效使用SQL 543
14.1 查詢引擎和性能 544
14.1.1 用於理解性能的時間
復雜度 544
14.1.2 一個簡單的示例 545
14.1.3 與性能相關的思考 547
14.1.4 性能的含義和測量 549
14.1.5 性能提升入門 549
14.2 高效使用索引 553
14.2.1 什麼是索引? 553
14.2.2 索引的簡單示例 557
14.2.3 索引的限製 560
14.2.4 高效使用復閤索引 562
14.3 何時使用OR是低效的? 566
14.3.1 有時UNION ALL比OR
更好 566
14.3.2 有時LEFT OUTER JOIN比
OR更高效 567
14.3.3 有時多個條件錶達式
更好 568
14.4 贊成和反對:錶達一件事情的
不同方法 569
14.4.1 在Orders錶中,哪些州
沒有被識彆? 569
14.4.2 一個關於GROUP BY的
難題 571
14.4.3 小心COUNT(*)=0 573
14.5 窗口函數 576
14.5.1 窗口函數適用於什麼
地方? 576
14.5.2 窗口函數的靈活使用 576
14.6 小結 582
附錄 數據庫之間的等價結構 583
· · · · · · (
收起)
數據分析技術 使用SQL和Excel工具 pdf epub mobi txt 電子書 下載
用戶評價
評分
☆☆☆☆☆
對於數據分析人員,SQL的使用範圍更多為select,從這個角度講,世麵上的書比如深入淺齣sql,mysql必知必會什麼的都很不符閤,更聚焦在BDA,包括瞭不需要的數據庫性能優化等主題。這本書非常貼閤數據分析師需要的技能:如何用sql取數,復雜取數需求如何實現。五星好評!
評分
☆☆☆☆☆
實操比較棒的書,包含基礎的統計學概念運用,以及簡單建模案例。案例都包含sql或Excel實現的代碼。比泛泛講概念講的天花亂墜那些書要好很多。
評分
☆☆☆☆☆
實操比較棒的書,包含基礎的統計學概念運用,以及簡單建模案例。案例都包含sql或Excel實現的代碼。比泛泛講概念講的天花亂墜那些書要好很多。
評分
☆☆☆☆☆
實操比較棒的書,包含基礎的統計學概念運用,以及簡單建模案例。案例都包含sql或Excel實現的代碼。比泛泛講概念講的天花亂墜那些書要好很多。
評分
☆☆☆☆☆
實操比較棒的書,包含基礎的統計學概念運用,以及簡單建模案例。案例都包含sql或Excel實現的代碼。比泛泛講概念講的天花亂墜那些書要好很多。
讀後感
評分
☆☆☆☆☆
优点: 1基于数据分析实际工作 2聚焦于使用SQL做数据分析,query部分 3附赠的有数据库源文件,完全可以上手复现一遍书本的SQL代码 缺点: 实际上,要花费70%的精力在理解书本的字面意义,因为很多内容翻译实在无法让人理解,同时业务本身也不好理解,比如第6章,第7章关于生存...
評分
☆☆☆☆☆
优点: 1基于数据分析实际工作 2聚焦于使用SQL做数据分析,query部分 3附赠的有数据库源文件,完全可以上手复现一遍书本的SQL代码 缺点: 实际上,要花费70%的精力在理解书本的字面意义,因为很多内容翻译实在无法让人理解,同时业务本身也不好理解,比如第6章,第7章关于生存...
評分
☆☆☆☆☆
优点: 1基于数据分析实际工作 2聚焦于使用SQL做数据分析,query部分 3附赠的有数据库源文件,完全可以上手复现一遍书本的SQL代码 缺点: 实际上,要花费70%的精力在理解书本的字面意义,因为很多内容翻译实在无法让人理解,同时业务本身也不好理解,比如第6章,第7章关于生存...
評分
☆☆☆☆☆
优点: 1基于数据分析实际工作 2聚焦于使用SQL做数据分析,query部分 3附赠的有数据库源文件,完全可以上手复现一遍书本的SQL代码 缺点: 实际上,要花费70%的精力在理解书本的字面意义,因为很多内容翻译实在无法让人理解,同时业务本身也不好理解,比如第6章,第7章关于生存...
評分
☆☆☆☆☆
优点: 1基于数据分析实际工作 2聚焦于使用SQL做数据分析,query部分 3附赠的有数据库源文件,完全可以上手复现一遍书本的SQL代码 缺点: 实际上,要花费70%的精力在理解书本的字面意义,因为很多内容翻译实在无法让人理解,同时业务本身也不好理解,比如第6章,第7章关于生存...
類似圖書 點擊查看全場最低價
數據分析技術 使用SQL和Excel工具 pdf epub mobi txt 電子書 下載 2024