第1章 数据挖掘与分析  1
         1.1 数据矩阵  1
         1.2 属性  2
         1.3 数据的几何和代数描述  3
         1.3.1 距离和角度  5
         1.3.2 均值与总方差  8
         1.3.3 正交投影  9
         1.3.4 线性无关与维数  10
         1.4 数据:概率观点  12
         1.4.1 二元随机变量  17
         1.4.2 多元随机变量  20
         1.4.3 随机抽样和统计量  21
         1.5 数据挖掘  22
         1.5.1 探索性数据分析  23
         1.5.2 频繁模式挖掘  24
         1.5.3 聚类  24
         1.5.4 分类  25
         1.6 补充阅读  26
         1.7 习题  26
         第一部分 数据分析基础
         第2章 数值属性  28
         2.1 一元变量分析  28
         2.1.1 数据居中度度量  29
         2.1.2 数据离散度度量  32
         2.2 二元变量分析  35
         2.2.1 位置和离散度的度量  36
         2.2.2 相关性度量  37
         2.3 多元变量分析  40
         2.4 数据规范化  44
         2.5 正态分布  46
         2.5.1 一元正态分布  46
         2.5.2 多元正态分布  47
         2.6 补充阅读  50
         2.7 习题  51
         第3章 类别型属性  53
         3.1 一元分析  53
         3.1.1 伯努利变量(Bernoulli variable)  53
         3.1.2 多元伯努利变量  55
         3.2 二元分析  61
         3.3 多元分析  69
         3.4 距离和角度  74
         3.5 离散化  75
         3.6 补充阅读  77
         3.7 习题  78
         第4章 图数据  79
         4.1 图的概念  79
         4.2 拓扑属性  83
         4.3 中心度分析  86
         4.3.1 基本中心度  86
         4.3.2 Web中心度  88
         4.4 图的模型  96
         4.4.1 Erd?s-Rényi随机图模型  98
         4.4.2 Watts-Strogatz小世界图模型  101
         4.4.3 Barabási-Albert无标度模型  104
         4.5 补充阅读  111
         4.6 习题  112
         第5章 核方法  114
         5.1 核矩阵  117
         5.1.1 再生核映射  118
         5.1.2 Mercer核映射  120
         5.2 向量核  122
         5.3 特征空间中的基本核操作  126
         5.4 复杂对象的核  132
         5.4.1 字符串的谱核  132
         5.4.2 图节点的扩散核  133
         5.5 补充阅读  137
         5.6 习题  137
         第6章 高维数据  139
         6.1 高维对象  139
         6.2 高维体积  141
         6.3 超立方体的内接超球面  143
         6.4 薄超球面壳的体积  144
         6.5 超空间的对角线  145
         6.6 多元正态的密度  146
         6.7 附录:球面体积的推导  149
         6.8 补充阅读  153
         6.9 习题  153
         第7章 降维  156
         7.1 背景知识  156
         7.2 主成分分析  160
         7.2.1 最优线近似  160
         7.2.2 最优二维近似  163
         7.2.3 最优r维近似  167
         7.2.4 主成分分析的几何意义  170
         7.3 核主成分分析  172
         7.4 奇异值分解  178
         7.4.1 奇异值分解的几何意义  179
         7.4.2 奇异值分解和主成分分析之间的联系  180
         7.5 补充阅读  182
         7.6 习题  182
         第二部分 频繁模式挖掘
         第8章 项集挖掘  186
         8.1 频繁项集和关联规则  186
         8.2 频繁项集挖掘算法  189
         8.2.1 逐层的方法:Apriori算法  191
         8.2.2 事务标识符集的交集方法:Eclat算法  193
         8.2.3 频繁模式树方法:FPGrowth算法  197
         8.3 生成关联规则  201
         8.4 补充阅读  203
         8.5 习题  203
         第9章 项集概述  208
         9.1 最大频繁项集和闭频繁项集  208
         9.2 挖掘最大频繁项集:GenMax算法  211
         9.3 挖掘闭频繁项集:Charm算法  213
         9.4 非可导项集  215
         9.5 补充阅读  220
         9.6 习题  221
         第10章 序列挖掘  223
         10.1 频繁序列  223
         10.2 挖掘频繁序列  224
         10.2.1 逐层挖掘:GSP  225
         10.2.2 垂直序列挖掘:Spade  226
         10.2.3 基于投影的序列挖掘:PrefixSpan  228
         10.3 基于后缀树的子串挖掘  230
         10.3.1 后缀树  230
         10.3.2 Ukkonen线性时间算法  233
         10.4 补充阅读  238
         10.5 习题  239
         第11章 图模式挖掘  242
         11.1 同形和支撑  242
         11.2 候选生成  245
         11.3 gSpan算法  249
         11.3.1 扩展和支撑计算  250
         11.3.2 权威性测试  255
         11.4 补充阅读  256
         11.5 习题  257
         第12章 模式与规则评估  260
         12.1 规则和模式评估的度量  260
         12.1.1 规则评估度量  260
         12.1.2 模式评估度量  268
         12.1.3 比较多条规则和模式  270
         12.2 显著性检验和置信区间  273
         12.2.1 产生式规则的费希尔精确检验  273
         12.2.2 显著性的置换检验  277
         12.2.3 置信区间内的自助抽样  282
         12.3 补充阅读  284
         12.4 习题  285
         第三部分 聚类
         第13章 基于代表的聚类  288
         13.1 K-means 算法  288
         13.2 核K-means  292
         13.3 期望最大聚类  295
         13.3.1 一维中的EM  297
         13.3.2 d维中的EM  300
         13.3.3 极大似然估计  305
         13.3.4 EM方法  309
         13.4 补充阅读  311
         13.5 习题  312
         第14章 层次式聚类  315
         14.1 预备知识  315
         14.2 聚合型层次式聚类  317
         14.2.1 簇间距离  317
         14.2.2 更新距离矩阵  321
         14.2.3 计算复杂度  322
         14.3 补充阅读  322
         14.4 习题  323
         第15章 基于密度的聚类  325
         15.1 DBSCAN 算法  325
         15.2 核密度估计  328
         15.2.1 一元密度估计  328
         15.2.2 多元密度估计  331
         15.2.3 最近邻密度估计  333
         15.3 基于密度的聚类:DENCLUE  333
         15.4 补充阅读  338
         15.5 习题  339
         第16章 谱聚类和图聚类  341
         16.1 图和矩阵  341
         16.2 基于图的割的聚类  347
         16.2.1 聚类目标函数:比例割与归—割  349
         16.2.2 谱聚类算法  351
         16.2.3 最大化目标:平均割与模块度  354
         16.3 马尔可夫聚类  360
         16.4 补充阅读  366
         16.5 习题  367
         第17章 聚类的验证  368
         17.1 外部验证度量  368
         17.1.1 基于匹配的度量  369
         17.1.2 基于熵的度量  372
         17.1.3 成对度量  375
         17.1.4 关联度量  378
         17.2 内部度量  381
         17.3 相对度量  388
         17.3.1 分簇稳定性  394
         17.3.2 聚类趋向性  396
         17.4 补充阅读  400
         17.5 习题  401
         第四部分 分类
         第18章 基于概率的分类  404
         18.1 贝叶斯分类器  404
         18.1.1 估计先验概率  404
         18.1.2 估计似然  405
         18.2 朴素贝叶斯分类器  409
         18.3 K最近邻分类器  412
         18.4 补充阅读  414
         18.5 习题  415
         第19章 决策树分类器  416
         19.1 决策树  417
         19.2 决策树算法  419
         19.2.1 分割点评估度量  420
         19.2.2 评估分割点  422
         19.3 补充阅读  429
         19.4 习题  429
         第20章 线性判别分析  431
         20.1 最优线性判别  431
         20.2 核判别分析  437
         20.3 补充阅读  443
         20.4 习题  443
         第21章 支持向量机  445
         21.1 支持向量和间隔  445
         21.2 SVM:线性可分的情况  450
         21.3 软间隔SVM:线性不可分的情况  454
         21.3.1 铰链误损  455
         21.3.2 二次误损  458
         21.4 核SVM:非线性情况  459
         21.5 SVM训练算法  462
         21.5.1 对偶解法:随机梯度上升  463
         21.5.2 原始问题解:牛顿优化  467
         21.6 补充阅读  473
         21.7 习题  473
         第22章 分类的评估  475
         22.1 分类性能度量  475
         22.1.1 基于列联表的度量  476
         22.1.2 二值分类:正类和负类  479
         22.1.3 ROC分析  482
         22.2 分类器评估  487
         22.2.1 K折交叉验证  487
         22.2.2 自助抽样  488
         22.2.3 置信区间  489
         22.2.4 分类器比较:配对t检验  493
         22.3 偏置-方差分解  495
         22.4 补充阅读  503
         22.5 习题  504
      · · · · · ·     (
收起)