数据挖掘 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:机械工业出版社

作者:（美）Jiawei Han

出品人:

页数:468

译者:范明

出版时间:2012-8

价格:79.00元

装帧:

isbn号码:9787111391401

丛书系列:计算机科学丛书

图书标签:

数据挖掘
数据分析
计算机
计算机科学
数据
算法
机器学习
教材
数据挖掘
机器学习
统计分析
数据可视化
商业智能
模式识别
数据库
算法
预测分析
大数据

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到小美书屋

book.quotespace.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

数据挖掘领域最具里程碑意义的经典著作

完整全面阐述该领域的重要知识和技术创新

这是一本数据挖掘和知识发现的优秀教材，结构合理、条理清晰。本书既保留了相当篇幅讲述数据挖掘的基本概念和方法，又增加了若干章节介绍数据挖掘领域最新的技术和发展，因此既适合初学者学习又适合专业人员和实践者参考。本书视角广阔、资料翔实、内容全面，能够为有意深入研究相关技术的读者提供足够的参考和支持。总之，强烈推荐从高年级本科生到专业人员和实践者都来阅读这本书！

—— 美国CHOICE杂志

这是一本非常优秀的数据挖掘教材，最新的第3版反映了数据挖掘领域的最新发展和变化。书中增加了2006年第2版以来最新的引用资料，新增小节讨论可视化、模式挖掘以及最新的聚类方法。本书配有丰富及完善的教辅支持，包括配套网站、大量的习题集以及习题答案等。尽管这是一本数据挖掘的教材，但对于读者没有太高的要求，只需要读者具有少量编程经验并了解基本的数据库设计和统计分析知识。还有两点值得注意：第一，本书的参考书目是关于了解数据挖掘研究的非常好的参考列表；第二，书中的索引非常全面和有效，能够帮助读者很容易地定位相关知识点。其他学科的研究人员和分析人员，例如，流行病学家、金融分析师、心理测量研究人员，也会发现本书非常有用。

—— Computing Reviews

当代商业和科学领域大量激增的数据量要求我们采用更加复杂和精细的工具来进行数据分析、处理和挖掘。尽管近年来数据挖掘技术取得的长足进展使得我们广泛收集数据越来越容易，但技术的发展依然难以匹配爆炸性的数据增长以及随之而来的大量数据处理需求，因此我们比以往更加迫切地需要新技术和自动化工具来帮助我们将这些数据转换为有用的信息和知识。

本书前版曾被KDnuggets的读者评选为最受欢迎的数据挖掘专著，是一本可读性极佳的教材。它从数据库角度全面系统地介绍数据挖掘的概念、方法和技术以及技术研究进展，并重点关注近年来该领域重要和最新的课题——数据仓库和数据立方体技术，流数据挖掘，社会网络挖掘，空间、多媒体和其他复杂数据挖掘。每章都针对关键专题有单独的指导，提供最佳算法，并对怎样将技术运用到实际工作中给出了经过实践检验的实用型规则。如果你希望自己能熟练掌握和运用当今最有力的数据挖掘技术，那本书正是你需要阅读和学习的宝贵资源。本书是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的一本书。

【本书特色】

引入了许多算法和实现示例，全部以易于理解的伪代码编写，适用于实际的大规模数据挖掘项目。

讨论了一些高级主题，例如挖掘面向对象的关系型数据库、空间数据库、多媒体数据库、时间序列数据库、文本数据库、万维网以及其他领域的应用等。

全面而实用地给出用于从海量数据中获取尽可能多信息的概念和技术。

《代码的诗篇：算法的优雅与智慧》本书并非一本关于从海量数据中挖掘潜在模式和知识的工具手册，而是一次深入探究算法世界精妙绝伦之美的旅程。我们将抛开对“数据”二字的执着，转而聚焦于算法本身所蕴含的逻辑之美、效率之妙以及它们如何驱动我们这个日益数字化的世界。第一章：逻辑的基石——基础数据结构与运算本章将带领读者回顾并深入理解那些构建起一切复杂算法的基石。我们不会讨论如何从数据库中抽取信息，而是关注如何有效地组织和管理数据。从数组的静态威力到链表的动态灵活性，从栈的后进先出原则到队列的先进先出策略，我们将剖析这些基本结构的内在工作机制。更重要的是，我们会深入探讨搜索算法的效率之道：线性搜索的直观与局限，二分搜索在有序数据海洋中闪电般的速度。同样，我们也会审视排序算法的艺术：冒泡排序的简朴与低效，选择排序的策略性，插入排序在部分有序数据中的效率，以及快速排序和归并排序所展现出的分治思想的强大力量。本章的核心在于理解数据的组织方式如何直接影响我们解决问题的速度和资源的消耗，而非从何种来源获取这些数据。第二章：路径的探索——图论与遍历在本章中，我们将进入一个充满节点和连接的抽象世界——图。图论提供了一种强大的模型来描述和分析事物之间的关系，例如社交网络中的人际关系，城市之间的道路连接，或者计算机网络中的节点通信。我们不会涉及从现实世界绘制出图谱的具体技术，而是专注于图的内在结构和算法。我们将学习如何表示一个图，无论是邻接矩阵还是邻接表。随后，我们将深入探索图的遍历算法：广度优先搜索（BFS）如何在层层递进中发现最短路径，深度优先搜索（DFS）如何在分支中蜿蜒前进，找到所有可能的通路。这些算法不仅是理解图的基础，更是解决诸多实际问题（如网络路由、连通性分析）的逻辑核心，但我们只关注算法本身的美感和通用性。第三章：问题的分解与重组——递归与分治递归是编程中一种极具表现力的技术，它让复杂的问题可以通过自我调用来解决。本章将揭示递归的优雅之处，如何通过定义问题的基本情况（base case）和递归步骤（recursive step）来层层剥茧，直至化繁为简。我们将通过经典的汉诺塔问题、斐波那契数列的计算来体会递归的魅力。紧接着，我们将探讨分治策略，这是一种将大问题分解成若干个规模更小的相同问题，然后分别解决，最后将子问题的解合并起来形成原问题解的强大思想。快速排序和归并排序便是分治策略的典范，它们通过将问题分解，高效地解决了排序难题。本章将侧重于理解这些算法背后的思维模式，而非它们在处理特定数据集时的应用。第四章：效率的极致追求——动态规划动态规划是解决具有重叠子问题和最优子结构性质的问题的有力工具。本章不会讲解如何从庞大的数据集中找出最优解，而是聚焦于动态规划算法的设计思路。我们将学习如何通过构建状态转移方程，利用备忘录（memoization）或表格（tabulation）来存储和重用子问题的解，从而避免重复计算，显著提高算法的效率。我们将通过经典的背包问题、最长公共子序列问题来理解动态规划如何将一个看似复杂的问题分解成一系列相互关联的子问题，并系统地构建出最优解。本章强调的是动态规划这种求解策略本身的数学美感和逻辑严谨性。第五章：概率的奥秘与模拟——随机化算法在某些情况下，精确的算法可能过于复杂或耗时。本章将介绍随机化算法，它们巧妙地利用随机性来设计出高效的解决方案。我们不会涉及从数据中提取概率分布，而是探讨算法设计本身如何引入随机元素。我们将学习如何利用随机抽样来近似解决问题，例如蒙特卡洛方法在计算复杂积分或模拟物理过程中的应用。我们还将探讨一些著名的随机化算法，如随机选择算法（Randomized Select）在期望线性时间内找到第k小元素的能力。本章旨在展示随机性如何在算法设计中扮演重要角色，为解决某些难题提供出人意料的简洁而有效的途径。第六章：状态的演变与优化——贪心算法贪心算法是一种直观的算法设计策略，它在每一步选择中都采取在当前状态下最好或最有利的选择，以期推导出整体的优化解。本章不会演示如何从数据中做出“最优”决策，而是关注贪心算法的逻辑。我们将通过活动选择问题、霍夫曼编码等经典案例，来理解贪心算法的求解过程，以及何时何地这种“局部最优”能够导向“全局最优”。我们还将探讨贪心算法的局限性，以及其与动态规划等方法的区别。本章的核心在于理解贪心策略的直觉性与高效性，以及其适用的条件。《代码的诗篇：算法的优雅与智慧》旨在为读者开启一扇通往算法世界的大门，让大家欣赏逻辑的严谨，体验效率的飞跃，感受智慧的闪光。这不是一本指导你如何从海量数据中淘金的书，而是一本让你领略算法本身艺术之美的书。通过对基础数据结构、图论、递归、分治、动态规划、随机化算法和贪心算法的深入剖析，我们将共同探寻代码背后的逻辑之美，体会算法的无限可能。

作者简介

Jiawei Han（韩家炜）伊利诺伊大学厄巴纳-尚佩恩分校计算机科学系Abel Bliss教授。由于在数据挖掘和数据库系统领域卓有成效的研究工作，他曾多次获得各种荣誉和奖励，包括2004年ACM SIGKDD颁发的最佳创新奖，2005年IEEE Computer Society颁发的技术成就奖，2009年IEEE颁发的W. Wallace McDowell奖。他是ACM和IEEE Fellow。

Micheline Kamber 拥有加拿大康考迪亚大学计算机科学硕士学位，她是NSERC Scholar，先后在加拿大麦吉尔大学、西蒙-弗雷泽大学及瑞士从事研究工作。

Jian Pei（裴健）目前是加拿大西蒙-弗雷泽大学计算机科学学院教授。2002年，他在Jiawei Han教授的指导下获得西蒙-弗雷泽大学博士学位。

目录信息

出版者的话
中文版序
译者序
译者简介
第3版序
第2版序
前言
致谢
作者简介
第1章　引论1
1.1　为什么进行数据挖掘1
1.1.1　迈向信息时代1
1.1.2　数据挖掘是信息技术的进化2
1.2　什么是数据挖掘4
1.3　可以挖掘什么类型的数据6
1.3.1　数据库数据6
1.3.2　数据仓库7
1.3.3　事务数据9
1.3.4　其他类型的数据9
1.4　可以挖掘什么类型的模式10
1.4.1　类/概念描述：特征化与区分10
1.4.2　挖掘频繁模式、关联和相关性11
1.4.3　用于预测分析的分类与回归12
1.4.4　聚类分析13
1.4.5　离群点分析14
1.4.6　所有模式都是有趣的吗14
1.5　使用什么技术15
1.5.1　统计学15
1.5.2　机器学习16
1.5.3　数据库系统与数据仓库17
1.5.4　信息检索17
1.6　面向什么类型的应用18
1.6.1　商务智能18
1.6.2　Web搜索引擎18
1.7　数据挖掘的主要问题19
1.7.1　挖掘方法19
1.7.2　用户界面20
1.7.3　有效性和可伸缩性21
1.7.4　数据库类型的多样性21
1.7.5　数据挖掘与社会21
1.8　小结22
1.9　习题23
1.10　文献注释23
第2章　认识数据26
2.1　数据对象与属性类型26
2.1.1　什么是属性27
2.1.2　标称属性27
2.1.3　二元属性27
2.1.4　序数属性28
2.1.5　数值属性28
2.1.6　离散属性与连续属性29
2.2　数据的基本统计描述29
2.2.1　中心趋势度量：均值、中位数和众数30
2.2.2　度量数据散布：极差、四分位数、方差、标准差和四分位数极差32
2.2.3　数据的基本统计描述的图形显示34
2.3　数据可视化37
2.3.1　基于像素的可视化技术37
2.3.2　几何投影可视化技术38
2.3.3　基于图符的可视化技术40
2.3.4　层次可视化技术42
2.3.5　可视化复杂对象和关系42
2.4　度量数据的相似性和相异性44
2.4.1　数据矩阵与相异性矩阵45
2.4.2　标称属性的邻近性度量46
2.4.3　二元属性的邻近性度量46
2.4.4　数值属性的相异性：闵可夫斯基距离48
2.4.5　序数属性的邻近性度量49
2.4.6　混合类型属性的相异性50
2.4.7　余弦相似性51
2.5　小结52
2.6　习题53
2.7　文献注释54
第3章　数据预处理55
3.1　数据预处理：概述55
3.1.1　数据质量：为什么要对数据预处理55
3.1.2　数据预处理的主要任务56
3.2　数据清理58
3.2.1　缺失值58
3.2.2　噪声数据59
3.2.3　数据清理作为一个过程60
3.3　数据集成61
3.3.1　实体识别问题62
3.3.2　冗余和相关分析62
3.3.3　元组重复65
3.3.4　数据值冲突的检测与处理65
3.4　数据归约65
3.4.1　数据归约策略概述66
3.4.2　小波变换66
3.4.3　主成分分析67
3.4.4　属性子集选择68
3.4.5　回归和对数线性模型：参数化数据归约69
3.4.6　直方图70
3.4.7　聚类71
3.4.8　抽样71
3.4.9　数据立方体聚集72
3.5　数据变换与数据离散化73
3.5.1　数据变换策略概述73
3.5.2　通过规范化变换数据74
3.5.3　通过分箱离散化76
3.5.4　通过直方图分析离散化76
3.5.5　通过聚类、决策树和相关分析离散化76
3.5.6　标称数据的概念分层产生77
3.6　小结79
3.7　习题79
3.8　文献注释80
第4章　数据仓库与联机分析处理82
4.1　数据仓库：基本概念82
4.1.1　什么是数据仓库82
4.1.2　操作数据库系统与数据仓库的区别84
4.1.3　为什么需要分离的数据仓库85
4.1.4　数据仓库：一种多层体系结构85
4.1.5　数据仓库模型：企业仓库、数据集市和虚拟仓库87
4.1.6　数据提取、变换和装入88
4.1.7　元数据库88
4.2　数据仓库建模：数据立方体与OLAP89
4.2.1　数据立方体：一种多维数据模型89
4.2.2　星形、雪花形和事实星座：多维数据模型的模式91
4.2.3　维：概念分层的作用94
4.2.4　度量的分类和计算95
4.2.5　典型的OLAP操作96
4.2.6　查询多维数据库的星网查询模型98
4.3　数据仓库的设计与使用99
4.3.1　数据仓库的设计的商务分析框架99
4.3.2　数据仓库的设计过程100
4.3.3　数据仓库用于信息处理101
4.3.4　从联机分析处理到多维数据挖掘102
4.4　数据仓库的实现103
4.4.1　数据立方体的有效计算：概述103
4.4.2　索引OLAP数据：位图索引和连接索引105
4.4.3　OLAP查询的有效处理107
4.4.4　OLAP服务器结构：ROLAP、MOLAP、HOLAP的比较107
4.5　数据泛化：面向属性的归纳109
4.5.1　数据特征的面向属性的归纳109
4.5.2　面向属性归纳的有效实现113
4.5.3　类比较的面向属性归纳114
4.6　小结116
4.7　习题117
4.8　文献注释119
第5章　数据立方体技术121
5.1　数据立方体计算：基本概念121
5.1.1　立方体物化：完全立方体、冰山立方体、闭立方体和立方体外壳122
5.1.2　数据立方体计算的一般策略124
5.2　数据立方体计算方法126
5.2.1　完全立方体计算的多路数组聚集126
5.2.2　BUC：从顶点方体向下计算冰山立方体129
5.2.3　Star-Cubing：使用动态星树结构计算冰山立方体132
5.2.4　为快速高维OLAP预计算壳片段136
5.3　使用探索立方体技术处理高级查询141
5.3.1　抽样立方体：样本数据上基于OLAP的挖掘141
5.3.2　排序立方体：top-k查询的有效计算145
5.4　数据立方体空间的多维数据分析147
5.4.1　预测立方体：立方体空间的预测挖掘147
5.4.2　多特征立方体：多粒度上的复杂聚集149
5.4.3　基于异常的、发现驱动的立方体空间探查149
5.5　小结152
5.6　习题152
5.7　文献注释155
第6章　挖掘频繁模式、关联和相关性:基本概念和方法157
6.1　基本概念157
6.1.1　购物篮分析：一个诱发例子157
6.1.2　频繁项集、闭项集和关联规则158
6.2　频繁项集挖掘方法160
6.2.1　Apriori算法：通过限制候选产生发现频繁项集160
6.2.2　由频繁项集产生关联规则164
6.2.3　提高Apriori算法的效率165
6.2.4　挖掘频繁项集的模式增长方法166
6.2.5　使用垂直数据格式挖掘频繁项集169
6.2.6　挖掘闭模式和极大模式170
6.3　哪些模式是有趣的：模式评估方法171
6.3.1　强规则不一定是有趣的172
6.3.2　从关联分析到相关分析172
6.3.3　模式评估度量比较173
6.4　小结176
6.5　习题177
6.6　文献注释179
第7章　高级模式挖掘180
7.1　模式挖掘：一个路线图180
7.2　多层、多维空间中的模式挖掘182
7.2.1　挖掘多层关联规则182
7.2.2　挖掘多维关联规则185
7.2.3　挖掘量化关联规则186
7.2.4　挖掘稀有模式和负模式188
7.3　基于约束的频繁模式挖掘190
7.3.1　关联规则的元规则制导挖掘190
7.3.2　基于约束的模式产生：模式空间剪枝和数据空间剪枝191
7.4　挖掘高维数据和巨型模式195
7.5　挖掘压缩或近似模式198
7.5.1　通过模式聚类挖掘压缩模式199
7.5.2　提取感知冗余的top-k模式200
7.6　模式探索与应用202
7.6.1　频繁模式的语义注解202
7.6.2　模式挖掘的应用205
7.7　小结206
7.8　习题207
7.9　文献注释208
第8章　分类：基本概念211
8.1　基本概念211
8.1.1　什么是分类211
8.1.2　分类的一般方法211
8.2　决策树归纳213
8.2.1　决策树归纳214
8.2.2　属性选择度量217
8.2.3　树剪枝222
8.2.4　可伸缩性与决策树归纳224
8.2.5　决策树归纳的可视化挖掘225
8.3　贝叶斯分类方法226
8.3.1　贝叶斯定理227
8.3.2　朴素贝叶斯分类227
8.4　基于规则的分类230
8.4.1　使用IF-THEN规则分类230
8.4.2　由决策树提取规则231
8.4.3　使用顺序覆盖算法的规则归纳232
8.5　模型评估与选择236
8.5.1　评估分类器性能的度量236
8.5.2　保持方法和随机二次抽样240
8.5.3　交叉验证240
8.5.4　自助法241
8.5.5　使用统计显著性检验选择模型241
8.5.6　基于成本效益和ROC曲线比较分类器243
8.6　提高分类准确率的技术245
8.6.1　组合分类方法简介245
8.6.2　装袋246
8.6.3　提升和AdaBoost247
8.6.4　随机森林249
8.6.5　提高类不平衡数据的分类准确率250
8.7　小结251
8.8　习题251
8.9　文献注释253
第9章　分类：高级方法255
9.1　贝叶斯信念网络255
9.1.1　概念和机制255
9.1.2　训练贝叶斯信念网络257
9.2　用后向传播分类258
9.2.1　多层前馈神经网络258
9.2.2　定义网络拓扑259
9.2.3　后向传播260
9.2.4　黑盒内部：后向传播和可解释性263
9.3　支持向量机265
9.3.1　数据线性可分的情况265
9.3.2　数据非线性可分的情况268
9.4　使用频繁模式分类270
9.4.1　关联分类270
9.4.2　基于有区别力的频繁模式分类272
9.5　惰性学习法(或从近邻学习）275
9.5.1　k-最近邻分类275
9.5.2　基于案例的推理277
9.6　其他分类方法277
9.6.1　遗传算法277
9.6.2　粗糙集方法278
9.6.3　模糊集方法278
9.7　关于分类的其他问题280
9.7.1　多类分类280
9.7.2　半监督分类281
9.7.3　主动学习282
9.7.4　迁移学习283
9.8　小结284
9.9　习题285
9.10　文献注释286
第10章　聚类分析：基本概念和方法288
10.1　聚类分析288
10.1.1　什么是聚类分析288
10.1.2　对聚类分析的要求289
10.1.3　基本聚类方法概述291
10.2　划分方法293
10.2.1　k-均值：一种基于形心的技术293
10.2.2　k-中心点：一种基于代表对象的技术295
10.3　层次方法297
10.3.1　凝聚的与分裂的层次聚类298
10.3.2　算法方法的距离度量300
10.3.3　BIRCH：使用聚类特征树的多阶段聚类301
10.3.4　Chameleon:使用动态建模的多阶段层次聚类303
10.3.5　概率层次聚类304
10.4　基于密度的方法306
10.4.1　DBSCAN:一种基于高密度连通区域的基于密度的聚类307
10.4.2　OPTICS：通过点排序识别聚类结构309
10.4.3　DENCLUE：基于密度分布函数的聚类311
10.5　基于网格的方法312
10.5.1　STING:统计信息网格312
10.5.2　CLIQUE：一种类似于Apriori的子空间聚类方法314
10.6　聚类评估315
10.6.1　估计聚类趋势316
10.6.2　确定簇数317
10.6.3　测定聚类质量317
10.7　小结319
10.8　习题320
10.9　文献注释321
第11章　高级聚类分析323
11.1　基于概率模型的聚类323
11.1.1　模糊簇324
11.1.2　基于概率模型的聚类326
11.1.3　期望最大化算法328
11.2　聚类高维数据330
11.2.1　聚类高维数据：问题、挑战和主要方法330
11.2.2　子空间聚类方法331
11.2.3　双聚类332
11.2.4　维归约方法和谱聚类337
11.3　聚类图和网络数据339
11.3.1　应用与挑战339
11.3.2　相似性度量340
11.3.3　图聚类方法343
11.4　具有约束的聚类345
11.4.1　约束的分类345
11.4.2　具有约束的聚类方法347
11.5　小结349
11.6　习题349
11.7　文献注释350
第12章　离群点检测351
12.1　离群点和离群点分析351
12.1.1　什么是离群点351
12.1.2　离群点的类型352
12.1.3　离群点检测的挑战354
12.2　离群点检测方法354
12.2.1　监督、半监督和无监督方法355
12.2.2　统计方法、基于邻近性的方法和基于聚类的方法356
12.3　统计学方法357
12.3.1　参数方法357
12.3.2　非参数方法360
12.4　基于邻近性的方法361
12.4.1　基于距离的离群点检测和嵌套循环方法361
12.4.2　基于网格的方法363
12.4.3　基于密度的离群点检测364
12.5　基于聚类的方法366
12.6　基于分类的方法368
12.7　挖掘情境离群点和集体离群点369
12.7.1　把情境离群点检测转换成传统的离群点检测369
12.7.2　关于情境对正常行为建模370
12.7.3　挖掘集体离群点371
12.8　高维数据中的离群点检测371
12.8.1　扩充的传统离群点检测372
12.8.2　发现子空间中的离群点373
12.8.3　高维离群点建模373
12.9　小结374
12.10　习题375
12.11　文献注释375
第13章　数据挖掘的发展趋势和研究前沿377
13.1　挖掘复杂的数据类型377
13.1.1　挖掘序列数据：时间序列、符号序列和生物学序列377
13.1.2　挖掘图和网络381
13.1.3　挖掘其他类型的数据383
13.2　数据挖掘的其他方法385
13.2.1　统计学数据挖掘385
13.2.2　关于数据挖掘基础的观点386
13.2.3　可视和听觉数据挖掘387
13.3　数据挖掘应用391
13.3.1　金融数据分析的数据挖掘391
13.3.2　零售和电信业的数据挖掘392
13.3.3　科学与工程数据挖掘393
13.3.4　入侵检测和预防数据挖掘395
13.3.5　数据挖掘与推荐系统396
13.4　数据挖掘与社会397
13.4.1　普适的和无形的数据挖掘397
13.4.2　数据挖掘的隐私、安全和社会影响399
13.5　数据挖掘的发展趋势400
13.6　小结402
13.7　习题402
13.8　文献注释403
参考文献406
索引435
· · · · · · (收起)

读后感

评分☆☆☆☆☆

推荐几个数据分析网站随着数据的数量级增长，促进了数据分析的火热。但很多数据分析从业人员却感觉没有很好的获取行业资讯、技术交流的平台，今天就推荐几个经常上的觉得很不错的网站给大家。大数据时代已经来临，我们一起感受数据的力量吧！数据分析交流群推...

评分☆☆☆☆☆

一本引导你入门的书，知识深浅都涵盖，描述广泛但不详实易懂。前几个chapter屁话较多，但OLAP的概念是有用的。随后的cluster，association的分析解释还是涵盖的很好，但都是点到为止，颇具教科书的味道，其实被来就是一本教科书。剩下的章节就不能看了。 6年前就通读此书，...

评分☆☆☆☆☆

//2017-05-20 13:30 这篇文章我已经欠了至少一年了，周五写记录时，本想写开始认真搞黑客，但突然发现之前的总结少这篇，心里实在过不去，遂补上，顺便梳理一下之前的学习总结，也了却一心愿。数据挖掘的目标是从数据集中识别出一种或多种模式，并用所发现的模式进行分析或...

评分☆☆☆☆☆

作者是FP-Growth的发明人之一，本身实力不弱。但看了国内外的一些评论后，觉得此书偏向文献综述的类型，适合当作参考手册。亚马逊地址： http://www.amazon.com/Data-Mining-Concepts-Techniques-Management/dp/0123814790/ref=cm_rdp_product

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

**评价三：** 作为一个对人工智能领域充满好奇的普通读者，《数据挖掘》这本书为我打开了一扇新的大门。我一直对“大数据”这个词耳熟能详，但对其背后的技术原理却知之甚少。这本书用一种非常友好的方式，将那些曾经令人生畏的技术概念变得易于理解。书中开篇就用生动的比喻解释了什么是数据挖掘，以及它在我们日常生活中的应用，比如个性化推荐、垃圾邮件过滤等。这让我立刻感受到了数据挖掘的魅力和实用性。让我印象深刻的是，作者在讲解各种挖掘技术时，都会穿插一些历史故事和发展脉络，这让我了解到这些技术是如何一步步发展演变而来的，也增加了学习的趣味性。书中对于一些复杂算法的介绍，采用了图文并茂的方式，配以简单的数学公式，使得我即使没有很强的数学背景，也能大致理解其工作原理。它没有给我带来“劝退”的感觉，反而激发了我进一步探索这个领域的兴趣。这本书的语言风格也很轻松自然，像一位经验丰富的朋友在向你娓娓道来，而不是一位高高在上的学者在传授知识。

评分☆☆☆☆☆

**评价二：** 我是一名有一定经验的数据分析师，尝试过不少数据挖掘相关的书籍，但《数据挖掘》这本书给了我惊喜。它在理论深度上做得相当不错，但更吸引我的是其对实战细节的关注。书中关于模型评估和选择的部分，我尤其觉得受益匪浅。作者没有止步于介绍准确率、召回率等基础指标，而是详细分析了在不同业务场景下，不同评估指标的适用性以及潜在的陷阱。例如，在处理不平衡数据集时，作者深入探讨了F1分数、AUC等更为稳健的评估方法，并给出了具体的代码实现思路。这对于我日常工作中需要处理各种复杂业务场景的数据来说，无疑是宝贵的财富。此外，书中对于特征工程的讲解也非常到位。它不仅仅停留在“怎么做”的层面，更深入地探讨了“为什么这么做”，以及不同特征工程方法背后的数学原理。我从中学会了如何根据业务逻辑进行特征创造，如何利用领域知识优化现有特征，从而显著提升模型的预测性能。这本书让我意识到，数据挖掘的成功，往往取决于对细节的打磨和对业务的深刻理解，而不仅仅是掌握几种高大上的算法。

评分☆☆☆☆☆

**评价四：** 作为一名在学术界摸爬滚打多年的研究者，我对《数据挖掘》这本书的评价是：结构严谨，内容扎实，并且在理论深度和广度上都达到了较高水平。作者在书中对各种经典数据挖掘算法的阐述，深入到其数学原理和推导过程，这对于希望深入理解算法的读者来说，是极其宝贵的。例如，在讲解决策树算法时，作者详细阐述了ID3、C4.5、CART等不同算法在分裂准则上的差异，以及其优缺点。对于集成学习方法，如随机森林和梯度提升，书中也给出了详尽的理论分析和与其他方法的对比。我尤其欣赏的是，书中并未止步于单个算法的介绍，而是将不同的算法置于数据挖掘的整个流程中进行考察，强调了算法之间的相互关系和选择依据。例如，在介绍了分类算法之后，作者会进一步讨论如何将聚类算法的结果作为分类模型的输入，或者如何利用降维技术来优化分类效果。这种宏观与微观相结合的视角，对于构建完整的数据挖掘体系具有重要的指导意义。

评分☆☆☆☆☆

**评价一：** 初次拿到《数据挖掘》，我并没有抱太大期望，毕竟市面上关于这个主题的书籍琳琅满目，常常感觉内容雷同，缺乏新意。然而，当我翻开它，立刻被其条理清晰的结构和深入浅出的讲解所吸引。书中并非简单罗列各种算法，而是从根本上阐述了数据挖掘的理念和价值，让我这位初学者也能迅速抓住核心要点。作者在介绍概念时，总是引用大量的实际案例，这些案例贴近生活，让我能够直观地理解抽象的理论。例如，在讲解关联规则时，作者用超市购物篮分析的例子，生动地展示了“买了啤酒的人也可能买尿布”这样的发现是如何产生的，以及它对商业决策的指导意义。更重要的是，书中对数据预处理的强调给我留下了深刻的印象。我之前总以为直接应用算法就能解决问题，但这本书让我认识到，数据质量的重要性不亚于算法本身。异常值处理、缺失值填充、数据标准化等等，这些看似枯燥的步骤，在书中被赋予了生命，让我明白每一个环节都可能影响最终的挖掘结果。这种细致入微的讲解，让我对数据挖掘的整个流程有了更全面的认识，也为我后续的学习打下了坚实的基础。

评分☆☆☆☆☆

**评价五：** 我曾是一名对数据科学充满憧憬但又无从下手的初学者，直到我遇到了《数据挖掘》。这本书对我来说，最宝贵的特质在于它的“上手性”和“系统性”。它并没有一开始就抛出复杂的模型，而是从数据收集、数据清洗、数据探索性分析（EDA）这些基础但至关重要的步骤开始。作者用非常直观的图表和清晰的代码示例，演示了如何进行数据质量的检查，如何发现数据中的模式和异常。我曾经花了很多时间在“如何开始”这个问题上，而这本书就像一个清晰的指南，让我知道数据挖掘项目应该如何一步步推进。书中关于数据可视化部分的讲解也十分出色，它不仅仅是告诉你如何画图，更是告诉你“为什么要画这个图”，以及“这个图能告诉我们什么”。通过各种有效的可视化手段，我能够快速地理解数据集的特征，发现潜在的问题，甚至初步形成对数据的洞察。这本书让我觉得，数据挖掘并非高不可攀，而是可以通过系统学习和实践掌握的一项技能。它为我提供了坚实的理论基础和实践指导，让我能够自信地踏入数据科学的世界。

评分☆☆☆☆☆

不错，其实书里的大部分知识都已经掌握甚至挺熟练了，正需要本提纲挈领的书。下个版本把过时的OLAP换成hadoop就依旧是经典。

评分☆☆☆☆☆

不错，其实书里的大部分知识都已经掌握甚至挺熟练了，正需要本提纲挈领的书。下个版本把过时的OLAP换成hadoop就依旧是经典。

评分☆☆☆☆☆

不看了，有几个新的工具，但似乎不是很振奋人心

评分☆☆☆☆☆

聚类的部分好多算法没看懂。。看起来后半部分要2刷了。

评分☆☆☆☆☆

读了前面几章，比较基本和概略后面几章机器学习，总的说来，比较适合做overview，不适合当practical reference