数据挖掘基础教程 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:机械工业出版社

作者:（印度）西蒙（Soman.K.P）

出品人:

页数:305

译者:范明

出版时间:2009-1

价格:45.00元

装帧:平装

isbn号码:9787111255437

丛书系列:计算机科学丛书

图书标签:

数据挖掘
数据分析
计算机
翻了一遍
数学与算法
思维逻辑
入门的
计算机科学
数据挖掘
机器学习
数据分析
统计学习
人工智能
算法
数据库
Python
R语言
商业智能

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到小美书屋

book.quotespace.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

《数据挖掘基础教程》全面介绍数据挖掘的原理、方法和算法。主要内容包括数据挖掘的基本概念、数据挖掘算法的数据类型、输入和输出、决策树、数据挖掘的预处理和后处理、关联规则挖掘、分类和回归算法、支持向量机、聚类分析及多维数据可视化。

《数据挖掘基础教程》讲解深入浅出，并辅以大量实例，随书光盘提供了大量数据集以及两种广泛使用的数据挖掘软件——Weka和ExcelMiner，便于读者理解数据挖掘知识。《数据挖掘基础教程》适合作为高等院校计算机及相关专业数据挖掘课程的教材，也可供广大技术人员参考。

作者简介

目录信息

出版者的话
译者序
前言
第1章数据挖掘
1.1 引言
1.1.1 数据挖掘与知识发现
1.1.2 数据挖掘与数据分析
1.1.3 数据挖掘与统计学
1.1.4 数据挖掘与机器学习
1.2 数据挖掘——成功的例子
1.3 数据挖掘研究发展的主要原因
1.4 当前研究成果
1.5 图形模型和层次概率表示
1.6 新的应用
1.7 影响数据挖掘的趋势
1.8 研究挑战
1.9 实验平台和基础设施
参考文献
第2章从商务角度看数据挖掘
2.1 引言
2.2 从数据挖掘工具到解决方案
2.3 数据挖掘系统的演变
2.4 知识发现过程
2.5 数据挖掘支撑技术概述
2.5.1 数据挖掘：验证与发现
2.5.2 决策支持系统
2.5.3 OLAP
2.5.4 桌面DSS
2.5.5 数据仓库
2.5.6 数据挖掘过程
2.6 数据挖掘技术
参考文献
第3章数据挖掘算法的数据类型、输入和输出
3.1 引言
3.2 实例和特征
3.3 特征(数据)的不同类型
3.4 概念学习与概念描述
3.5 数据挖掘的输出——知识表示
3.5.1 分类学习算法的知识输出
3.5.2 聚类学习算法的输出
3.5.3 关联规则的输出
3.5.4 用于数值预测的树的输出
3.5.5 基于实例的学习和知识表示
参考文献
第4章决策树——分类和回归树
4.1 引言
4.2 构造分类树
4.2.1 用于标称属性的ID3算法
4.2.2 信息论和信息熵
4.2.3 构造树
4.2.4 高分支属性
4.2.5 从ID3到C4.5
4.2.6 形象化地理解ID3和C4.5算法
4.3 CHAID
4.3.1 CHAID的数学工具
4.3.2 CHAID变量的类型
4.3.3 CHAID算法
4.3.4 CHAID算法描述
4.3.5 将CHAID用于气象数据
4.3.6 单调变量的预测子级别合并
4.4 CART(分类和回归树)
4.4.1 CART使用的不纯性度量
4.4.2 Gini指数
4.4.3 使用Gini指数——一个例子
4.4.4 双化指数
4.4.5 有序双化
4.4.6 CAR了分析的步骤
4.5 回归树
4.5.1 回归树的一个例子
4.5.2 基于树的回归
4.5.3 最小二乘方回归树
4.5.4 Ls回归树的有效生长
4.5.5 连续变量上的划分
4.5.6 离散变量上的划分
4.5.7 模型树
4.6 具有未知类值数据的类预测的一般问题
4.7 剪枝导论
4.8 模型评估
4.8.1 交叉确认：保持方法
4.8.2 模型比较
4.8.3 代价敏感的学习
习题
参考文献
第5章数据挖掘的预处理和后处理
5.1 引言
5.2 数据预处理的步骤
5.3 离散化
5.3.1 人工方法
5.3.2 分箱
5.3.3 基于熵的离散化
5.3.4 找出分割点的其他简单方法
5.4 特征提取、选择和构造
5.4.1 特征提取
5.4.2 特征选择
5.4.3 特征构造
5.5 缺失数据及其处理方法和技术
5.5.1 什么是缺失数据
5.5.2 缺失数据的主要原因
5.5.3 缺失数据的机制
5.5.4 缺失数据的机制——一个人工例子
5.6 在决策树归纳中处理缺失数据的例子
5.7 后处理
参考文献
第6章数据集
6.1 引言
6.2 隐形眼镜
6.3 鸢尾属植物数据库
6.4 乳腺癌数据库
6.5 工资数据库
6.6 信用卡数据库
6.7 住宅数据库
6.8 1985年汽车进口数据库
6.9 徽章问题
6.9.1 问题描述
6.9.2 部分数据
第7章关联规则挖掘
7.1 引言
7.2 事务数据库中关联规则的自动发现
7.3 Apiiori算法
7.4 缺点
习题
参考文献
第8章用开源和商业软件进行机器学习
8.1 用Weka进行机器学习
8.1.1 开始
8.1.2 装人数据
8.1.3 选择或过滤属性
8.1.4 离散化
8.1.5 关联规则挖掘
8.1.6 分类
8.1.7 聚类
8.2 XLMINER
参考文献
第9章分类和回归算法
9.1 引言
9.2 朴素贝叶斯
9.2.1 朴素贝叶斯的零频率问题
9.2.2 缺失值和数值属性
9.3 多元回归分析
9.3.1 什么是回归分析
9.3.2 简单和多元回归分析
9.3.3 在市场营销中的应用
9.3.4 方法
9.3.5 使用Excel进行多元回归分析
9.3.6 输人数据
9.3.7 回归输出
9.4 逻辑斯谛回归
9.5 k-最近邻分类
9.5.1 k-近邻预测
9.5.2 k-NN算法的缺点
9.6 GMDH
9.6.1 引言
9.6.2 数据处理群组方法的背景
9.6.3 构建决策规则
9.6.4 实验结果
9.6.5 讨论和总结
9.7 进化计算和遗传算法
9.7.1 进化理论
9.7.2 遗传算法
9.7.3 使用遗传算法进行机器学习
习题
参考文献
第10章支持向量机
10.1 引言
10.2 线性支持向量机的基本思想
10.3 软边缘SVM：线性核
10.3.1 线性SVM的线性规划公式表示
10.3.2 有训练误差的SVM：非线性核
10.4 邻近支持向量机
10.5 生成数据集
10.5.1 螺旋数据生成器
10.5.2 棋盘格数据集
10.5.3 多元正态分布数据生成器
10.6 问题及解答
习题
参考文献
第11章聚类分析
11.1 引言
11.1.1 相似性及其度量
11.1.2 聚类的基本类型
11.2 划分聚类
11.3 k-中心点
11.4 现代聚类方法
11.5 BIRCH
11.6 DBSCAN
11.6.1 DBSCAN算法的概念
11.6.2 DBSCAN的基本概念和算法
11.6.3 算法
11.6.4 DBSCAN算法的优点
11.7 OPTICS
11.7.1 引言
11.7.2 OPTICS算法的动机
11.7.3 OPTICS采用的概念
11.7.4 OPTICS算法
11.7.5 可达图
11.7.6 优点
11.7.7 缺点
11.8 基于图划分的聚类
11.8.1 加权图划分
11.8.2 平衡图划分——基本原则
11.8.3 κ路划分
11.9 CHAMELEON：两阶段聚类算法
11.9.1 数据建模
11.9.2 簇相似性建模
11.9.3 CHAMELEON的两个阶段
11.9.4 用例子说明CHAMELEON算法
11.10 COBWEB概念聚类算法
11.10.1 COBWEB算法
11.10.2 COBWEB：一个简单例子
11.11 GCLUTO：图形化聚类工具箱
11.11.1 概述
11.11.2 GCLUTO中的可用选项
11.11.3 使用GCLUTO进行文本
挖掘
习题
参考文献
第12章多维数据可视化
12.1 引言
12.2 多维可视化的图表表示
12.2.1 kiviat图
12.2.2 平行坐标系
12.2.3 3D散点图
12.2.4 3D曲线图
12.2.5 体积透视图
12.2.6 房图
12.2.7 Chemoff脸图
12.3 可视化数据挖掘
参考文献
附录A SVM公式：完全可分的线性分类器
附录B 图划分的矩阵形式
· · · · · · (收起)

读后感

评分☆☆☆☆☆

与传统的数据分析相比，数据挖掘更强调模拟人的学习方式，教计算机自动地识别有用的知识。当然算法还是要人去设计出来，机器只是去执行人的算法，比如神经网络算法、聚类算法等。目前数据挖掘已经有一些成熟的产品推出，对于个人学习者，可以通过开源的weka来练习数据挖掘...

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

这本书的图表质量和表达效率，简直是反向教材级别的存在。我发现书中大部分的图示，无论是流程图、架构图还是数据分布图，都显得极其简陋，仿佛是使用最基础的绘图工具随意勾勒而成，缺乏专业性。更严重的是，很多图表本身就带有误导性或者干脆是错误的。例如，在一个解释决策树分裂准则的图中，节点纯度的计算示例中的数值与最终结果的标签明显对不上，这让我花了十几分钟反复核对，才确认是图表本身出了问题，而不是我的理解偏差。此外，图表的标签往往模糊不清，颜色对比度极低，使得在打印或电子屏幕上查看时，很多细节信息根本无法被有效捕捉。图表原本是为了简化和可视化复杂概念，而这本书中的图表非但没有起到这个作用，反而成了新的知识盲点和困惑的来源。如果说文字的表达力有限，那么高质量的图示是最好的补充，但这本书提供的内容，似乎是在故意降低读者的信息接收效率。

评分☆☆☆☆☆

这本书的排版简直是一场灾难，让人在阅读过程中频繁地产生抓狂的冲动。字体大小的设置毫无章法可言，有些地方如同放大镜下的微生物，细小得让人眯着眼睛也难以辨认，而紧接着的段落又突然变得硕大，占据了过多的页面空间，视觉疲劳感来得猝不及防。更要命的是，行距的调整也如同心血来潮的艺术创作，忽而紧密得像是要挤爆纸张，文字之间几乎没有喘息的空间；转瞬之间又松散得像是被风吹散的蒲公英，让人在寻找下一行文字时不得不花费额外的精力去定位。这种混乱的布局，极大地破坏了阅读的流畅性，我甚至怀疑作者和编辑是否真正翻阅过成品。作为一本理论性较强的书籍，清晰的结构和舒适的阅读体验本应是基石，但这本书在这最基础的层面上就全面失分。每当我想沉浸于理解某个复杂概念时，总会被这种粗糙的物理呈现打断，不得不停下来揉眼睛，或者试图在密密麻麻的字符中重新找回思路。这不仅仅是美观的问题，更是直接影响了知识的有效吸收效率，实在让人感到遗憾和不解，如此重要的细节竟然被如此草率地对待。

评分☆☆☆☆☆

作者在理论阐述上的严谨程度和逻辑递进性，也存在明显的断裂和跳跃，阅读体验十分晦涩。尤其是在介绍一些核心的数学基础和统计学原理时，作者似乎默认读者已经具备了极高的预备知识水平，直接从一个成熟的公式或一个复杂的定理开始推导，中间的关键步骤和背后的直觉解释完全缺失。例如，在讲解梯度下降法的收敛性证明时，充斥着大量没有上下文的符号操作，完全没有用通俗的语言或几何直觉来帮助初学者建立概念连接。这就像被直接扔进了一个只有专业术语和符号的黑匣子，你只能被动接受结果，却无法理解“为什么”以及“如何”得出这个结果。对于一本自诩为“教程”的书籍，这种教学方式是极其不负责任的。教程的价值在于引导，在于将复杂概念分解为可消化的小块，并通过清晰的路径将它们串联起来。这本书在这方面做得非常失败，它更像是一本给已经掌握了基础知识的研究人员准备的速查手册，而非一个合格的入门向导，让初学者在尝试学习的初期就遭遇了难以逾越的理解障碍。

评分☆☆☆☆☆

我对这本书的案例选择和实用性深度感到极度失望，它仿佛停留在上个世纪的教科书展示水平。书中所举的例子，不是过于简单、缺乏现实复杂性的“玩具数据”练习，就是那些已经被学术界讨论了无数遍、在实际工业界早已被更先进方法取代的经典算法应用场景。举例来说，它花了大量篇幅去详述关联规则挖掘在超市购物篮分析中的应用，但对于如今大数据环境中更常见、更具挑战性的序列模式发现、高维稀疏数据处理，或者涉及时间序列的复杂预测模型，却几乎一笔带过，或者只是在最后几页草草提及其存在。这使得这本书对于有志于在当前技术栈中有所建树的读者来说，价值非常有限。我期待的是能够看到最新的技术趋势、对现代云计算平台下数据处理流程的整合探讨，或者至少是针对特定垂直行业（如金融风控、精准营销）的深入剖析。但这本书提供的知识点，就好比一本介绍蒸汽机的说明书，虽然历史意义明确，但对想学习如何驾驶现代喷气式飞机的工程师来说，显得过于陈旧和脱节，完全无法满足对前沿技术的好奇心和应用需求。

评分☆☆☆☆☆

这本书的附录和资源链接部分，透露出一种严重脱离现实的惰性。我本以为一本现代的“教程”会提供配套的GitHub仓库，存放代码示例、练习数据集的下载链接，或者至少是作者使用的开发环境配置指南。然而，这本书的附录中，仅仅是罗列了几个早期的、早已失效的学术论文链接，以及一些已经被废弃的软件版本名称。当你尝试去查找和复现书中的任何一个代码实例时，你会发现根本无从下手——没有明确的编程语言版本要求，没有依赖库的精确列表，更别提可运行的完整代码块了。这使得这本书的知识点停留在“你知道有这么回事”的阶段，但完全无法转化为“你可以动手做出来”的实践能力。这种对实践环节的彻底放弃，对于任何一个希望通过动手实践来巩固学习的读者来说，都是致命的缺陷。它将学习体验限制在了纯粹的理论阅读层面，而理论如果没有实践的支撑，其知识的留存度和实际价值都会大打折扣，最终沦为一本“只能看，不能用”的摆设。

评分☆☆☆☆☆

= =我会说这个是教科书么。然后学得很纠结

评分☆☆☆☆☆

= =我会说这个是教科书么。然后学得很纠结

评分☆☆☆☆☆

统计学机器学习人工智能

评分☆☆☆☆☆

见过。

评分☆☆☆☆☆

覆盖面还是可以的，特别对于决策树，分类，聚类，最大的优点是有很多详细的例子辅助，缺点是内容稍微有些过时，有些章节没什么用处，比如weka数据集（为什么要专门花一章来罗列这玩意），weka那一章也是浪费纸张，最后一张也没讲什么内容，整体而言还是适合入门的