数据挖掘与分析 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:人民邮电出版社

作者:[美] Mohammed J. Zaki

出品人:图灵教育

页数:516

译者:吴诚堃

出版时间:2017-8

价格:129.00 元

装帧:平装

isbn号码:9787115458421

丛书系列:图灵计算机科学丛书

图书标签:

数据挖掘
数据分析
机器学习
计算机科学
计算科学
CS
美国
学习
数据挖掘
数据分析
机器学习
统计学习
商业智能
数据科学
Python
R语言
数据可视化
模式识别

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到小美书屋

book.quotespace.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

数据挖据与分析的入门书，针对初学者阐述所有关键概念，包括探索性数据分析、频繁模式挖掘、聚类和分类。

兼顾前沿话题，例如核方法、高维数据分析、复杂图和网络等。

提供算法对应的开源实现方法。

每章均有丰富示例和练习，帮助读者理解和巩固相关主题。

配备丰富教辅资源，包括课程幻灯片、教学视频、数据集等，可从以下网址获取：http://www.dataminingbook.info/pmwiki.php/Main/BookResources。

《星际航行与宇宙文明探秘》内容简介一、跨越光年的旅行：星际航行的理论与实践本书深入探讨了人类在浩瀚宇宙中实现星际航行的可能性与具体技术路径。不同于依赖化学燃料的传统火箭，本书的核心内容聚焦于超光速旅行（FTL）的理论基石，包括对爱因斯坦相对论框架下曲速引擎（Warp Drive）的数学建模与物理学解析。我们详细剖析了阿库别雷引擎（Alcubierre Drive）的能量需求、负能量密度问题，以及如何通过理论上的空间折叠或虫洞（Wormholes）技术，实现时空捷径的构想。此外，书中还设立了专门章节讨论深空探索中的生命维持系统。这包括先进的闭环生态循环系统（CELSS）设计，如何有效管理水、空气和食物的再生，以应对长达数十年乃至数百年的单向或往返星际任务。同时，我们分析了微重力环境对人体生理和心理的长期影响，并提出了基于基因编辑和人工冬眠技术（Stasis Technology）的解决方案，以保障宇航员在漫长旅途中的健康与清醒度。从低功耗离子推进到反物质驱动的可能性，本书提供了一幅详尽的、面向未来的星际交通蓝图。二、宇宙中的生命形态：地外文明的搜寻与接触本书的第二部分将目光投向了宇宙中最引人入胜的谜题——地外生命的存在性。我们不再停留于猜测，而是系统地梳理了搜寻地外文明（SETI）项目的历史、现状与未来方向。重点分析了基于“德雷克公式”（Drake Equation）的概率模型，并结合最新天文观测数据，对银河系内潜在的宜居行星数量进行了严谨的估算。内容细致地阐述了目前用于搜寻的技术手段，从射电望远镜对窄带信号的持续监听，到利用詹姆斯·韦伯空间望远镜（JWST）对系外行星大气层中生物标记物（Biosignatures），如氧气、甲烷和臭氧的特征光谱分析。我们构建了一个多维度的“技术信号”（Technosignatures）识别框架，涵盖了巨型工程结构（如戴森球）、不自然的恒星亮度变化，以及高能粒子束等潜在文明活动的迹象。特别值得一提的是，本书投入大量篇幅讨论了“费米悖论”的最新诠释，包括“大过滤器”（Great Filter）理论在不同发展阶段（早期生命起源、技术爆发、自我毁灭）的可能性分布，以及“动物园假说”的伦理辩护。三、文明演化的尺度：从摇篮到星际帝国的轨迹预测理解文明的持续发展是探索外星生命的关键。本书引入了卡尔达肖夫文明等级（Kardashev Scale）作为衡量标准，并将其细化和扩展。我们不仅仅关注能量的获取，更侧重于信息处理能力和对基本物理常数的控制力。第一级文明：行星级文明的能源利用极限，探讨地热能、太阳能的全面捕获。第二级文明：恒星级文明的掌握，深入分析戴森群的结构效率、恒星际物质的有效利用，以及如何通过“恒星迁移”来优化能源供应。第三级文明：星系级文明的控制，讨论如何利用黑洞的吸积盘能量，以及对暗物质和暗能量的潜在干预，以实现对星系尺度的结构性改造。此外，书中还探讨了文明在信息领域的终极形态。当生物肉体不再是信息载体的唯一形式时，意识上传（Mind Uploading）与后生物信息文明（Post-Biological Intelligence）将如何塑造文明的未来形态？我们分析了量子计算在模拟宇宙、存储人类集体知识方面的潜力，以及信息熵增定律对任何有限文明的最终制约。四、宇宙的终极命运与哲学反思在技术的宏大叙事之外，本书的最后一部分回归到宇宙学的基础与哲学沉思。我们回顾了当前关于宇宙终极命运的主流模型：大冻结（Heat Death）、大撕裂（Big Rip）与大挤压（Big Crunch）的最新观测证据。本书着重探讨了人类在宇宙尺度上面临的深刻哲学困境： 1. 孤独与意义：在无限的时空中，有限的生命如何定义其存在的价值？ 2. 伦理边界：当接触到与人类历史进程截然不同的地外文明时，星际交流和潜在冲突的伦理框架应如何建立？（特别是针对比人类先进数百万年的文明）。 3. 信息保真度：在宇宙尺度的时间轴上，我们对自身历史和知识的记录是否能保持完整？通过对这些前沿科学议题的细致梳理与深入推演，本书旨在激发读者对我们所处宇宙更深层次的敬畏与探索精神，将读者从地球的束缚中解放出来，思考人类文明在时间与空间中的真正位置。本书没有提供简单答案，而是提供了一套严谨的思考工具，去面对宇宙中最宏大、最深奥的挑战。

作者简介

作者简介：

Mohammed J. Zaki

伦斯勒理工学院计算机科学系教授，ACM杰出科学家，IEEE会士，目前致力于研究新数据挖掘技术。曾获得谷歌教职研究奖等诸多奖项。

Wagner Meira Jr.

巴西米纳斯联邦大学计算机科学系教授，数据库专家。

译者简介：

吴诚堃

博士，2014年毕业于英国曼彻斯特大学，博士论文题为《应用大规模文本挖掘实现疾病分子机理重构》。现担任国防科技大学计算机学院助理研究员，从事高性能计算应用研究。

目录信息

第1章　数据挖掘与分析　　1
1.1 数据矩阵　　1
1.2 属性　　2
1.3 数据的几何和代数描述　　3
1.3.1 距离和角度　　5
1.3.2 均值与总方差　　8
1.3.3 正交投影　　9
1.3.4 线性无关与维数　　10
1.4 数据：概率观点　　12
1.4.1 二元随机变量　　17
1.4.2 多元随机变量　　20
1.4.3 随机抽样和统计量　　21
1.5 数据挖掘　　22
1.5.1 探索性数据分析　　23
1.5.2 频繁模式挖掘　　24
1.5.3 聚类　　24
1.5.4 分类　　25
1.6 补充阅读　　26
1.7 习题　　26
第一部分　数据分析基础
第2章　数值属性　　28
2.1 一元变量分析　　28
2.1.1 数据居中度度量　　29
2.1.2 数据离散度度量　　32
2.2 二元变量分析　　35
2.2.1 位置和离散度的度量　　36
2.2.2 相关性度量　　37
2.3 多元变量分析　　40
2.4 数据规范化　　44
2.5 正态分布　　46
2.5.1 一元正态分布　　46
2.5.2 多元正态分布　　47
2.6 补充阅读　　50
2.7 习题　　51
第3章　类别型属性　　53
3.1 一元分析　　53
3.1.1 伯努利变量（Bernoulli variable）　　53
3.1.2 多元伯努利变量　　55
3.2 二元分析　　61
3.3 多元分析　　69
3.4 距离和角度　　74
3.5 离散化　　75
3.6 补充阅读　　77
3.7 习题　　78
第4章　图数据　　79
4.1 图的概念　　79
4.2 拓扑属性　　83
4.3 中心度分析　　86
4.3.1 基本中心度　　86
4.3.2 Web中心度　　88
4.4 图的模型　　96
4.4.1 Erd?s-Rényi随机图模型　　98
4.4.2 Watts-Strogatz小世界图模型　　101
4.4.3 Barabási-Albert无标度模型　　104
4.5 补充阅读　　111
4.6 习题　　112
第5章　核方法　　114
5.1 核矩阵　　117
5.1.1 再生核映射　　118
5.1.2 Mercer核映射　　120
5.2 向量核　　122
5.3 特征空间中的基本核操作　　126
5.4 复杂对象的核　　132
5.4.1 字符串的谱核　　132
5.4.2 图节点的扩散核　　133
5.5 补充阅读　　137
5.6 习题　　137
第6章　高维数据　　139
6.1 高维对象　　139
6.2 高维体积　　141
6.3 超立方体的内接超球面　　143
6.4 薄超球面壳的体积　　144
6.5 超空间的对角线　　145
6.6 多元正态的密度　　146
6.7 附录：球面体积的推导　　149
6.8 补充阅读　　153
6.9 习题　　153
第7章　降维　　156
7.1 背景知识　　156
7.2 主成分分析　　160
7.2.1 最优线近似　　160
7.2.2 最优二维近似　　163
7.2.3 最优r维近似　　167
7.2.4 主成分分析的几何意义　　170
7.3 核主成分分析　　172
7.4 奇异值分解　　178
7.4.1 奇异值分解的几何意义　　179
7.4.2 奇异值分解和主成分分析之间的联系　　180
7.5 补充阅读　　182
7.6 习题　　182
第二部分　频繁模式挖掘
第8章　项集挖掘　　186
8.1 频繁项集和关联规则　　186
8.2 频繁项集挖掘算法　　189
8.2.1 逐层的方法：Apriori算法　　191
8.2.2 事务标识符集的交集方法：Eclat算法　　193
8.2.3 频繁模式树方法：FPGrowth算法　　197
8.3 生成关联规则　　201
8.4 补充阅读　　203
8.5 习题　　203
第9章　项集概述　　208
9.1 最大频繁项集和闭频繁项集　　208
9.2 挖掘最大频繁项集：GenMax算法　　211
9.3 挖掘闭频繁项集：Charm算法　　213
9.4 非可导项集　　215
9.5 补充阅读　　220
9.6 习题　　221
第10章　序列挖掘　　223
10.1 频繁序列　　223
10.2 挖掘频繁序列　　224
10.2.1 逐层挖掘：GSP　　225
10.2.2 垂直序列挖掘：Spade　　226
10.2.3 基于投影的序列挖掘：PrefixSpan　　228
10.3 基于后缀树的子串挖掘　　230
10.3.1 后缀树　　230
10.3.2 Ukkonen线性时间算法　　233
10.4 补充阅读　　238
10.5 习题　　239
第11章　图模式挖掘　　242
11.1 同形和支撑　　242
11.2 候选生成　　245
11.3 gSpan算法　　249
11.3.1 扩展和支撑计算　　250
11.3.2 权威性测试　　255
11.4 补充阅读　　256
11.5 习题　　257
第12章　模式与规则评估　　260
12.1 规则和模式评估的度量　　260
12.1.1 规则评估度量　　260
12.1.2 模式评估度量　　268
12.1.3 比较多条规则和模式　　270
12.2 显著性检验和置信区间　　273
12.2.1 产生式规则的费希尔精确检验　　273
12.2.2 显著性的置换检验　　277
12.2.3 置信区间内的自助抽样　　282
12.3 补充阅读　　284
12.4 习题　　285
第三部分　聚类
第13章　基于代表的聚类　　288
13.1 K-means 算法　　288
13.2 核K-means　　292
13.3 期望最大聚类　　295
13.3.1 一维中的EM　　297
13.3.2 d维中的EM　　300
13.3.3 极大似然估计　　305
13.3.4 EM方法　　309
13.4 补充阅读　　311
13.5 习题　　312
第14章　层次式聚类　　315
14.1 预备知识　　315
14.2 聚合型层次式聚类　　317
14.2.1 簇间距离　　317
14.2.2 更新距离矩阵　　321
14.2.3 计算复杂度　　322
14.3 补充阅读　　322
14.4 习题　　323
第15章　基于密度的聚类　　325
15.1 DBSCAN 算法　　325
15.2 核密度估计　　328
15.2.1 一元密度估计　　328
15.2.2 多元密度估计　　331
15.2.3 最近邻密度估计　　333
15.3 基于密度的聚类：DENCLUE　　333
15.4 补充阅读　　338
15.5 习题　　339
第16章　谱聚类和图聚类　　341
16.1 图和矩阵　　341
16.2 基于图的割的聚类　　347
16.2.1 聚类目标函数：比例割与归—割　　349
16.2.2 谱聚类算法　　351
16.2.3 最大化目标：平均割与模块度　　354
16.3 马尔可夫聚类　　360
16.4 补充阅读　　366
16.5 习题　　367
第17章　聚类的验证　　368
17.1 外部验证度量　　368
17.1.1 基于匹配的度量　　369
17.1.2 基于熵的度量　　372
17.1.3 成对度量　　375
17.1.4 关联度量　　378
17.2 内部度量　　381
17.3 相对度量　　388
17.3.1 分簇稳定性　　394
17.3.2 聚类趋向性　　396
17.4 补充阅读　　400
17.5 习题　　401
第四部分　分类
第18章　基于概率的分类　　404
18.1 贝叶斯分类器　　404
18.1.1 估计先验概率　　404
18.1.2 估计似然　　405
18.2 朴素贝叶斯分类器　　409
18.3 K最近邻分类器　　412
18.4 补充阅读　　414
18.5 习题　　415
第19章　决策树分类器　　416
19.1 决策树　　417
19.2 决策树算法　　419
19.2.1 分割点评估度量　　420
19.2.2 评估分割点　　422
19.3 补充阅读　　429
19.4 习题　　429
第20章　线性判别分析　　431
20.1 最优线性判别　　431
20.2 核判别分析　　437
20.3 补充阅读　　443
20.4 习题　　443
第21章　支持向量机　　445
21.1 支持向量和间隔　　445
21.2 SVM：线性可分的情况　　450
21.3 软间隔SVM：线性不可分的情况　　454
21.3.1 铰链误损　　455
21.3.2 二次误损　　458
21.4 核SVM：非线性情况　　459
21.5 SVM训练算法　　462
21.5.1 对偶解法：随机梯度上升　　463
21.5.2 原始问题解：牛顿优化　　467
21.6 补充阅读　　473
21.7 习题　　473
第22章　分类的评估　　475
22.1 分类性能度量　　475
22.1.1 基于列联表的度量　　476
22.1.2 二值分类：正类和负类　　479
22.1.3 ROC分析　　482
22.2 分类器评估　　487
22.2.1 K折交叉验证　　487
22.2.2 自助抽样　　488
22.2.3 置信区间　　489
22.2.4 分类器比较：配对t检验　　493
22.3 偏置-方差分解　　495
22.4 补充阅读　　503
22.5 习题　　504
· · · · · · (收起)