数据科学与工程技术丛书

数据科学与工程技术丛书 pdf epub mobi txt 电子书 下载 2025

出版者:机械工业出版社
作者:Brett Lantz
出品人:
页数:259
译者:
出版时间:2015-4-7
价格:CNY 69.00
装帧:平装
isbn号码:9787111491576
丛书系列:数据科学与工程技术丛书
图书标签:
  • 机器学习
  • R
  • 数据分析
  • 数据挖掘
  • 计算机
  • statistics
  • R语言
  • 数理
  • 数据科学
  • 工程技术
  • 丛书
  • 算法
  • 机器学习
  • 大数据
  • 编程
  • 人工智能
  • 可视化
  • 系统设计
想要找书就要到 小美书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

随着大数据的概念变得越来越流行,对数据的探索、分析和预测成为大数据分析领域的基本技能之一。作为探索和分析数据的基本理论和工具,机器学习和数据挖掘成为时下炙手可热的技术。R作为功能强大并且免费的数据分析工具,在数据分析领域获得了越来越多用户的青睐。

本书通过丰富的实际案例来探索如何应用R来进行现实世界问题的机器学习,如何从数据中获取可以付诸行动的洞察力。本书案例清晰而实用,讲解循序渐进,是一本用R进行机器学习的实用指南,既适用于机器学习的初学者,也适用于具有一定经验的老手,本书将帮助他们回答有关R的所有问题。

作者简介

Brett Lantz

在应用创新的数据方法来理解人类的行为方面有10余年经验。他最初是一名社会学家,在学习一个青少年社交网站分布的大型数据库时,他就开始陶醉于机器学习。从那时起,他致力于移动电话、医疗账单数据和公益活动等交叉学科的研究,并维护dataspelunking.com这个网站,该网站致力于分享有关探寻数据中所蕴含的洞察的知识。

译者简介

李洪成 统计学博士,现为上海金融学院副教授,是SPSS统计分析软件和R语言专家。他的研究方向为金融统计和数据挖掘。他曾出版多本著作,并在专业杂志发表多篇论文,代表著作有《SPSS18数据分析基础与实践》、《SPSS数据分析教程》、《时间序列预测实践教程》,译著有《R语言经典实例》、《数据挖掘与R语言》、《金融数据分析导论:基于R语言》等。

目录信息

推荐序
译者序
前言
致谢
关于技术评审人
第1章 机器学习简介 1
1.1 机器学习的起源 2
1.2 机器学习的使用与滥用 3
1.3 机器如何学习 5
1.3.1 抽象化和知识表达 6
1.3.2 一般化 7
1.3.3 评估学习的成功性 9
1.4 将机器学习应用于数据中的步骤 9
1.5 选择机器学习算法 10
1.5.1 考虑输入的数据 10
1.5.2 考虑机器学习算法的类型 11
1.5.3 为数据匹配合适的算法 13
1.6 使用R进行机器学习 13
1.7 总结 17
第2章 数据的管理和理解 18
2.1 R数据结构 18
2.2 向量 19
2.3 因子 20
2.3.1 列表 21
2.3.2 数据框 22
2.3.3 矩阵和数组 24
2.4 用R管理数据 25
2.4.1 保存和加载R数据结构 25
2.4.2 用CSV文件导入和保存数据 26
2.4.3 从SQL数据库导入数据 27
2.5 探索和理解数据 28
2.5.1 探索数据的结构 29
2.5.2 探索数值型变量 29
2.5.3 探索分类变量 37
2.5.4 探索变量之间的关系 39
2.6 总结 42
第3章 懒惰学习——使用近邻分类 44
3.1 理解使用近邻进行分类 45
3.1.1 kNN算法 45
3.1.2 为什么kNN算法是懒惰的 51
3.2 用kNN算法诊断乳腺癌 51
3.2.1 第1步——收集数据 51
3.2.2 第2步——探索和准备数据 52
3.2.3 第3步——基于数据训练模型 55
3.2.4 第4步——评估模型的性能 57
3.2.5 第5步——提高模型的性能 58
3.3 总结 60
第4章 概率学习——朴素贝叶斯分类 61
4.1 理解朴素贝叶斯 61
4.1.1 贝叶斯方法的基本概念 62
4.1.2 朴素贝叶斯算法 65
4.2 例子——基于贝叶斯算法的手机垃圾短信过滤 70
4.2.1 第1步——收集数据 70
4.2.2 第2步——探索和准备数据 71
4.2.3 数据准备——处理和分析文本数据 72
4.2.4 第3步——基于数据训练模型 78
4.2.5 第4步——评估模型的性能 79
4.2.6 第5步——提升模型的性能 80
4.3 总结 81
第5章 分而治之——应用决策树和规则进行分类 82
5.1 理解决策树 82
5.1.1 分而治之 83
5.1.2 C5.0决策树算法 86
5.2 例子——使用C5.0决策树识别高风险银行贷款 89
5.2.1 第1步——收集数据 89
5.2.2 第2步——探索和准备数据 89
5.2.3 第3步——基于数据训练模型 92
5.2.4 第4步——评估模型的性能 95
5.2.5 第5步——提高模型的性能 95
5.3 理解分类规则 98
5.3.1 独立而治之 99
5.3.2 单规则(1R)算法 101
5.3.3 RIPPER算法 103
5.3.4 来自决策树的规则 105
5.4 例子——应用规则学习识别有毒的蘑菇 105
5.4.1 第1步——收集数据 106
5.4.2 第2步——探索和准备数据 106
5.4.3 第3步——基于数据训练模型 107
5.4.4 第4步——评估模型的性能 109
5.4.5 第5步——提高模型的性能 109
5.5 总结 111
第6章 预测数值型数据——回归方法 113
6.1 理解回归 113
6.1.1 简单线性回归 115
6.1.2 普通最小二乘估计 117
6.1.3 相关系数 118
6.1.4 多元线性回归 120
6.2 例子——应用线性回归预测医疗费用 122
6.2.1 第1步——收集数据 122
6.2.2 第2步——探索和准备数据 123
6.2.3 第3步——基于数据训练模型 127
6.2.4 第4步——评估模型的性能 129
6.2.5 第5步——提高模型的性能 130
6.3 理解回归树和模型树 133
6.4 例子——用回归树和模型树估计葡萄酒的质量 135
6.4.1 第1步——收集数据 135
6.4.2 第2步——探索和准备数据 136
6.4.3 第3步——基于数据训练模型 137
6.4.4 第4步——评估模型的性能 140
6.4.5 第5步——提高模型的性能 142
6.5 总结 144
第7章 黑箱方法——神经网络和支持向量机 146
7.1 理解神经网络 146
7.1.1 从生物神经元到人工神经元 148
7.1.2 激活函数 148
7.1.3 网络拓扑 151
7.1.4 用后向传播训练神经网络 153
7.2 用人工神经网络对混凝土的强度进行建模 154
7.2.1 第1步——收集数据 154
7.2.2 第2步——探索和准备数据 155
7.2.3 第3步——基于数据训练模型 156
7.2.4 第4步——评估模型的性能 158
7.2.5 第5步——提高模型的性能 159
7.3 理解支持向量机 160
7.3.1 用超平面分类 161
7.3.2 寻找最大间隔 161
7.3.3 对非线性空间使用核函数 164
7.4 用支持向量机进行光学字符识别 165
7.4.1 第1步——收集数据 166
7.4.2 第2步——探索和准备数据 166
7.4.3 第3步——基于数据训练模型 167
7.4.4 第4步——评估模型的性能 169
7.4.5 第5步——提高模型的性能 170
7.5 总结 171
第8章 探寻模式——基于关联规则的购物篮分析 172
8.1 理解关联规则 172
8.2 例子——用关联规则确定经常一起购买的食品杂货 176
8.2.1 第1步——收集数据 176
8.2.2 第2步——探索和准备数据 177
8.2.3 第3步——基于数据训练模型 183
8.2.4 第4步——评估模型的性能 184
8.2.5 第5步——提高模型的性能 187
8.3 总结 189
第9章 寻找数据的分组——k均值聚类 191
9.1 理解聚类 191
9.1.1 聚类——一种机器学习任务 192
9.1.2 k均值聚类算法 193
9.1.3 用k均值聚类探寻青少年市场细分 198
9.1.4 第1步——收集数据 198
9.1.5 第2步——探索和准备数据 199
9.1.6 第3步——基于数据训练模型 202
9.1.7 第4步——评估模型的性能 204
9.1.8 第5步——提高模型的性能 206
9.2 总结 207
第10章 模型性能的评价 208
10.1 度量分类方法的性能 208
10.1.1 在R中处理分类预测数据 209
10.1.2 深入探讨混淆矩阵 211
10.1.3 使用混淆矩阵度量性能 212
10.1.4 准确度之外的其他性能评价指标 214
10.1.5 性能权衡的可视化 221
10.2 评估未来的性能 224
10.2.1 保持法 225
10.2.2 交叉验证 226
10.2.3 自助法抽样 229
10.3 总结 229
第11章 提高模型的性能 231
11.1 调整多个模型来提高性能 231
11.2 使用元学习来提高模型的性能 239
11.2.1 理解集成学习 239
11.2.2 bagging 241
11.2.3 boosting 243
11.2.4 随机森林 244
11.3 总结 248
第12章 其他机器学习主题 249
12.1 分析专用数据 250
12.1.1 用RCurl添加包从网上获取数据 250
12.1.2 用XML添加包读/写XML格式数据 250
12.1.3 用rjson添加包读/写JSON 251
12.1.4 用xlsx添加包读/写Microsoft Excel电子表格 251
12.1.5 生物信息学数据 251
12.1.6 社交网络数据和图数据 252
12.2 提高R语言的性能 252
12.2.1 处理非常大的数据集 253
12.2.2 使用并行处理来加快学习过程 254
12.2.3 GPU计算 257
12.2.4 部署最优的学习算法 257
12.3 总结 258
· · · · · · (收起)

读后感

评分

R基本熟悉了,很适合初学者入门的书。一开始讲基本概念,而不是故弄玄虚讲一大堆专业名词,让人望而生畏。推荐!R基本熟悉了,很适合初学者入门的书。一开始讲基本概念,而不是故弄玄虚讲一大堆专业名词,让人望而生畏。推荐!R基本熟悉了,很适合初学者入门的书。一开始讲基本...

评分

R基本熟悉了,很适合初学者入门的书。一开始讲基本概念,而不是故弄玄虚讲一大堆专业名词,让人望而生畏。推荐!R基本熟悉了,很适合初学者入门的书。一开始讲基本概念,而不是故弄玄虚讲一大堆专业名词,让人望而生畏。推荐!R基本熟悉了,很适合初学者入门的书。一开始讲基本...

评分

R基本熟悉了,很适合初学者入门的书。一开始讲基本概念,而不是故弄玄虚讲一大堆专业名词,让人望而生畏。推荐!R基本熟悉了,很适合初学者入门的书。一开始讲基本概念,而不是故弄玄虚讲一大堆专业名词,让人望而生畏。推荐!R基本熟悉了,很适合初学者入门的书。一开始讲基本...

评分

R基本熟悉了,很适合初学者入门的书。一开始讲基本概念,而不是故弄玄虚讲一大堆专业名词,让人望而生畏。推荐!R基本熟悉了,很适合初学者入门的书。一开始讲基本概念,而不是故弄玄虚讲一大堆专业名词,让人望而生畏。推荐!R基本熟悉了,很适合初学者入门的书。一开始讲基本...

评分

R基本熟悉了,很适合初学者入门的书。一开始讲基本概念,而不是故弄玄虚讲一大堆专业名词,让人望而生畏。推荐!R基本熟悉了,很适合初学者入门的书。一开始讲基本概念,而不是故弄玄虚讲一大堆专业名词,让人望而生畏。推荐!R基本熟悉了,很适合初学者入门的书。一开始讲基本...

用户评价

评分

对于初学者,是一本十分有用入门的读物。

评分

这本是15年翻译的13年初版,还有一本17年翻译的15年2版。原理讲解很通俗。只需要高中数学基础就能看懂。这本书介绍了概念就奔实战去了。就是只说了是什么和怎么样,屏蔽了算法如何实现相关的数学基础和细节。直接丢给你一些已经成熟的程序包,只要知道接口就能在实例上应用。初学者可以在操练中入门。

评分

或许人们思想的纷争,不是因为算法,而是样本。算法是公平的,而样本不是。知识是公平的,而经验不是。世界之大,我们每个人脑海中的样本量都太小了。纵使所谓阅人无数,读书万卷,依然可能会得出有偏估计。。。我就觉得决策树,不如随机森林啊。

评分

第一眼朴实,挺好的书。概念魏清晰,步骤详细,就是R版本有点老,有些函数过期了

评分

可能是学统计的原因,对数学和计算机了解不是太深,我觉得读这本教材没其他机器学习教材那么吃力,很合我这刚入门的小白。

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美书屋 版权所有