数据科学实战手册 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:人民邮电出版社

作者:Tony Ojeda(托尼·奥杰德)

出品人:

页数:326

译者:郝智恒

出版时间:2016-8-1

价格:59.00元

装帧:平装

isbn号码:9787115426758

丛书系列:

图书标签:

数据分析
Python
R
数据科学
计算科学
计算机
知乎
数据方法
数据科学
机器学习
Python
数据分析
数据挖掘
统计学习
实战
案例
算法
可视化

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到小美书屋

book.quotespace.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

这本书是基于R和Python的数据科学项目案例集锦，内容涵盖了基于数据科学的所有要素，包括数据采集、处理、清洗、分析、建模、可视化以及数据产品的搭建。案例包含了汽车数据分析、股票市场建模、社交网络分析、推荐系统、地理信息分析，以及Python代码的计算优化。通过手把手的案例解析，令读者知其然并知其所以然。业界的数据分析师、数据挖掘工程师、数据科学家都可以读一读。想要了解实际工作中如何用数据产生价值的在校学生，或者对数据科学感兴趣的人也值得一读。

作者简介

Tony Ojeda(托尼·奥杰德)，华盛顿DC数据社区的联合创始人，一位经验丰富的数据科学家和企业家，他在佛罗里达国际大学获得金融硕士学位，并且在德保罗大学获得了MBA学位。

Sean Patrick Murphy(肖恩·派特里克·莫非)，华盛顿DC数据社区的联合创始人，曾在约翰霍普金斯大学的应用物理实验室做了15年的高级科学家，他专注于机器学习、信号处理、高性能计算以及建模和模拟。现在他是旧金山、纽约和华盛顿DC多家公司的数据顾问。

Benjamin Bengfort(本杰明·班福特)，一位非常有经验的数据科学家和Python开发者。他曾在军方、业界和学术界工作过8年。他目前在马里兰大学派克学院攻读计算机博士学位，研究元识别和自然语言处理。他拥有北达科塔州立大学的计算机硕士学位，并是乔治城大学的客座教授。

Abhijit Dasgupta(阿布吉特·达斯古普塔)，华盛顿DC数据社区的成员，华盛顿DC统计编程社群的创始人和联合组织者，他拥有华盛顿大学生物统计的博士学位，在生物制药行业咨询、商业分析、生物信息以及生物工程咨询方面拥有多年的经验。

译者简介

郝智恒，甘肃兰州人，南开大学概率统计专业毕业，统计之都活跃会员。目前在阿里巴巴商业智能部任职，擅长数据分析和数据挖掘，喜欢用数据探索商业世界的边界。

王佳玮，黄山脚下长大，香港城大-中科大联合培养博士毕业，现于阿里云大数据孵化器团队搬砖，喜欢数据分析和挖掘在社会各领域的应用，目前正致力于用数据和算法解决交通拥堵问题。

谢时光，2011年博士毕业于美国弗吉尼亚理工大学工业工程系运筹学专业，毕业后从事数据分析、优化和决策支持相关工作至今。曾先后在安飞士（Avis）、费埃哲（FICO）等行业领先的公司从事从供应链到风险控制等多个应用领域的数据分析和优化决策研究工作。

刘梦馨，灵雀云高级软件工程师，专注于容器虚拟化领域，机器学习爱好者。

目录信息

第1章　准备你的数据科学环境　1
简介　1
理解数据科学管道　3
处理流程　3
工作原理　3
在Windows、Mac OS X、Linux上安装R　5
准备工作　5
处理流程　5
工作原理　7
参考资料　7
在R和RStudio中安装扩展包　7
准备工作　8
处理流程　8
工作原理　9
更多内容　10
参考资料　10
在Linux和Mac OS X上安装Python　10
准备工作　11
处理流程　11
工作原理　11
更多内容　11
参考资料　12
在Windows上安装Python　12
处理流程　13
工作原理　13
参考资料　14
在Mac OS X和Linux上安装Python数据分析库　14
准备工作　14
处理流程　14
工作原理　15
更多内容　16
参考资料　16
安装更多Python包　17
准备工作　17
处理流程　17
工作原理　18
更多内容　18
参考资料　18
安装和使用virtualenv　19
准备工作　19
处理流程　19
工作原理　21
更多内容　21
参考资料　22
第2章　汽车数据的可视化分析（R）　23
简介　23
获取汽车燃料效率数据　24
准备工作　24
处理流程　25
工作原理　25
为了你的第一个项目准备好R　26
准备工作　26
处理流程　26
工作原理　26
参考资料　26
将汽车燃料效率数据导入R　27
准备工作　27
处理流程　27
工作原理　28
更多内容　29
参考资料　30
探索和描述燃料效率数据　30
准备工作　30
处理流程　30
工作原理　32
更多内容　33
进一步分析汽车燃料效率数据　34
准备工作　34
处理流程　34
工作原理　43
参考资料　44
研究汽车的产量以及车型　44
准备工作　44
处理流程　44
工作原理　46
更多内容　47
参考资料　47
第3章　模拟美式橄榄球比赛数据（R）　48
简介　48
准备工作　49
获取和清洗美式橄榄球比赛数据　49
准备工作　50
处理流程　50
工作原理　53
参考资料　53
分析和理解美式橄榄球比赛数据　53
准备工作　53
处理流程　53
工作原理　61
更多内容　61
参考资料　62
构建度量攻防能力的指标　62
准备工作　62
处理流程　62
工作原理　64
参考资料　65
模拟单场由程序决定胜负的比赛　65
准备工作　65
处理流程　65
工作原理　68
模拟多场由计算决定胜负的比赛　68
准备工作　68
处理流程　69
工作原理　73
更多内容　74
第4章　建模分析股票市场数据（R）　75
简介　75
准备工作　76
获取股票市场数据　76
处理流程　77
描述数据　78
准备工作　79
工作原理　80
更多内容　81
清洗和研究数据　82
准备工作　82
处理流程　82
工作原理　87
参考资料　87
形成相对估值法　87
准备工作　87
处理流程　88
工作原理　91
分析历史价格筛选股票　92
准备工作　92
处理流程　92
工作原理　98
第5章　就业数据的可视化探索（R）　99
简介　99
分析前的准备　100
准备工作　101
处理流程　101
工作原理　102
参考资料　102
将就业数据导入R　103
准备工作　103
处理流程　103
工作原理　104
更多内容　104
参考资料　105
就业数据探究　105
准备条件　105
处理流程　105
工作原理　107
参考资料　107
获取和合并添加附加信息　107
准备工作　107
处理流程　108
工作原理　109
添加地理信息　110
准备工作　110
处理流程　110
工作原理　113
参考资料　114
获取州和县级水平的薪资和就业信息　114
准备工作　114
处理流程　114
工作原理　116
参考资料　117
可视化薪资的地理分布特性　117
准备工作　118
处理流程　118
工作原理　120
参考资料　121
探究各行业工作的地理分布情况　121
处理流程　122
工作原理　123
更多内容　124
参考资料　124
绘制地理空间的时间序列地图　124
准备工作　124
处理流程　125
工作原理　128
更多内容　128
函数性能测试和比较　128
准备工作　129
处理流程　129
工作原理　131
更多内容　132
参考资料　132
第6章　运用税务数据进行应用导向的数据分析（Python）　133
简介　133
应用导向方法简介　134
准备高收入数据集的分析　135
准备工作　135
处理流程　135
工作原理　136
导入并熟悉世界各国高收入数据集　136
准备工作　137
处理流程　137
工作原理　143
更多内容　144
参考资料　144
分析并可视化美国的高收入数据集　144
准备工作　144
处理流程　145
工作原理　151
进一步分析美国的高收入阶层　152
准备工作　152
处理流程　152
工作原理　156
用Jinja2汇报结果　157
准备工作　157
处理流程　157
工作原理　162
更多内容　162
参考资料　163
第7章　运用汽车数据进行可视化分析（Python）　164
简介　164
IPython入门　165
准备工作　165
处理流程　165
工作原理　167
参考资料　167
熟悉IPython Notebook　167
准备工作　168
处理流程　168
工作原理　170
更多内容　170
参考资料　171
准备分析汽车油耗　171
准备工作　171
处理流程　171
工作原理　173
更多内容　173
参考资料　174
用Python熟悉并描述汽车油耗数据　174
准备工作　174
处理流程　174
工作原理　177
更多内容　177
参考资料　177
用Python分析汽车油耗随时间变化趋势　177
准备工作　177
处理流程　178
工作原理　183
更多内容　184
参考资料　185
用Python调查汽车的制造商和型号　185
准备工作　185
处理流程　185
工作原理　189
参考资料　189
第8章　社交网络分析（Python）　190
简介　190
理解图和网络　191
准备用Python进行社交网络的分析工作　192
准备工作　192
处理流程　193
工作原理　193
更多内容　193
导入网络　194
准备工作　194
处理流程　194
工作原理　196
探索英雄网络的子图　196
准备工作　197
处理流程　197
工作原理　199
更多内容　199
找出强关联　200
准备工作　201
处理流程　201
工作原理　203
更多内容　204
找出关键人物　204
准备工作　205
处理流程　205
工作原理　208
更多内容　209
调查全网的特征　215
准备工作　216
处理流程　216
工作原理　217
社交网络中的聚类和发现社群　217
准备工作　217
处理流程　218
工作原理　221
更多内容　221
可视化图　222
准备工作　222
处理流程　222
工作原理　224
第9章　大规模电影推荐（Python）　225
简介　226
对偏好建模　227
处理流程　227
工作原理　228
理解数据　229
准备工作　229
处理流程　229
工作原理　231
更多内容　231
加载电影评分数据　231
准备工作　231
处理流程　232
工作原理　234
寻找高评分电影　235
准备工作　236
处理流程　236
工作原理　237
更多内容　238
参考资料　238
提升电影评分系统　238
准备工作　238
处理流程　238
工作原理　239
更多内容　240
参考资料　240
计算用户在偏好空间中的距离　240
准备工作　241
处理流程　241
工作原理　243
更多内容　243
参考资料　243
计算用户相关性　244
准备工作　244
处理流程　244
工作原理　245
更多内容　246
为特定用户寻找最好的影评人　246
准备工作　246
处理流程　246
工作原理　247
预测用户评分　249
准备工作　249
处理流程　249
工作原理　250
基于物品的协同过滤　251
准备工作　251
处理流程　252
工作原理　253
建立非负矩阵分解模型　254
处理流程　255
工作原理　255
参考资料　256
将数据集载入内存　256
准备工作　257
处理流程　257
工作原理　258
更多内容　258
导出SVD模型至硬盘　259
处理流程　259
工作原理　260
训练SVD模型　261
处理流程　261
工作原理　262
更多内容　263
测试SVD模型　264
处理流程　264
工作原理　264
更多内容　264
第10章　获取和定位Twitter数据（Python）　266
简介　266
创建Twitter应用　267
准备工作　268
处理流程　268
工作原理　271
参考资料　271
了解Twitter API v1．1　271
准备工作　272
处理流程　272
工作原理　273
更多内容　274
参考资料　275
获取粉丝和朋友信息　275
准备工作　275
处理流程　275
工作原理　277
更多内容　277
参考资料　278
提取Twitter用户档案　278
准备工作　278
处理流程　278
工作原理　279
更多内容　279
参考资料　280
避免Twitter速度限制　280
准备工作　280
处理流程　280
工作原理　281
存储JSON数据至硬盘　281
准备工作　282
处理流程　282
工作原理　282
安装MongoDB　283
准备工作　283
处理流程　283
工作原理　284
更多内容　284
参考资料　285
利用PyMongo将用户信息存入MongoDB　285
准备工作　285
处理流程　285
工作原理　286
探索用户地理信息　287
准备工作　287
处理流程　287
工作原理　289
更多内容　290
参考资料　290
利用Python绘制地理分布图　290
准备工作　290
处理流程　291
工作原理　292
更多内容　293
参考资料　294
第11章　利用NumPy和SciPy优化数值计算（Python）　295
简介　295
了解优化的步骤　297
处理流程　297
工作原理　297
更多内容　298
识别代码中常见性能瓶颈　298
处理流程　299
工作原理　299
通读代码　301
准备工作　302
处理流程　302
工作原理　302
参考资料　304
利用Unix time函数剖析Python代码　305
准备工作　305
处理流程　305
工作原理　306
参考资料　306
利用Python内建函数剖析Python代码　306
准备工作　306
处理流程　306
工作原理　307
参考资料　308
利用IPython %timeit函数剖析Python代码　308
处理流程　308
工作原理　309
利用line_profiler剖析Python代码　309
准备工作　310
处理流程　310
工作原理　311
更多内容　312
参考资料　312
摘取低处的（经过优化的）果实　312
准备工作　312
处理流程　312
工作原理　314
测试NumPy带来的性能提升　315
准备工作　315
处理流程　315
工作原理　316
更多内容　317
参考资料　317
用NumPy重写函数　317
准备工作　317
处理流程　318
工作原理　320
用NumPy优化最内层循环　322
准备工作　322
处理流程　322
工作原理　324
更多内容　325
· · · · · · (收起)

读后感

评分☆☆☆☆☆

为啥第一个project里边很多数据图做出来跟书里做出来的趋势甚至相反，不知道是我弄错了还是数据本身改动过…… 书是不错，上手容易，但如果对代码增加一点注释会更易懂。 ***********************************

评分☆☆☆☆☆

R语言方面：还可以，毕竟R语言作为数据科学的语言已经有很长的额历史了，各方面也都比较成熟了，而且我本身也有R语言基础所以读起来没什么问题，内容也还可以，不过当我转身开始学习Python的时候就出现问题了。 Python语言方面：首先全文都是2.X语言写的，如果你完全是从3.X开...

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

让我印象深刻的是，这本书在涉及软件工程实践和模型维护（MLOps）方面的讨论，显得异常单薄和过时。在当前行业趋势下，数据科学项目成功的关键越来越依赖于如何将模型稳定地集成到生产环境并进行持续监控。然而，这本书对容器化（如Docker）、持续集成/持续部署（CI/CD）在数据科学管道中的应用只是一笔带过，甚至没有提及Kubernetes在模型服务中的作用。它提供的部署方案，看起来更像是停留在几年前的独立脚本运行阶段，对于需要高可用性、A/B测试框架支持的现代系统来说，完全不够用。真正的“实战”意味着要面对模型漂移、数据新鲜度、资源弹性伸缩等一系列运维挑战。这本书似乎将重点过多地放在了“模型如何训练”上，而完全忽略了“模型如何存活”的问题。这种对工程化视角的缺失，使得这本书在很大程度上失去了对寻求职业发展的专业人士的指导意义，因为它没有提供通往工业级应用的路线图，只停留在了“能跑起来”的初级阶段。

评分☆☆☆☆☆

这本书的排版和组织逻辑，也让我这个注重效率的读者感到非常不适。内容之间的跳转显得有些生硬和突兀，仿佛是不同作者在不同时间点拼凑起来的章节集合。比如，前一页还在详细讲解如何使用Spark进行大规模数据聚合，下一页却突然跳跃到机器学习模型的可解释性（XAI）的哲学探讨，两者之间缺少必要的过渡或联系。这种结构上的碎片化，极大地干扰了读者的心流。实战的精髓在于流程的连贯性——从数据获取、探索、建模、评估到最终部署，每一步都应自然衔接，形成一个完整的“工作流”。但这本书的章节划分似乎更侧重于算法的分类，而非工作流程的推进。如果我只是想快速回顾一下模型部署的最佳实践，我得在大量的理论描述中来回翻找，效率极低。一本优秀的实战参考书，应该像一本维修手册，清晰地标明“问题 A 对应解决方案 B”，而不是像一本百科全书，将所有知识点平铺直叙，让读者自行去构建知识之间的桥梁。

评分☆☆☆☆☆

作为一名长期从事数据治理和数据质量工作的人员，我特别关注数据准备阶段的详尽指导。我希望一本“实战手册”能教会我如何处理那些最脏、最棘手的数据集。然而，这本书在数据清洗和预处理这部分的内容，实在让人感到力不从心。它用大概三章的篇幅覆盖了缺失值、异常值和数据标准化，但其提供的解决方案基本停留在Pandas的几个基础函数层面。比如，对于时间序列数据中的高频噪声，它没有提及任何平滑技术；对于文本数据中的领域特定术语处理，它也仅仅停留在基本的停用词移除。我阅读时最大的困惑是：这些处理步骤的决策逻辑在哪里？为什么在处理A数据集时应该使用均值填充，而在处理B数据集时却应该直接删除？这些“经验之谈”才是实战的精髓，但这本书回避了这些关键的判断过程。结果就是，我学到了一堆工具，却不知道在面对一个全新的、结构复杂的企业级数据集时，应该以何种顺序、何种力度去应用这些工具。与其说是手册，不如说它更像是一本“基础操作说明书”，缺乏面对真实世界数据混乱时的那种“排雷”智慧。

评分☆☆☆☆☆

这本号称“实战”的工具书，我拿到手的时候，心里其实是抱着极大的期待的。毕竟在当前这个数据爆炸的时代，一本能将理论与实践完美结合的手册，简直是救命稻草。然而，阅读体验却像是在走一个没有路标的迷宫。书中的代码示例大多是孤立的片段，缺乏一个连贯的业务场景来串联。比如说，讲到特征工程时，它罗列了十几种变换方法，但没有一个例子说明在处理特定类型（比如时间序列或者高维稀疏数据）时，哪种方法更具鲁棒性，或者说，在实际项目中，选择这些方法的权衡标准是什么。更令人困惑的是，很多章节的理论阐述过于抽象，像是直接从教科书上裁剪下来的，并没有真正体现出“手册”应有的那种即查即用、快速上手的实用价值。我试图跟着书中的步骤搭建一个端到端的预测模型，结果发现，光是环境配置和依赖库的版本冲突就能耗费我大量时间，书里对此几乎没有涉及，这对于初学者来说是极大的门槛。这本书更像是一本厚厚的理论集合，而非一本能带你快速解决实际问题的“拐杖”。真正实战派的读者需要的，是那些能展示“为什么这么做”以及“如果出现错误该怎么办”的深度剖析，而这些恰恰是本书中稀缺的宝贵经验。

评分☆☆☆☆☆

我花了整整一个周末时间，试图从中挖掘出一些可以立即应用到我目前负责的推荐系统优化中的新思路。坦白说，这本书的覆盖面非常广，从基础的统计学原理到复杂的深度学习架构都有涉猎，但这广度似乎是以牺牲深度为代价的。阅读过程中，我明显感觉到作者在处理那些前沿或小众算法时，讲解得相当浅尝辄止，更多的是给出公式或模型结构图，但对于算法背后的优化技巧、参数调优的“黑魔法”，却只字未提。例如，在讨论梯度提升树的变体时，它只是轻描淡写地提到了正则化和子采样，却没有深入探讨如何通过控制学习率和树的深度来平衡模型的偏差与方差，这在需要精细调校的生产环境中是致命的缺陷。这本书更适合那些刚刚完成入门课程，需要一个“知识点清单”来查漏补缺的读者。对于像我这样，已经在行业里摸爬滚打几年，急需突破现有性能瓶颈的人来说，这本书提供的价值有限，它更像是一个知识的“目录”，而不是一个解决问题的“工具箱”。总而言之，它的结构松散，重点不突出，难以引导读者进行有针对性的深入学习。

评分☆☆☆☆☆

借了这两本《数据科学实战手册》，天，简直就是互相抄袭//不行不行，弃了弃了，找视频看去

评分☆☆☆☆☆

读了和R相关的前半部分，但是由于数据没法下载，画地图的部分没法复现他的代码。。。

评分☆☆☆☆☆

没有看原著，看翻译后版本，感觉非常一般，简直是在浪费时间。当然这跟每个人学习的深度有关系。

评分☆☆☆☆☆

没有看原著，看翻译后版本，感觉非常一般，简直是在浪费时间。当然这跟每个人学习的深度有关系。

评分☆☆☆☆☆

都是实例，用处不大