数据科学实战

数据科学实战 pdf epub mobi txt 电子书 下载 2026

出版者:人民邮电出版社
作者:[美] Rachel Schutt
出品人:
页数:316
译者:冯凌秉
出版时间:2015-3
价格:79.00元
装帧:平装
isbn号码:9787115383495
丛书系列:图灵程序设计丛书
图书标签:
  • 数据科学
  • 数据分析
  • 数据挖掘
  • 机器学习
  • 大数据
  • 统计
  • 计算机
  • 数据
  • 数据科学
  • 实战
  • 机器学习
  • Python
  • 统计分析
  • 可视化
  • 大数据
  • 算法
  • 建模
  • 案例
想要找书就要到 小美书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

• 统计推断、探索性数据分析(EDA)及数据科学工作流程

• 算法

• 垃圾邮件过滤、朴素贝叶斯和数据清理

• 逻辑回归

• 金融建模

• 推荐引擎和因果关系

• 数据可视化

• 社交网络与数据新闻

• 数据工程、MapReduce、Pregel和Hadoop

沉浸式数据探索与决策之路 这是一本旨在引导读者深入理解数据价值、掌握数据分析核心技能,并最终将其转化为驱动业务增长的强大引擎的指南。本书摒弃了枯燥的理论堆砌,而是以实战为核心,通过大量真实案例和精心设计的实践练习,让读者在动手操作中掌握数据科学的精髓。 本书特色: 案例驱动,学以致用: 我们精选了来自不同行业的真实数据挑战,从营销分析、用户行为预测到金融风险评估,每一个章节都围绕一个具体的业务场景展开。读者将跟随作者的脚步,一步步拆解问题、分析数据,并最终提出切实可行的解决方案。这不仅仅是学习技术,更是学习如何用数据解决实际问题。 技术与业务的桥梁: 数据科学并非仅限于算法和代码。本书强调技术工具与业务理解的深度结合。在引入统计学、机器学习等技术概念时,我们会清晰地阐述其背后的业务逻辑和应用价值,确保读者能够理解“为什么”这样做,以及“这样做”能带来什么。 循序渐进,掌握流程: 从数据获取、清洗、探索性数据分析(EDA),到特征工程、模型选择、评估与部署,本书系统性地梳理了数据科学项目的全生命周期。每个阶段都配有详实的步骤和注意事项,帮助读者建立清晰的工作流程,避免在实践中迷失方向。 工具箱精选,效率至上: 我们将重点介绍在数据科学领域应用最广泛、最有效的开源工具和库,如 Python 生态中的 Pandas、NumPy、Scikit-learn、Matplotlib、Seaborn,以及 SQL 等。本书不仅仅是罗列函数,更侧重于讲解如何高效地使用这些工具来解决实际问题,提升数据处理和分析的效率。 深度探索,洞察本质: 在基础操作之上,本书将带领读者进入更深层次的数据洞察。我们将探讨如何识别数据中的模式、趋势和异常,如何进行有效的可视化来传达信息,以及如何运用统计学原理来验证假设和度量不确定性。 模型构建与优化,追求卓越: 对于机器学习模型的学习,我们不仅仅满足于调用现成的模型。本书会深入浅出地讲解不同模型的原理,并指导读者如何根据业务需求选择合适的模型,如何进行有效的特征选择和工程,以及如何通过交叉验证、参数调优等手段来优化模型性能,使其更具鲁棒性和预测能力。 结果解读与沟通,影响决策: 好的数据分析不仅在于得出结果,更在于如何将结果有效地传达给决策者。本书将指导读者如何清晰、简洁地解读模型输出,如何用图表和故事来讲述数据背后的含义,以及如何将分析结果转化为可操作的建议,从而真正地影响业务决策。 本书适合人群: 渴望掌握数据驱动决策的业务人员: 无论您是市场营销、产品管理、运营还是金融领域的专业人士,本书都能帮助您理解数据的力量,并将其转化为提升业务绩效的利器。 希望系统学习数据分析技术的初学者: 如果您是计算机科学、统计学、数学等相关专业的学生,或者希望转行进入数据科学领域的从业者,本书将为您打下坚实的基础。 寻求提升数据分析实战能力的开发者和工程师: 本书将帮助您将编程技能与数据分析方法相结合,开发出更智能、更具洞察力的应用。 所有对数据充满好奇,希望从海量信息中挖掘价值的探索者。 在本书中,您将不再是旁观者,而是数据世界的积极参与者。 您将学习如何: 从零开始构建一个完整的数据分析项目, 掌握每一个环节的关键技巧。 运用强大的编程工具, 高效地处理和转换各种规模的数据集。 通过直观的可视化手段, 揭示数据中隐藏的洞察,让复杂的数据呈现清晰的图景。 选择并应用适合的统计方法和机器学习模型, 解决实际的预测和分类问题。 评估模型的表现, 并理解其局限性,从而做出明智的决策。 将技术成果转化为有说服力的业务洞察, 驱动有意义的变革。 告别纸上谈兵,迎接真刀真枪的实战演练。 本书的内容精心设计,旨在让您在轻松的阅读体验中,不断地将所学知识应用于实际问题。每一页都凝聚着解决实际数据挑战的经验和智慧,期待与您一同踏上这段令人兴奋的数据探索之旅。

作者简介

作者简介:

Rachel Schutt

美国新闻集团旗下数据科学部门高级副总裁、哥伦比亚大学统计系兼职教授、约翰逊实验室高级研究科学家,同时也是哥伦比亚大学数据科学及工程研究所教育委员会的发起人之一。她曾在谷歌研究院工作数年,负责设计算法原型并通过建模理解用户行为。

Cathy O'Neil

约翰逊实验室高级数据科学家、哈佛大学数学博士、麻省理工学院数学系博士后、巴纳德学院教授,曾发表过大量算术代数几何方面的论文。他曾在著名的全球投资管理公司D.E. Shaw担任对冲基金金融师,后加入专门评估银行和对冲基金风险的软件公司RiskMetrics,个人博客:mathbabe.org。

译者简介:

冯凌秉

澳大利亚国立大学统计学博士,本科和研究生分别毕业于中南财经政法大学和中国人民大学。现在,他任职于江西财经大学金融管理国际研究院,任讲师、硕士生导师,研究方向为应用统计与金融计量。

王群锋

毕业于西安电子科技大学,现任职于IBM西安研发中心,从事下一代统计预测软件的开发运维工作。

目录信息

作者介绍   XII
关于封面图  XIII
前言  XIV
第1章 简介:什么是数据科学  1
1.1 大数据和数据科学的喧嚣  1
1.2 冲出迷雾  2
1.3 为什么是现在  3
1.4 数据科学的现状和历史  5
1.5 数据科学的知识结构  8
1.6 思维实验:元定义  10
1.7 什么是数据科学家  11
1.7.1 学术界对数据科学家的定义  12
1.7.2 工业界对数据科学家的定义  12
第2章 统计推断、探索性数据分析和数据科学工作流程  14
2.1 大数据时代的统计学思考  14
2.1.1 统计推断  15
2.1.2 总体和样本  16
2.1.3 大数据的总体和样本  17
2.1.4 大数据意味着大胆的假设  19
2.1.5 建模  21
2.2 探索性数据分析  26
2.2.1 探索性数据分析的哲学  27
2.2.2 练习:探索性数据分析  29
2.3 数据科学的工作流程  31
2.4 思维实验:如何模拟混沌  34
2.5 案例学习:RealDirect  35
2.5.1 RealDirect是如何赚钱的  36
2.5.2 练一练:RealDirect公司的数据策略  36
第3章 算法  39
3.1 机器学习算法  40
3.2 三大基本算法  41
3.2.1 线性回归模型  42
3.2.2 k 近邻模型(k-NN)  55
3.2.3 k 均值算法  64
3.3 练习:机器学习算法基础  68
3.4 总结  72
3.5 思维实验:关于统计学家的自动化  73
第4章 垃圾邮件过滤器、朴素贝叶斯与数据清理  74
4.1 思维实验:从实例中学习  74
4.1.1 线性回归为何不适用  75
4.1.2 k 近邻效果如何  77
4.2 朴素贝叶斯模型  78
4.2.1 贝叶斯法则  79
4.2.2 个别单词的过滤器  80
4.2.3 直通朴素贝叶斯  82
4.3 拉普拉斯平滑法  83
4.4 对比朴素贝叶斯和k 近邻  85
4.5 Bash代码示例  85
4.6 网页抓取:API和其他工具  87
4.7 Jake的练习题:文章分类问题中的朴素贝叶斯模型  88
第5章 逻辑回归  92
5.1 思维实验  93
5.2 分类器  94
5.2.1 运行时间  95
5.2.2 你自己  95
5.2.3 模型的可解释性  95
5.2.4 可扩展性  96
5.3 逻辑回归:一个来自M6D 的真实案例研究  96
5.3.1 点击模型  96
5.3.2 模型背后  97
5.3.3 α和β 的参数估计  99
5.3.4 牛顿法  101
5.3.5 随机梯度下降法  101
5.3.6 操练  101
5.3.7 模型评价  102
5.4 练习题  105
第6章 时间戳数据与金融建模  110
6.1 Kyle Teague与GetGlue公司  110
6.2 时间戳  112
6.2.1 探索性数据分析(EDA)  113
6.2.2 指标和新变量  117
6.2.3 下一步怎么做  117
6.3 轮到Cathy O'Neill了  118
6.4 思维实验  118
6.5 金融建模  119
6.5.1 样本期内外以及因果关系  120
6.5.2 金融数据处理  121
6.5.3 对数收益率  123
6.5.4 实例:标准普尔指数  124
6.5.5 如何衡量波动率  126
6.5.6 指数平滑法  128
6.5.7 金融模型的反馈  128
6.5.8 聊聊回归模型  130
6.5.9 先验信息量  130
6.5.10 一个小例子  131
6.6 练习:GetGlue提供的时间戳数据  134
第7章 从数据到结论  136
7.1 William Cukierski  136
7.1.1 背景介绍:数据科学竞赛  136
7.1.2 背景介绍:众包模式  137
7.2 Kaggle模式  139
7.2.1 Kaggle的参赛者  140
7.2.2 Kaggle的客户  141
7.3 思维实验:关于作业自动评分系统  143
7.4 特征选择  145
7.4.1 例子:留住用户  146
7.4.2 过滤型  149
7.4.3 包装型  149
7.4.4 决策树与嵌入型变量选择  151
7.4.5 熵  153
7.4.6 决策树算法  155
7.4.7 如何在决策树模型中处理连续性变量  156
7.4.8 随机森林  157
7.4.9 用户黏性:模型的预测能力与可解释性  159
7.5 David Huffaker:谷歌社会学研究的新方法  160
7.5.1 从描述性统计到预测模型  161
7.5.2 谷歌的社交研究  163
7.5.3 隐私保护  163
7.5.4 思维实验:如何消除用户的顾虑  164
第8章 构建面向大量用户的推荐引擎  165
8.1 一个真实的推荐引擎  166
8.1.1 最近邻算法回顾  167
8.1.2 最近邻模型的已知问题  168
8.1.3 超越近邻模型:基于机器学习的分类模型  169
8.1.4 高维度问题  171
8.1.5 奇异值分解(SVD)  172
8.1.6 关于SVD的重要特性  172
8.1.7 主成分分析(PCA)  173
8.1.8 交替最小二乘法  174
8.1.9 固定矩阵V,更新矩阵U  175
8.1.10 关于这些算法的一点思考  176
8.2 思维实验:如何过滤模型中的泡沫  176
8.3 练习:搭建自己的推荐系统  176
第9章 数据可视化与欺诈侦测  179
9.1 数据可视化的历史  179
9.1.1 Gabriel Tarde  180
9.1.2 Mark 的思维实验  181
9.2 到底什么是数据科学  181
9.2.1 Processing  182
9.2.2 Franco Moretti  182
9.3 一个数据可视化的方案实例  183
9.4 Mark 的数据可视化项目  186
9.4.1 《纽约时报》大厅里的可视化:Moveable Type  186
9.4.2 屏幕上的生命:Cascade可视化项目  188
9.4.3 Cronkite广场项目  189
9.4.4 eBay与图书网购  190
9.4.5 公共剧场里的“莎士比亚机”  192
9.4.6 这些展览的目的是什么  193
9.5 数据科学和风险  193
9.5.1 关于Square公司  194
9.5.2 支付风险  194
9.5.3 模型效果的评估问题  197
9.5.4 建模小贴士  200
9.6 数据可视化在Square  203
9.7 Ian的思维实验  204
9.8 关于数据可视化  204
第10章 社交网络与数据新闻学  207
10.1 Morning Analytics与社交网络  207
10.2 社交网络分析  209
10.3 关于社交网络分析的相关术语  209
10.3.1 如何衡量向心性  210
10.3.2 使用哪种向心性测度  211
10.4 思维实验  212
10.5 Morningside Analytics  212
10.6 从统计学的角度看社交网络分析  215
10.6.1 网络的表示方法与特征值向心度  215
10.6.2 随机网络的第一个例子:Erdos-Renyi模型  217
10.6.3 随机网络的第二个例子:指数随机网络图模型  217
10.7 数据新闻学  220
10.7.1 关于数据新闻学的历史回顾  220
10.7.2 数据新闻报告的写作:来自专家的建议  220
第11章 因果关系研究  222
11.1 相关性并不代表因果关系  223
11.1.1 对因果关系提问  223
11.1.2 干扰因子:一个关于在线约会网站的例子  224
11.2 OK Cupid的发现  225
11.3 黄金准则:随机化临床实验  226
11.4 A/B测试  228
11.5 退一步求其次:关于观察性研究  229
11.5.1 辛普森悖论  230
11.5.2 鲁宾因果关系模型  231
11.5.3 因果关系的可视化  232
11.5.4 定义:因果关系  233
11.6 三个小建议  235
第12章 流行病学  236
12.1 Madigan的学术背景  236
12.2 思维实验  237
12.3 统计学在现代  238
12.4 医学文献与观察性研究  238
12.5 分层法不解决干扰因子的问题  239
12.6 就没有更好的办法吗  241
12.7 研究性实验(OMOP)  242
12.8 最后的思维实验  246
第13章 从竞赛中学到的:数据泄漏和模型评价  247
13.1 Claudia作为数据科学家的知识结构  247
13.1.1 首席数据科学家的生活  248
13.1.2 作为一名女数据科学家  248
13.2 数据挖掘竞赛  249
13.3 如何成为出色的建模者  250
13.4 数据泄漏  250
13.4.1 市场预测  251
13.4.2 亚马逊案例学习:出手阔绰的顾客  251
13.4.3 珠宝抽样问题  251
13.4.4 IBM 客户锁定  252
13.4.5 乳腺癌检测  253
13.4.6 预测肺炎  253
13.5 如何避免数据泄漏  254
13.6 模型评价  255
13.6.1 准确度重要吗  256
13.6.2 概率的重要性,不是非0 即1  256
13.7 如何选择算法  259
13.8 最后一个例子  259
13.9 临别感言  260
第14章 数据工程:MapReduce、Pregel、Hadoop  261
14.1 关于David Crawshaw  262
14.2 思维实验  262
14.3 MapReduce  263
14.4 单词频率问题  264
14.5 其他MapReduce案例  267
14.6 Pregel  268
14.7 关于Josh Wills  269
14.8 思维实验  269
14.9 给数据科学家的话  269
14.9.1 数据丰富和数据匮乏  270
14.9.2 设计模型  270
14.10 算算Hadoop的经济账  270
14.10.1 Hadoop简介  271
14.10.2 Cloudera  271
14.11 Josh 的工作流程  272
14.12 如何开始使用Hadoop  272
第15章 听听学生们怎么说  273
15.1 重在过程  273
15.2 不再简单  274
15.3 援助之手  275
15.4 殊途同归  277
15.5 逢山开路,遇水架桥  279
15.6 作品展示  279
第16章 下一代数据科学家、自大狂和职业道德  281
16.1 前面都讲了些什么  281
16.2 什么是数据科学(再问一次)  282
16.3 谁是下一代的数据科学家  283
16.3.1 成为解决问题的人  284
16.3.2 培养软技能  284
16.3.3 成为提问者  285
16.4 做一个有道德感的数据科学家  286
16.5 对于职业生涯的建议  289
· · · · · · (收起)

读后感

评分

我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看...

评分

很喜欢此书,但首先要说这本书不是用来入门算法看的。 data science的方法是各种统计学计算机方法的综合,所以所有对统计学有较好的数理基础,对各种统计推断方法或数据挖掘算法有较好理解的童鞋可以通过翻阅此书,从各个角度打开对data science的认知。如果没有很好的相关知...  

评分

这本书蛮不错的,就是看的时候碰到一些小错误,记录如下,如果本书的编者看到了,也方便勘误。 P43 第11行 “事”改为“是” P45 第9行 “歌”改为“个” P52 图3-6说明文字第2行 “直”改为“致” P96 正文第6行 “Emprical”改为“Empirical” P103 倒数第4行 “...  

评分

很喜欢此书,但首先要说这本书不是用来入门算法看的。 data science的方法是各种统计学计算机方法的综合,所以所有对统计学有较好的数理基础,对各种统计推断方法或数据挖掘算法有较好理解的童鞋可以通过翻阅此书,从各个角度打开对data science的认知。如果没有很好的相关知...  

评分

很喜欢此书,但首先要说这本书不是用来入门算法看的。 data science的方法是各种统计学计算机方法的综合,所以所有对统计学有较好的数理基础,对各种统计推断方法或数据挖掘算法有较好理解的童鞋可以通过翻阅此书,从各个角度打开对data science的认知。如果没有很好的相关知...  

用户评价

评分

我是一名计算机专业的学生,对数据科学这个新兴领域充满了向往,但又觉得理论知识与实际应用之间存在一道鸿沟。《数据科学实战》这本书,就像一座连接理论与实践的桥梁,让我看到了清晰的学习路径。书中从最基础的数据类型和结构讲起,循序渐进地深入到机器学习的各种算法。我尤其喜欢其中关于“分类算法”的讲解,它详细对比了逻辑回归、决策树、随机森林、支持向量机等多种算法的原理、优缺点以及适用场景。书中提供的代码示例非常具有参考价值,我尝试着将书中的代码应用到我自己的课程项目中,发现效果显著。书中的案例也紧密结合了实际应用,比如“垃圾邮件检测”、“信用评分预测”等,让我对数据科学在解决现实问题中的能力有了更直观的认识。这本书的语言风格也比较易懂,即使是对于初学者来说,也不会感到过于晦涩难懂,为我打开了数据科学的大门,让我对未来的学习和职业发展充满了信心。

评分

拿到《数据科学实战》这本书,刚翻开目录就被厚重的篇幅和细致的章节划分吸引了。我是一个对数据分析充满好奇,但又常常在理论和实际之间感到迷茫的学习者。之前尝试过一些零散的在线课程和文章,但总觉得缺乏一个系统性的框架来指引我。这本书给我的第一感觉就是“扎实”。它不像市面上很多速成型的书籍,只是蜻蜓点水地介绍概念,而是深入到每一个环节,从数据的采集、清洗、探索性分析,到模型构建、评估和部署,都给予了详尽的阐述。我特别欣赏它在“数据清洗”这一章节中的篇幅和案例。在实际工作中,我们遇到的数据往往是杂乱无章的,缺失值、异常值、格式不一致等问题层出不穷,直接影响后续的分析结果。这本书不仅列举了各种常见的数据问题,还提供了多种行之有效的处理方法,并且附带了Python代码示例,让我可以边看边练。这种“知其然,更知其所以然”的讲解方式,让我对数据处理有了更深刻的理解,也更有信心去应对实际项目中的挑战。

评分

我是一名独立的研究者,经常需要处理各种复杂的数据集,并从中挖掘有意义的模式。《数据科学实战》这本书,为我提供了一个非常全面且实用的参考。它涵盖了从数据预处理到模型解释的整个生命周期,尤其是在“特征工程”和“模型评估与选择”这两个部分,给我留下了深刻的印象。书中对于如何构建有效的特征、如何避免过拟合、如何选择最适合的评估指标等方面,都提供了非常详尽的指导和实用的技巧。我之前在处理一些图像识别任务时,常常在特征提取上遇到瓶颈,而这本书中关于图像特征提取的介绍,为我提供了新的思路。此外,书中关于“模型可解释性”的讨论,也让我受益匪浅。在科学研究中,理解模型为何做出某种预测,往往比预测本身更重要。这本书让我对数据科学的整个流程有了更系统的认识,也为我独立开展更复杂的数据分析项目提供了坚实的基础。

评分

作为一个已经在一线摸爬滚打了几年的数据工程师,我总是在寻找能够提升我工作效率和拓宽技术视野的工具和方法。《数据科学实战》这本书,恰恰满足了我的这一需求。它不仅仅是一本理论书籍,更像是一本“工具箱”。我惊喜地发现,书中几乎涵盖了我在日常工作中会用到的主流数据科学库和框架,比如Pandas、NumPy、Scikit-learn,甚至还涉及了像Spark这样的大数据处理工具。更难能可贵的是,书中并没有简单地罗列API,而是通过一个个精心设计的“实战”项目,展示了如何将这些工具融会贯通,解决实际问题。例如,其中关于“用户画像构建”的章节,详细演示了如何从海量的用户行为数据中提取有价值的信息,构建出精准的用户画像,这对于我们提升精准营销和个性化推荐至关重要。书中对于模型评估指标的选取和解读也十分到位,避免了许多初学者容易犯的“只看准确率”的错误。这本书对我来说,更像是一位经验丰富的老兵,分享了他在实战中的宝贵经验和技巧,让我受益匪浅。

评分

作为一名市场分析师,我一直致力于通过数据来洞察市场趋势,指导业务决策。《数据科学实战》这本书,为我提供了一个全新的视角和强大的工具集。它不仅讲解了如何进行描述性统计分析,更深入地介绍了预测性建模和规范性分析的应用。我特别关注书中关于“时间序列分析”和“用户流失预测”的章节。在快速变化的市场环境中,准确预测未来的销售趋势和客户行为至关重要。书中对于 ARIMA 模型、Prophet 模型等时间序列模型的讲解,以及如何构建和评估流失预测模型,都给我带来了极大的启发。它提供的案例分析,让我看到了如何将这些技术应用于实际的营销活动中,例如通过预测用户流失风险,提前进行干预,从而降低客户流失率。这本书让我意识到,数据科学不仅仅是技术人员的领域,它更是能够为业务增长带来实际价值的强大驱动力,让我对如何更好地利用数据赋能业务有了更深刻的理解。

评分

主要指明大数据的应用领域, 偏应用范畴, 对Data Scientist来说很赞...

评分

很不错的一本湿货,翻译好的没话说,连“无厘头”都被翻出来了,很想知道原文是不是nonsense。。。以后还会翻看里面的R程序

评分

结合一线数据科学家日常工作的一手资料,在山顶眺望全局,非工具书,也有不明觉厉之处,但对打开视野大有裨益,技能和方法岂是朝夕之间,实战嘛,纸上得来终觉浅

评分

很不错的一本湿货,翻译好的没话说,连“无厘头”都被翻出来了,很想知道原文是不是nonsense。。。以后还会翻看里面的R程序

评分

看后依旧手无寸铁,却隐约有了去挖矿打铁器的动力。随便摘抄一段:下一代数据科学家会怎么做?1. 对一切保持怀疑态度:怀疑模型本身,模型在什么情况下会失败,如何使用,因何会被无用;2. 认识到「模型的反馈循环与潜在模型之间的博弈」

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2026 book.quotespace.org All Rights Reserved. 小美书屋 版权所有