Python机器学习基础教程

Python机器学习基础教程 pdf epub mobi txt 电子书 下载 2026

出版者:人民邮电出版社
作者:[德]安德里亚斯·穆勒
出品人:
页数:300
译者:张亮
出版时间:2018-1
价格:79.00元
装帧:平装
isbn号码:9787115475619
丛书系列:
图书标签:
  • 机器学习
  • Python
  • MachineLearning
  • python
  • 数据分析
  • 人工智能
  • 计算机科学
  • 计算机
  • Python
  • 机器学习
  • 基础教程
  • 入门
  • 数据分析
  • 算法
  • Scikit-learn
  • 模型
  • 实践
  • 代码
想要找书就要到 小美书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

本书是机器学习入门书,以Python语言介绍。主要内容包括:机器学习的基本概念及其应用;实践中最常用的机器学习算法以及这些算法的优缺点;在机器学习中待处理数据的呈现方式的重要性,以及应重点关注数据的哪些方面;模型评估和调参的高级方法,重点讲解交叉验证和网格搜索;管道的概念;如何将前面各章的方法应用到文本数据上,还介绍了一些文本特有的处理方法。

作者简介

Andreas C. Müller

scikit-learn库维护者和核心贡献者。现任哥伦比亚大学数据科学研究院讲师,曾任纽约大学数据科学中心助理研究员、亚马逊公司计算机视觉应用的机器学习研究员。在波恩大学获得机器学习博士学位。

Sarah Guido

Mashable公司数据科学家,曾担任Bitly公司首席数据科学家。

目录信息

前言  ix
第1章 引言  1
1.1 为何选择机器学习  1
1.1.1 机器学习能够解决的问题  2
1.1.2 熟悉任务和数据  4
1.2 为何选择Python  4
1.3 scikit-learn  4
1.4 必要的库和工具  5
1.4.1 Jupyter Notebook  6
1.4.2 NumPy  6
1.4.3 SciPy  6
1.4.4 matplotlib  7
1.4.5 pandas  8
1.4.6 mglearn  9
1.5 Python 2与Python 3的对比  9
1.6 本书用到的版本  10
1.7 第一个应用:鸢尾花分类  11
1.7.1 初识数据  12
1.7.2 衡量模型是否成功:训练数据与测试数据  14
1.7.3 要事第一:观察数据  15
1.7.4 构建第一个模型:k近邻算法  16
1.7.5 做出预测  17
1.7.6 评估模型  18
1.8 小结与展望  19
第2章 监督学习  21
2.1 分类与回归  21
2.2 泛化、过拟合与欠拟合  22
2.3 监督学习算法  24
2.3.1 一些样本数据集  25
2.3.2 k 近邻  28
2.3.3 线性模型  35
2.3.4 朴素贝叶斯分类器  53
2.3.5 决策树  54
2.3.6 决策树集成  64
2.3.7 核支持向量机  71
2.3.8 神经网络(深度学习)  80
2.4 分类器的不确定度估计  91
2.4.1 决策函数  91
2.4.2 预测概率  94
2.4.3 多分类问题的不确定度  96
2.5 小结与展望  98
第3章 无监督学习与预处理  100
3.1 无监督学习的类型  100
3.2 无监督学习的挑战  101
3.3 预处理与缩放  101
3.3.1 不同类型的预处理  102
3.3.2 应用数据变换  102
3.3.3 对训练数据和测试数据进行相同的缩放  104
3.3.4 预处理对监督学习的作用  106
3.4 降维、特征提取与流形学习  107
3.4.1 主成分分析  107
3.4.2 非负矩阵分解  120
3.4.3 用t-SNE进行流形学习  126
3.5 聚类  130
3.5.1 k 均值聚类  130
3.5.2 凝聚聚类  140
3.5.3 DBSCAN  143
3.5.4 聚类算法的对比与评估  147
3.5.5 聚类方法小结  159
3.6 小结与展望  159
第4章 数据表示与特征工程  161
4.1 分类变量  161
4.1.1 One-Hot编码(虚拟变量)  162
4.1.2 数字可以编码分类变量  166
4.2 分箱、离散化、线性模型与树  168
4.3 交互特征与多项式特征  171
4.4 单变量非线性变换  178
4.5 自动化特征选择  181
4.5.1 单变量统计  181
4.5.2 基于模型的特征选择  183
4.5.3 迭代特征选择  184
4.6 利用专家知识  185
4.7 小结与展望  192
第5章 模型评估与改进  193
5.1 交叉验证  194
5.1.1 scikit-learn中的交叉验证  194
5.1.2 交叉验证的优点  195
5.1.3 分层k 折交叉验证和其他策略  196
5.2 网格搜索  200
5.2.1 简单网格搜索  201
5.2.2 参数过拟合的风险与验证集  202
5.2.3 带交叉验证的网格搜索  203
5.3 评估指标与评分  213
5.3.1 牢记最终目标  213
5.3.2 二分类指标  214
5.3.3 多分类指标  230
5.3.4 回归指标  232
5.3.5 在模型选择中使用评估指标  232
5.4 小结与展望  234
第6章 算法链与管道  236
6.1 用预处理进行参数选择  237
6.2 构建管道  238
6.3 在网格搜索中使用管道  239
6.4 通用的管道接口  242
6.4.1 用make_pipeline方便地创建管道  243
6.4.2 访问步骤属性  244
6.4.3 访问网格搜索管道中的属性  244
6.5 网格搜索预处理步骤与模型参数  246
6.6 网格搜索选择使用哪个模型  248
6.7 小结与展望  249
第7章 处理文本数据  250
7.1 用字符串表示的数据类型  250
7.2 示例应用:电影评论的情感分析  252
7.3 将文本数据表示为词袋  254
7.3.1 将词袋应用于玩具数据集  255
7.3.2 将词袋应用于电影评论  256
7.4 停用词  259
7.5 用tf-idf缩放数据  260
7.6 研究模型系数  263
7.7 多个单词的词袋(n元分词)  263
7.8 高级分词、词干提取与词形还原  267
7.9 主题建模与文档聚类  270
7.10 小结与展望  277
第8章 全书总结  278
8.1 处理机器学习问题  278
8.2 从原型到生产  279
8.3 测试生产系统  280
8.4 构建你自己的估计器  280
8.5 下一步怎么走  281
8.5.1 理论  281
8.5.2 其他机器学习框架和包  281
8.5.3 排序、推荐系统与其他学习类型  282
8.5.4 概率建模、推断与概率编程  282
8.5.5 神经网络  283
8.5.6 推广到更大的数据集  283
8.5.7 磨练你的技术  284
8.6 总结  284
关于作者  285
关于封面  285
· · · · · · (收起)

读后感

评分

扫码关注公众号 「图灵的猫」,点击“学习资料”菜单,可以获得海量python、机器学习、深度学习书籍、课程资源,以及书中对应习题答案和代码。后台回复SSR更有机场节点相送~ 入门避坑指南 自学三年,基本无人带路,转专业的我自然是难上加难,踩过无数坑,走过很多弯路。这里我...

评分

扫码关注公众号 「图灵的猫」,点击“学习资料”菜单,可以获得海量python、机器学习、深度学习书籍、课程资源,以及书中对应习题答案和代码。后台回复SSR更有机场节点相送~ 入门避坑指南 自学三年,基本无人带路,转专业的我自然是难上加难,踩过无数坑,走过很多弯路。这里我...  

评分

扫码关注公众号 「图灵的猫」,点击“学习资料”菜单,可以获得海量python、机器学习、深度学习书籍、课程资源,以及书中对应习题答案和代码。后台回复SSR更有机场节点相送~ 入门避坑指南 自学三年,基本无人带路,转专业的我自然是难上加难,踩过无数坑,走过很多弯路。这里我...

评分

扫码关注公众号 「图灵的猫」,点击“学习资料”菜单,可以获得海量python、机器学习、深度学习书籍、课程资源,以及书中对应习题答案和代码。后台回复SSR更有机场节点相送~ 入门避坑指南 自学三年,基本无人带路,转专业的我自然是难上加难,踩过无数坑,走过很多弯路。这里我...  

评分

扫码关注公众号 「图灵的猫」,点击“学习资料”菜单,可以获得海量python、机器学习、深度学习书籍、课程资源,以及书中对应习题答案和代码。后台回复SSR更有机场节点相送~ 入门避坑指南 自学三年,基本无人带路,转专业的我自然是难上加难,踩过无数坑,走过很多弯路。这里我...

用户评价

评分

这本书,坦白讲,拿到手里的时候,我心里是有点打鼓的。毕竟“Python机器学习基础教程”这个书名,听起来就带着一股子学院派的严谨劲儿,生怕里面充斥着我这位业余爱好者望而生畏的复杂数学公式和晦涩难懂的理论推导。然而,当我翻开第一章,那种紧张感就奇迹般地消散了。作者的叙事方式极其平易近人,仿佛一位经验丰富的前辈,拉着你一起,从最基础的Python环境配置讲起,步步为营。他没有一上来就抛出“梯度下降”或者“反向传播”这些听起来高大上的术语,而是先用非常直观的例子,比如房价预测或者垃圾邮件分类,来阐释机器学习的**核心思想**——让机器从数据中学习规律。这种先建立直觉理解,再逐步引入技术细节的编排,简直是为初学者量身定做。我尤其欣赏的是,每当介绍一个新的算法,比如K近邻或者决策树,书中都会附带一份清晰的代码实现,代码注释详尽到让你感觉作者就在你身边手把手教你运行。这使得理论和实践之间没有产生任何鸿沟,我能够立刻看到理论是如何转化为可执行的程序的。对于一个想从“听说过机器学习”过渡到“能动手跑模型”的人来说,这本书提供的这种无缝衔接的体验,是教科书级别的。

评分

我是一位有着多年软件开发经验的工程师,转岗到数据科学领域已经有一段时间了,但总感觉在算法的“内涵”上还欠缺那么一把火候。市面上很多入门书籍,要么对代码实现过于简化,很多关键步骤含糊其辞,要么就是将理论讲得天花乱坠,但一到实操层面,库的调用方式就变了样,让人无所适从。这本书的出现,恰好填补了我对“深度”和“广度”之间平衡的渴望。它在讲解经典模型时,对于底层逻辑的剖析达到了令人称赞的深度,例如在讲解支持向量机(SVM)的核函数变换时,作者没有满足于仅仅展示`sklearn`中的参数设置,而是深入探讨了在高维空间中实现线性可分性的几何意义。这种对**“为什么”**的深入挖掘,远超我预期的“基础教程”范围。更重要的是,它非常注重工程实践中的陷阱与优化。书中专门辟出一章讨论了数据预处理中的特征缩放和缺失值处理策略的优劣,并给出了实际项目中的性能对比数据。这对于我们这些需要将模型部署到生产环境的开发者来说,是极其宝贵的财富,远比单纯停留在Jupyter Notebook里的Toy Example要有价值得多。

评分

说实话,我买这本书的时候,是带着一点批判性的眼光去审视的,因为我发现很多“基础”读物在处理**模型评估与选择**这块内容时,往往一带而过,只教你算准确率(Accuracy),却不深入讲解为什么在类别不平衡问题上,准确率会具有误导性。这本书在这方面做得非常出色,可以说是这本书的“灵魂”所在。作者用了一个完整的、真实的医疗诊断数据集案例,系统地演示了如何使用混淆矩阵、精确率(Precision)、召回率(Recall)以及F1分数来全面评估模型的性能。他甚至细致地对比了不同评估指标在不同业务场景下的适用性,比如在某种疾病的早期筛查中,我们宁愿牺牲一点精确率来保证高召回率,因为漏诊的代价太高昂。这种**以业务驱动模型评估**的视角,彻底颠覆了我过去那种只关注模型参数调整的狭隘思路。此外,书中关于交叉验证(Cross-Validation)的讲解,也比我之前看过的任何资料都要清晰,它不仅解释了K折交叉验证的步骤,还解释了为什么它能有效减少模型对方差的依赖性。

评分

我过去尝试过几本号称“入门”的书,它们要么是代码库的API手册,你照着敲不出错,但一遇到实际问题就束手无策;要么就是理论堆砌,让你感觉自己像是在啃一本厚厚的概率论教材。这本书最可贵之处在于其**思维框架的构建**,它不仅仅是在教你工具的使用,更是在培养一种数据科学家的思维习惯。例如,在介绍无监督学习的聚类算法(如K-Means)时,作者没有急于展示代码,而是先深入探讨了“什么是好的聚类”,并详细对比了肘部法则和轮廓系数在确定最优K值时的差异和局限性。这种从**问题定义到方法选择,再到结果验证**的完整闭环思考流程,是任何一本仅仅罗列算法的教材所不具备的。它让我意识到,机器学习不是一个简单的“输入数据,得到模型”的黑箱操作,而是一个需要不断假设、检验、修正的迭代过程。这本书真正做到了“授人以渔”,它给我打开了一扇窗,让我看到了如何以一种系统化、批判性的方式去面对未来遇到的任何一个机器学习挑战。

评分

对于一个对数据可视化有强烈偏好的读者来说,这本书简直是视觉享受。我一直认为,好的数据分析工作,必须要有清晰的图表来支撑,而很多机器学习的书籍,在可视化方面常常显得苍白无力,要么就是千篇一律的散点图和柱状图。这本书则完全不同,它将**数据探索(EDA)**提升到了与模型构建同等重要的地位。在讲解线性回归时,作者不仅展示了拟合的直线,还利用matplotlib和seaborn库,绘制了残差图,并清晰地指出了残差的异方差性问题,并进而引出了使用鲁棒回归方法的必要性。最让我眼前一亮的是,书中对高维数据的可视化处理技巧——比如使用主成分分析(PCA)降维后进行二维可视化,以及如何利用T-SNE来观察聚类结果的紧密程度。这些图表不仅仅是装饰,它们是帮助读者理解数据分布、模型拟合优劣的关键工具。作者在每一章的实践部分,都强调了“先看图,再写代码”的分析流程,这种强调直觉与视觉反馈的教学方法,极大地提升了我的学习效率和对结果的信任度。

评分

偏向实践方向的sklearn介绍的书籍。

评分

scikit-learn库核心贡献者所写,介绍了很多经典机器学习算法。

评分

scikit-learn库核心贡献者所写,介绍了很多经典机器学习算法。

评分

scikit-learn库核心贡献者所写,介绍了很多经典机器学习算法。

评分

过于简单粗暴了????????......

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2026 book.quotespace.org All Rights Reserved. 小美书屋 版权所有