1 机器学习入门 ....................................................................................................... 1
1.1 什么是机器学习 ........................................................................................... 1
1.1.1 人类学习 VS 机器学习.................................................................. 1
1.1.2 机器学习三要素 ............................................................................... 3
1.2 什么问题适合用机器学习方法解决 ........................................................... 5
1.2.1 必备条件 .......................................................................................... 5
1.2.2 机器学习可解决的问题 ................................................................... 7
1.3 机器学习的过程 ........................................................................................... 9
1.3.1 机器学习的三个阶段 ....................................................................... 9
1.3.2 模型的训练及选择 ......................................................................... 11
1.4 机器学习的类型 ......................................................................................... 12
1.4.1 有监督学习..................................................................................... 13
1.4.2 无监督学习..................................................................................... 14
1.4.3 半监督学习..................................................................................... 14
1.4.4 强化学习 ........................................................................................ 15
1.5 产品经理的经验之谈 ................................................................................. 16
2 数据的准备工作 ................................................................................................. 18
2.1 数据预处理 ................................................................................................. 18
2.1.1 为什么要做数据预处理 ................................................................. 18
2.1.2 数据清洗 ........................................................................................ 20
2.1.3 数据集成 ........................................................................................ 23
2.1.4 数据变换 ........................................................................................ 24
2.1.5 数据归约 ........................................................................................ 26
2.2 特征工程 ..................................................................................................... 27
2.2.1 如何进行特征工程 ......................................................................... 27
2.2.2 特征构建 ........................................................................................ 27
2.2.3 特征提取 ........................................................................................ 28
2.2.4 特征选择 ........................................................................................ 31
2.3 产品经理的经验之谈 ................................................................................. 34
3 了解你手上的数据 ............................................................................................ 36
3.1 你真的了解数据吗 ..................................................................................... 36
3.1.1 机器学习的数据统计思维 ............................................................. 36
3.1.2 数据集 ............................................................................................ 37
3.1.3 数据维度 ........................................................................................ 41
3.1.4 数据类型 ........................................................................................ 42
3.2 让数据更直观的方法 ................................................................................. 43
3.2.1 直方图 ............................................................................................ 43
3.2.2 散点图 ............................................................................................ 44
3.3 常用的评价模型效果指标 ......................................................................... 45
3.3.1 混淆矩阵 ........................................................................................ 45
3.3.2 准确率 ............................................................................................ 46
3.3.3 精确率与召回率 ............................................................................. 47
3.3.4 F 值 ................................................................................................. 49
3.3.5 ROC 曲线 ....................................................................................... 50
3.3.6 AUC 值 ........................................................................................... 54
3.4 产品经理的经验之谈 ................................................................................. 55
4 趋势预测专家:回归分析 ................................................................................ 57
4.1 什么是回归分析 ......................................................................................... 57
4.2 线性回归 ..................................................................................................... 58
4.2.1 一元线性回归 ................................................................................. 58
4.2.2 多元线性回归 ................................................................................. 63
4.3 如何评价回归模型的效果 ......................................................................... 66
4.4 逻辑回归 ..................................................................................................... 68
4.4.1 从线性到非线性 ............................................................................. 68
4.4.2 引入 Sigmoid 函数 ......................................................................... 71
4.5 梯度下降法 ................................................................................................. 74
4.5.1 梯度下降原理 ................................................................................. 74
4.5.2 梯度下降的特点 ............................................................................. 76
4.6 产品经理的经验之谈 ................................................................................. 77
5 最容易理解的分类算法:决策树 ................................................................... 79
5.1 生活中的决策树 ......................................................................................... 79
5.2 决策树原理 ................................................................................................. 80
5.3 决策树实现过程 ......................................................................................... 82
5.3.1 ID3 算法 ......................................................................................... 83
5.3.2 决策树剪枝..................................................................................... 86
5.4 ID3 算法的限制与改进 .............................................................................. 88
5.4.1 ID3 算法存在的问题 ..................................................................... 88
5.4.2 C4.5 算法的出现 ............................................................................ 89
5.4.3 CART 算法 ..................................................................................... 95
5.4.4 三种树的对比 ................................................................................. 97
5.5 决策树的应用 ............................................................................................. 98
5.6 产品经理的经验之谈 ................................................................................. 99
6 垃圾邮件克星:朴素贝叶斯算法 ................................................................. 101
6.1 什么是朴素贝叶斯 ................................................................................... 101
6.1.1 一个流量预测的场景 ................................................................... 101
6.1.2 朴素贝叶斯登场 ........................................................................... 102
6.2 朴素贝叶斯如何计算 ............................................................................... 103
6.2.1 理论概率与条件概率 ................................................................... 103
6.2.2 引入贝叶斯定理 ........................................................................... 105
6.2.3 贝叶斯定理有什么用 ................................................................... 107
6.3 朴素贝叶斯的实际应用 ........................................................................... 108
6.3.1 垃圾邮件的克星 ........................................................................... 108
6.3.2 朴素贝叶斯的实现过程 ............................................................... 111
6.4 进一步的提升 ........................................................................................... 112
6.4.1 词袋子困境................................................................................... 112
6.4.2 多项式模型与伯努利模型 ........................................................... 113
6.5 产品经理的经验之谈 ............................................................................... 114
7 模拟人类思考过程:神经网络 ...................................................................... 116
7.1 最简单的神经元模型 ............................................................................... 116
7.1.1 从生物学到机器学习 ................................................................... 116
7.1.2 神经元模型................................................................................... 118
7.2 感知机 ....................................................................................................... 121
7.2.1 基础感知机原理 ........................................................................... 121
7.2.2 感知机的限制 ............................................................................... 125
7.3 多层神经网络与误差逆传播算法 ........................................................... 126
7.3.1 从单层到多层神经网络 ............................................................... 126
7.3.2 巧用 BP 算法解决计算问题 ........................................................ 128
7.4 RBF 神经网络 .......................................................................................... 132
7.4.1 全连接与局部连接 ....................................................................... 132
7.4.2 改变激活函数 ............................................................................... 134
7.5 产品经理的经验之谈 ............................................................................... 136
8 求解支持向量机 ............................................................................................... 138
8.1 线性支持向量机 ....................................................................................... 138
8.1.1 区分咖啡豆................................................................................... 138
8.1.2 支持向量来帮忙 ........................................................................... 139
8.2 线性支持向量机推导过程 ....................................................................... 140
8.2.1 SVM 的数学定义 ......................................................................... 140
8.2.2 拉格朗日乘子法 ........................................................................... 143
8.2.3 对偶问题求解 ............................................................................... 146
8.2.4 SMO 算法 ..................................................................................... 147
8.3 非线性支持向量机与核函数 ................................................................... 148
8.4 软间隔支持向量机 ................................................................................... 150
8.5 支持向量机的不足之处 ........................................................................... 152
8.6 产品经理的经验之谈 ............................................................................... 153
9 要想模型效果好,集成算法少不了 ............................................................. 155
9.1 个体与集成 ............................................................................................... 155
9.1.1 三个臭皮匠赛过诸葛亮 ............................................................... 155
9.1.2 人多一定力量大吗 ....................................................................... 157
9.2 Boosting 族算法 ....................................................................................... 158
9.2.1 Boosting 是什么 ........................................................................... 158
9.2.2 AdaBoost 如何增强 ...................................................................... 160
9.2.3 梯度下降与决策树集成 ............................................................... 163
9.3 Bagging 族算法 ........................................................................................ 166
9.3.1 Bagging 是什么 ............................................................................ 166
9.3.2 随机森林算法 ............................................................................... 168
9.4 两类集成算法的对比 ............................................................................... 171
9.5 产品经理的经验之谈 ............................................................................... 173
10 透过现象看本质,全靠降维来帮忙 ......................................................... 175
10.1 K 近邻学习法 ......................................................................................... 175
10.1.1 “人以群分”的算法 ................................................................. 175
10.1.2 如何实现 KNN 算法 ................................................................ 176
10.2 从高维到低维的转换 ............................................................................. 178
10.2.1 维数过高带来的问题 ............................................................... 178
10.2.2 什么是降维 ............................................................................... 179
10.3 主成分分析法 ......................................................................................... 180
10.3.1 PCA 原理 .................................................................................. 180
10.3.2 PCA 的特点与作用 .................................................................. 184
10.4 线性判别分析法 ..................................................................................... 186
10.5 流形学习算法 ......................................................................................... 189
10.6 产品经理的经验之谈 ............................................................................. 193
11 图像识别与卷积神经网络 ........................................................................... 195
11.1 图像识别的准备工作 ............................................................................. 195
11.1.1 从电影走进现实 ....................................................................... 195
11.1.2 图像的表达 ............................................................................... 196
11.1.3 图像采集与预处理 ................................................................... 199
11.2 卷积神经网络 ......................................................................................... 202
11.2.1 卷积运算 ................................................................................... 202
11.2.2 什么是卷积神经网络 ............................................................... 205
11.3 人脸识别技术 ......................................................................................... 211
11.3.1 人脸检测 ................................................................................... 211
11.3.2 人脸识别 ................................................................................... 212
11.3.3 人脸识别的效果评价方法 ....................................................... 214
11.4 产品经理的经验之谈 ............................................................................. 215
12 自然语言处理与循环神经网络 .................................................................. 217
12.1 自然语言处理概述 ................................................................................. 217
12.1.1 什么是自然语言处理 ............................................................... 217
12.1.2 为什么计算机难以理解语言 ................................................... 219
12.2 初识循环神经网络 ................................................................................. 220
12.2.1 CNN 为什么不能处理文本 ...................................................... 220
12.2.2 循环神经网络登场 ................................................................... 222
12.2.3 RNN 的结构 ............................................................................. 224
12.3 RNN 的实现方式 ................................................................................... 228
12.3.1 引入 BPTT 求解 RNN .............................................................. 228
12.3.2 梯度消失问题 ........................................................................... 230
12.4 RNN 的提升 ........................................................................................... 231
12.4.1 长期依赖问题 ........................................................................... 231
12.4.2 处理长序列能手——LSTM .................................................... 232
12.5 产品经理的经验之谈 ............................................................................. 235
13 AI 绘画与生成对抗网络 ............................................................................. 237
13.1 初识生成对抗网络 ................................................................................. 237
13.1.1 猫和老鼠的游戏 ....................................................................... 237
13.1.2 生成网络是什么 ....................................................................... 240
13.1.3 判别检验 ................................................................................... 244
13.1.4 生成对抗的过程 ....................................................................... 244
13.2 生成对抗网络的应用 ............................................................................. 246
13.2.1 GAN 的特点 ............................................................................. 246
13.2.2 GAN 的应用场景 ..................................................................... 247
13.3 生成对抗网络的提升 ............................................................................. 249
13.3.1 强强联合的 DCGAN ................................................................ 249
13.3.2 通过 BEGAN 化繁为简 ........................................................... 251
13.3.3 对 GAN 的更多期待 ................................................................ 252
13.4 产品经理的经验之谈 ............................................................................. 253
参考资料 ................................................................................................................... 255
· · · · · · (
收起)