Pattern Recognition and Machine Learning

Pattern Recognition and Machine Learning pdf epub mobi txt 电子书 下载 2026

出版者:Springer
作者:Christopher Bishop
出品人:
页数:738
译者:
出版时间:2007-10-1
价格:USD 94.95
装帧:Hardcover
isbn号码:9780387310732
丛书系列:
图书标签:
  • 机器学习
  • 模式识别
  • 人工智能
  • 数据挖掘
  • 计算机
  • 计算机科学
  • MachineLearning
  • machine
  • Pattern Recognition
  • Machine Learning
  • Artificial Intelligence
  • Deep Learning
  • Statistics
  • Data Science
  • Neural Networks
  • Classification
  • Regression
  • Clustering
想要找书就要到 小美书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

The dramatic growth in practical applications for machine learning over the last ten years has been accompanied by many important developments in the underlying algorithms and techniques. For example, Bayesian methods have grown from a specialist niche to become mainstream, while graphical models have emerged as a general framework for describing and applying probabilistic techniques. The practical applicability of Bayesian methods has been greatly enhanced by the development of a range of approximate inference algorithms such as variational Bayes and expectation propagation, while new models based on kernels have had a significant impact on both algorithms and applications.

This completely new textbook reflects these recent developments while providing a comprehensive introduction to the fields of pattern recognition and machine learning. It is aimed at advanced undergraduates or first-year PhD students, as well as researchers and practitioners. No previous knowledge of pattern recognition or machine learning concepts is assumed. Familiarity with multivariate calculus and basic linear algebra is required, and some experience in the use of probabilities would be helpful though not essential as the book includes a self-contained introduction to basic probability theory.

The book is suitable for courses on machine learning, statistics, computer science, signal processing, computer vision, data mining, and bioinformatics. Extensive support is provided for course instructors, including more than 400 exercises, graded according to difficulty. Example solutions for a subset of the exercises are available from the book web site, while solutions for the remainder can be obtained by instructors from the publisher. The book is supported by a great deal of additional material, and the reader is encouraged to visit the book web site for the latest information.

《图解统计学:从数据到洞见》 内容简介: 你是否曾被海量的数据淹没,却不知从何下手?是否渴望理解那些图表中隐藏的规律,却苦于复杂的数学公式?《图解统计学:从数据到洞见》将带你踏上一场生动有趣的统计学探索之旅,用直观易懂的图示和清晰明了的语言,揭示统计学的核心概念和实用技巧。 本书并非枯燥的理论堆砌,而是聚焦于“理解”和“应用”。我们深知,统计学并非少数精英的专属领域,而是每个人在信息时代不可或缺的思维工具。因此,我们摒弃了繁琐的推导过程,转而通过大量精心设计的图表、生动的比喻和贴近生活的案例,将抽象的统计概念具象化。从最基础的描述性统计,如均值、中位数、标准差如何描述数据分布的“样子”,到推断性统计,如假设检验和置信区间如何帮助我们从样本窥探整体的奥秘,每一个环节都力求清晰、透彻。 本书将带领你: 可视化数据: 学习如何运用直方图、箱线图、散点图等多种图表形式,让数据“说话”,直观地展现数据的特征、趋势和关联。你会惊叹于图表所能传达的丰富信息,并学会如何选择最适合的图表来表达你的数据故事。 理解概率的魅力: 概率是统计学的基石。我们将用生动的故事和游戏,帮助你理解独立事件、条件概率、贝叶斯定理等核心概念,让你不再对“可能性”感到困惑,而是能用概率的思维去分析和预测。 掌握抽样的智慧: 现实世界中,我们往往无法观察所有数据。本书将深入浅出地讲解各种抽样方法,以及如何通过样本推断总体,让你理解“以小见大”的统计学原理,并学会如何规避常见的抽样偏差。 洞悉回归的本质: 回归分析是理解变量之间关系的金钥匙。我们将以简单的线性回归为例,一步步拆解其原理,让你学会如何建立模型,预测未知,并理解模型的局限性。 学会假设检验: 当面对各种“猜想”时,如何用数据来验证它们?本书将详细介绍假设检验的逻辑和步骤,让你能够客观地判断一个结果是否具有统计学意义,从而做出更明智的决策。 识别统计陷阱: 在信息爆炸的时代,数据可能被误读甚至滥用。我们将揭示常见的统计误区和“伪科学”,培养你的批判性思维,让你成为一个更精明的“数据消费者”。 谁适合阅读? 对数据充满好奇的初学者: 无论你是否有统计学背景,这本书都将为你打开一扇通往数据世界的大门。 需要处理日常数据的职场人士: 市场营销、金融分析、人力资源、产品运营……任何需要理解数据以做出决策的岗位,都能从本书中获益。 希望提升数据素养的学生: 学习统计学不再是负担,而是有趣且实用的技能。 热衷于生活常识和科普知识的读者: 了解统计学,能让你更深刻地理解新闻报道、科学研究和社会现象。 《图解统计学:从数据到洞见》是一本将严谨的统计学理论与轻松的学习体验完美结合的读物。我们相信,通过本书,你不仅能掌握统计学知识,更能培养一种基于数据的理性思维,让你在面对复杂的世界时,能够更加游刃有余,从纷繁复杂的数据中挖掘出真正有价值的洞见。准备好迎接一场视觉化的统计学冒险吧!

作者简介

Christopher M. Bishop is Deputy Director of Microsoft Research Cambridge, and holds a Chair in Computer Science at the University of Edinburgh. He is a Fellow of Darwin College Cambridge, a Fellow of the Royal Academy of Engineering, and a Fellow of the Royal Society of Edinburgh. His previous textbook "Neural Networks for Pattern Recognition" has been widely adopted.

目录信息

1 Introduction 1
1.1 Example: Polynomial Curve Fitting . . . . . . . . . . . . . . . . . 4
1.2 Probability Theory . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 Probability densities . . . . . . . . . . . . . . . . . . . . . 17
1.2.2 Expectations and covariances . . . . . . . . . . . . . . . . 19
1.2.3 Bayesian probabilities . . . . . . . . . . . . . . . . . . . . 21
1.2.4 The Gaussian distribution . . . . . . . . . . . . . . . . . . 24
1.2.5 Curve fitting re-visited . . . . . . . . . . . . . . . . . . . . 28
1.2.6 Bayesian curve fitting . . . . . . . . . . . . . . . . . . . . 30
1.3 Model Selection . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.4 The Curse of Dimensionality . . . . . . . . . . . . . . . . . . . . . 33
1.5 Decision Theory . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.5.1 Minimizing the misclassification rate . . . . . . . . . . . . 39
1.5.2 Minimizing the expected loss . . . . . . . . . . . . . . . . 41
1.5.3 The reject option . . . . . . . . . . . . . . . . . . . . . . . 42
1.5.4 Inference and decision . . . . . . . . . . . . . . . . . . . . 42
1.5.5 Loss functions for regression . . . . . . . . . . . . . . . . . 46
1.6 Information Theory . . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.6.1 Relative entropy and mutual information . . . . . . . . . . 55
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2 Probability Distributions 67
2.1 Binary Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.1.1 The beta distribution . . . . . . . . . . . . . . . . . . . . . 71
2.2 Multinomial Variables . . . . . . . . . . . . . . . . . . . . . . . . 74
2.2.1 The Dirichlet distribution . . . . . . . . . . . . . . . . . . . 76
2.3 The Gaussian Distribution . . . . . . . . . . . . . . . . . . . . . . 78
2.3.1 Conditional Gaussian distributions . . . . . . . . . . . . . . 85
2.3.2 Marginal Gaussian distributions . . . . . . . . . . . . . . . 88
2.3.3 Bayes’ theorem for Gaussian variables . . . . . . . . . . . . 90
2.3.4 Maximum likelihood for the Gaussian . . . . . . . . . . . . 93
2.3.5 Sequential estimation . . . . . . . . . . . . . . . . . . . . . 94
2.3.6 Bayesian inference for the Gaussian . . . . . . . . . . . . . 97
2.3.7 Student’s t-distribution . . . . . . . . . . . . . . . . . . . . 102
2.3.8 Periodic variables . . . . . . . . . . . . . . . . . . . . . . . 105
2.3.9 Mixtures of Gaussians . . . . . . . . . . . . . . . . . . . . 110
2.4 The Exponential Family . . . . . . . . . . . . . . . . . . . . . . . 113
2.4.1 Maximum likelihood and sufficient statistics . . . . . . . . 116
2.4.2 Conjugate priors . . . . . . . . . . . . . . . . . . . . . . . 117
2.4.3 Noninformative priors . . . . . . . . . . . . . . . . . . . . 117
2.5 Nonparametric Methods . . . . . . . . . . . . . . . . . . . . . . . 120
2.5.1 Kernel density estimators . . . . . . . . . . . . . . . . . . . 122
2.5.2 Nearest-neighbour methods . . . . . . . . . . . . . . . . . 124
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
3 Linear Models for Regression 137
3.1 Linear Basis Function Models . . . . . . . . . . . . . . . . . . . . 138
3.1.1 Maximum likelihood and least squares . . . . . . . . . . . . 140
3.1.2 Geometry of least squares . . . . . . . . . . . . . . . . . . 143
3.1.3 Sequential learning . . . . . . . . . . . . . . . . . . . . . . 143
3.1.4 Regularized least squares . . . . . . . . . . . . . . . . . . . 144
3.1.5 Multiple outputs . . . . . . . . . . . . . . . . . . . . . . . 146
3.2 The Bias-Variance Decomposition . . . . . . . . . . . . . . . . . . 147
3.3 Bayesian Linear Regression . . . . . . . . . . . . . . . . . . . . . 152
3.3.1 Parameter distribution . . . . . . . . . . . . . . . . . . . . 153
3.3.2 Predictive distribution . . . . . . . . . . . . . . . . . . . . 156
3.3.3 Equivalent kernel . . . . . . . . . . . . . . . . . . . . . . . 157
3.4 Bayesian Model Comparison . . . . . . . . . . . . . . . . . . . . . 161
3.5 The Evidence Approximation . . . . . . . . . . . . . . . . . . . . 165
3.5.1 Evaluation of the evidence function . . . . . . . . . . . . . 166
3.5.2 Maximizing the evidence function . . . . . . . . . . . . . . 168
3.5.3 Effective number of parameters . . . . . . . . . . . . . . . 170
3.6 Limitations of Fixed Basis Functions . . . . . . . . . . . . . . . . 172
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
4 Linear Models for Classification 179
4.1 Discriminant Functions . . . . . . . . . . . . . . . . . . . . . . . . 181
4.1.1 Two classes . . . . . . . . . . . . . . . . . . . . . . . . . . 181
4.1.2 Multiple classes . . . . . . . . . . . . . . . . . . . . . . . . 182
4.1.3 Least squares for classification . . . . . . . . . . . . . . . . 184
4.1.4 Fisher’s linear discriminant . . . . . . . . . . . . . . . . . . 186
4.1.5 Relation to least squares . . . . . . . . . . . . . . . . . . . 189
4.1.6 Fisher’s discriminant for multiple classes . . . . . . . . . . 191
4.1.7 The perceptron algorithm . . . . . . . . . . . . . . . . . . . 192
4.2 Probabilistic Generative Models . . . . . . . . . . . . . . . . . . . 196
4.2.1 Continuous inputs . . . . . . . . . . . . . . . . . . . . . . 198
4.2.2 Maximum likelihood solution . . . . . . . . . . . . . . . . 200
4.2.3 Discrete features . . . . . . . . . . . . . . . . . . . . . . . 202
4.2.4 Exponential family . . . . . . . . . . . . . . . . . . . . . . 202
4.3 Probabilistic Discriminative Models . . . . . . . . . . . . . . . . . 203
4.3.1 Fixed basis functions . . . . . . . . . . . . . . . . . . . . . 204
4.3.2 Logistic regression . . . . . . . . . . . . . . . . . . . . . . 205
4.3.3 Iterative reweighted least squares . . . . . . . . . . . . . . 207
4.3.4 Multiclass logistic regression . . . . . . . . . . . . . . . . . 209
4.3.5 Probit regression . . . . . . . . . . . . . . . . . . . . . . . 210
4.3.6 Canonical link functions . . . . . . . . . . . . . . . . . . . 212
4.4 The Laplace Approximation . . . . . . . . . . . . . . . . . . . . . 213
4.4.1 Model comparison and BIC . . . . . . . . . . . . . . . . . 216
4.5 Bayesian Logistic Regression . . . . . . . . . . . . . . . . . . . . 217
4.5.1 Laplace approximation . . . . . . . . . . . . . . . . . . . . 217
4.5.2 Predictive distribution . . . . . . . . . . . . . . . . . . . . 218
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
5 Neural Networks 225
5.1 Feed-forward Network Functions . . . . . . . . . . . . . . . . . . 227
5.1.1 Weight-space symmetries . . . . . . . . . . . . . . . . . . 231
5.2 Network Training . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
5.2.1 Parameter optimization . . . . . . . . . . . . . . . . . . . . 236
5.2.2 Local quadratic approximation . . . . . . . . . . . . . . . . 237
5.2.3 Use of gradient information . . . . . . . . . . . . . . . . . 239
5.2.4 Gradient descent optimization . . . . . . . . . . . . . . . . 240
5.3 Error Backpropagation . . . . . . . . . . . . . . . . . . . . . . . . 241
5.3.1 Evaluation of error-function derivatives . . . . . . . . . . . 242
5.3.2 A simple example . . . . . . . . . . . . . . . . . . . . . . 245
5.3.3 Efficiency of backpropagation . . . . . . . . . . . . . . . . 246
5.3.4 The Jacobian matrix . . . . . . . . . . . . . . . . . . . . . 247
5.4 The Hessian Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . 249
5.4.1 Diagonal approximation . . . . . . . . . . . . . . . . . . . 250
5.4.2 Outer product approximation . . . . . . . . . . . . . . . . . 251
5.4.3 Inverse Hessian . . . . . . . . . . . . . . . . . . . . . . . . 252
5.4.4 Finite differences . . . . . . . . . . . . . . . . . . . . . . . 252
5.4.5 Exact evaluation of the Hessian . . . . . . . . . . . . . . . 253
5.4.6 Fast multiplication by the Hessian . . . . . . . . . . . . . . 254
5.5 Regularization in Neural Networks . . . . . . . . . . . . . . . . . 256
5.5.1 Consistent Gaussian priors . . . . . . . . . . . . . . . . . . 257
5.5.2 Early stopping . . . . . . . . . . . . . . . . . . . . . . . . 259
5.5.3 Invariances . . . . . . . . . . . . . . . . . . . . . . . . . . 261
5.5.4 Tangent propagation . . . . . . . . . . . . . . . . . . . . . 263
5.5.5 Training with transformed data . . . . . . . . . . . . . . . . 265
5.5.6 Convolutional networks . . . . . . . . . . . . . . . . . . . 267
5.5.7 Soft weight sharing . . . . . . . . . . . . . . . . . . . . . . 269
5.6 Mixture Density Networks . . . . . . . . . . . . . . . . . . . . . . 272
5.7 Bayesian Neural Networks . . . . . . . . . . . . . . . . . . . . . . 277
5.7.1 Posterior parameter distribution . . . . . . . . . . . . . . . 278
5.7.2 Hyperparameter optimization . . . . . . . . . . . . . . . . 280
5.7.3 Bayesian neural networks for classification . . . . . . . . . 281
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
6 Kernel Methods 291
6.1 Dual Representations . . . . . . . . . . . . . . . . . . . . . . . . . 293
6.2 Constructing Kernels . . . . . . . . . . . . . . . . . . . . . . . . . 294
6.3 Radial Basis Function Networks . . . . . . . . . . . . . . . . . . . 299
6.3.1 Nadaraya-Watson model . . . . . . . . . . . . . . . . . . . 301
6.4 Gaussian Processes . . . . . . . . . . . . . . . . . . . . . . . . . . 303
6.4.1 Linear regression revisited . . . . . . . . . . . . . . . . . . 304
6.4.2 Gaussian processes for regression . . . . . . . . . . . . . . 306
6.4.3 Learning the hyperparameters . . . . . . . . . . . . . . . . 311
6.4.4 Automatic relevance determination . . . . . . . . . . . . . 312
6.4.5 Gaussian processes for classification . . . . . . . . . . . . . 313
6.4.6 Laplace approximation . . . . . . . . . . . . . . . . . . . . 315
6.4.7 Connection to neural networks . . . . . . . . . . . . . . . . 319
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
7 Sparse Kernel Machines 325
7.1 Maximum Margin Classifiers . . . . . . . . . . . . . . . . . . . . 326
7.1.1 Overlapping class distributions . . . . . . . . . . . . . . . . 331
7.1.2 Relation to logistic regression . . . . . . . . . . . . . . . . 336
7.1.3 Multiclass SVMs . . . . . . . . . . . . . . . . . . . . . . . 338
7.1.4 SVMs for regression . . . . . . . . . . . . . . . . . . . . . 339
7.1.5 Computational learning theory . . . . . . . . . . . . . . . . 344
7.2 Relevance Vector Machines . . . . . . . . . . . . . . . . . . . . . 345
7.2.1 RVM for regression . . . . . . . . . . . . . . . . . . . . . . 345
7.2.2 Analysis of sparsity . . . . . . . . . . . . . . . . . . . . . . 349
7.2.3 RVM for classification . . . . . . . . . . . . . . . . . . . . 353
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
8 Graphical Models 359
8.1 Bayesian Networks . . . . . . . . . . . . . . . . . . . . . . . . . . 360
8.1.1 Example: Polynomial regression . . . . . . . . . . . . . . . 362
8.1.2 Generative models . . . . . . . . . . . . . . . . . . . . . . 365
8.1.3 Discrete variables . . . . . . . . . . . . . . . . . . . . . . . 366
8.1.4 Linear-Gaussian models . . . . . . . . . . . . . . . . . . . 370
8.2 Conditional Independence . . . . . . . . . . . . . . . . . . . . . . 372
8.2.1 Three example graphs . . . . . . . . . . . . . . . . . . . . 373
8.2.2 D-separation . . . . . . . . . . . . . . . . . . . . . . . . . 378
8.3 Markov Random Fields . . . . . . . . . . . . . . . . . . . . . . . 383
8.3.1 Conditional independence properties . . . . . . . . . . . . . 383
8.3.2 Factorization properties . . . . . . . . . . . . . . . . . . . 384
8.3.3 Illustration: Image de-noising . . . . . . . . . . . . . . . . 387
8.3.4 Relation to directed graphs . . . . . . . . . . . . . . . . . . 390
8.4 Inference in Graphical Models . . . . . . . . . . . . . . . . . . . . 393
8.4.1 Inference on a chain . . . . . . . . . . . . . . . . . . . . . 394
8.4.2 Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
8.4.3 Factor graphs . . . . . . . . . . . . . . . . . . . . . . . . . 399
8.4.4 The sum-product algorithm . . . . . . . . . . . . . . . . . . 402
8.4.5 The max-sum algorithm . . . . . . . . . . . . . . . . . . . 411
8.4.6 Exact inference in general graphs . . . . . . . . . . . . . . 416
8.4.7 Loopy belief propagation . . . . . . . . . . . . . . . . . . . 417
8.4.8 Learning the graph structure . . . . . . . . . . . . . . . . . 418
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
9 Mixture Models and EM 423
9.1 K-means Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 424
9.1.1 Image segmentation and compression . . . . . . . . . . . . 428
9.2 Mixtures of Gaussians . . . . . . . . . . . . . . . . . . . . . . . . 430
9.2.1 Maximum likelihood . . . . . . . . . . . . . . . . . . . . . 432
9.2.2 EM for Gaussian mixtures . . . . . . . . . . . . . . . . . . 435
9.3 An Alternative View of EM . . . . . . . . . . . . . . . . . . . . . 439
9.3.1 Gaussian mixtures revisited . . . . . . . . . . . . . . . . . 441
9.3.2 Relation to K-means . . . . . . . . . . . . . . . . . . . . . 443
9.3.3 Mixtures of Bernoulli distributions . . . . . . . . . . . . . . 444
9.3.4 EM for Bayesian linear regression . . . . . . . . . . . . . . 448
9.4 The EM Algorithm in General . . . . . . . . . . . . . . . . . . . . 450
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
10 Approximate Inference 461
10.1 Variational Inference . . . . . . . . . . . . . . . . . . . . . . . . . 462
10.1.1 Factorized distributions . . . . . . . . . . . . . . . . . . . . 464
10.1.2 Properties of factorized approximations . . . . . . . . . . . 466
10.1.3 Example: The univariate Gaussian . . . . . . . . . . . . . . 470
10.1.4 Model comparison . . . . . . . . . . . . . . . . . . . . . . 473
10.2 Illustration: Variational Mixture of Gaussians . . . . . . . . . . . . 474
10.2.1 Variational distribution . . . . . . . . . . . . . . . . . . . . 475
10.2.2 Variational lower bound . . . . . . . . . . . . . . . . . . . 481
10.2.3 Predictive density . . . . . . . . . . . . . . . . . . . . . . . 482
10.2.4 Determining the number of components . . . . . . . . . . . 483
10.2.5 Induced factorizations . . . . . . . . . . . . . . . . . . . . 485
10.3 Variational Linear Regression . . . . . . . . . . . . . . . . . . . . 486
10.3.1 Variational distribution . . . . . . . . . . . . . . . . . . . . 486
10.3.2 Predictive distribution . . . . . . . . . . . . . . . . . . . . 488
10.3.3 Lower bound . . . . . . . . . . . . . . . . . . . . . . . . . 489
10.4 Exponential Family Distributions . . . . . . . . . . . . . . . . . . 490
10.4.1 Variational message passing . . . . . . . . . . . . . . . . . 491
10.5 Local Variational Methods . . . . . . . . . . . . . . . . . . . . . . 493
10.6 Variational Logistic Regression . . . . . . . . . . . . . . . . . . . 498
10.6.1 Variational posterior distribution . . . . . . . . . . . . . . . 498
10.6.2 Optimizing the variational parameters . . . . . . . . . . . . 500
10.6.3 Inference of hyperparameters . . . . . . . . . . . . . . . . 502
10.7 Expectation Propagation . . . . . . . . . . . . . . . . . . . . . . . 505
10.7.1 Example: The clutter problem . . . . . . . . . . . . . . . . 511
10.7.2 Expectation propagation on graphs . . . . . . . . . . . . . . 513
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
11 Sampling Methods 523
11.1 Basic Sampling Algorithms . . . . . . . . . . . . . . . . . . . . . 526
11.1.1 Standard distributions . . . . . . . . . . . . . . . . . . . . 526
11.1.2 Rejection sampling . . . . . . . . . . . . . . . . . . . . . . 528
11.1.3 Adaptive rejection sampling . . . . . . . . . . . . . . . . . 530
11.1.4 Importance sampling . . . . . . . . . . . . . . . . . . . . . 532
11.1.5 Sampling-importance-resampling . . . . . . . . . . . . . . 534
11.1.6 Sampling and the EM algorithm . . . . . . . . . . . . . . . 536
11.2 Markov Chain Monte Carlo . . . . . . . . . . . . . . . . . . . . . 537
11.2.1 Markov chains . . . . . . . . . . . . . . . . . . . . . . . . 539
11.2.2 The Metropolis-Hastings algorithm . . . . . . . . . . . . . 541
11.3 Gibbs Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . 542
11.4 Slice Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546
11.5 The Hybrid Monte Carlo Algorithm . . . . . . . . . . . . . . . . . 548
11.5.1 Dynamical systems . . . . . . . . . . . . . . . . . . . . . . 548
11.5.2 Hybrid Monte Carlo . . . . . . . . . . . . . . . . . . . . . 552
11.6 Estimating the Partition Function . . . . . . . . . . . . . . . . . . 554
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 556
12 Continuous Latent Variables 559
12.1 Principal Component Analysis . . . . . . . . . . . . . . . . . . . . 561
12.1.1 Maximum variance formulation . . . . . . . . . . . . . . . 561
12.1.2 Minimum-error formulation . . . . . . . . . . . . . . . . . 563
12.1.3 Applications of PCA . . . . . . . . . . . . . . . . . . . . . 565
12.1.4 PCA for high-dimensional data . . . . . . . . . . . . . . . 569
12.2 Probabilistic PCA . . . . . . . . . . . . . . . . . . . . . . . . . . 570
12.2.1 Maximum likelihood PCA . . . . . . . . . . . . . . . . . . 574
12.2.2 EM algorithm for PCA . . . . . . . . . . . . . . . . . . . . 577
12.2.3 Bayesian PCA . . . . . . . . . . . . . . . . . . . . . . . . 580
12.2.4 Factor analysis . . . . . . . . . . . . . . . . . . . . . . . . 583
12.3 Kernel PCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586
12.4 Nonlinear Latent Variable Models . . . . . . . . . . . . . . . . . . 591
12.4.1 Independent component analysis . . . . . . . . . . . . . . . 591
12.4.2 Autoassociative neural networks . . . . . . . . . . . . . . . 592
12.4.3 Modelling nonlinear manifolds . . . . . . . . . . . . . . . . 595
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 599
13 Sequential Data 605
13.1 Markov Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607
13.2 Hidden Markov Models . . . . . . . . . . . . . . . . . . . . . . . 610
13.2.1 Maximum likelihood for the HMM . . . . . . . . . . . . . 615
13.2.2 The forward-backward algorithm . . . . . . . . . . . . . . 618
13.2.3 The sum-product algorithm for the HMM . . . . . . . . . . 625
13.2.4 Scaling factors . . . . . . . . . . . . . . . . . . . . . . . . 627
13.2.5 The Viterbi algorithm . . . . . . . . . . . . . . . . . . . . . 629
13.2.6 Extensions of the hidden Markov model . . . . . . . . . . . 631
13.3 Linear Dynamical Systems . . . . . . . . . . . . . . . . . . . . . . 635
13.3.1 Inference in LDS . . . . . . . . . . . . . . . . . . . . . . . 638
13.3.2 Learning in LDS . . . . . . . . . . . . . . . . . . . . . . . 642
13.3.3 Extensions of LDS . . . . . . . . . . . . . . . . . . . . . . 644
13.3.4 Particle filters . . . . . . . . . . . . . . . . . . . . . . . . . 645
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646
14 Combining Models 653
14.1 Bayesian Model Averaging . . . . . . . . . . . . . . . . . . . . . . 654
14.2 Committees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655
14.3 Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 657
14.3.1 Minimizing exponential error . . . . . . . . . . . . . . . . 659
14.3.2 Error functions for boosting . . . . . . . . . . . . . . . . . 661
14.4 Tree-based Models . . . . . . . . . . . . . . . . . . . . . . . . . . 663
14.5 Conditional Mixture Models . . . . . . . . . . . . . . . . . . . . . 666
14.5.1 Mixtures of linear regression models . . . . . . . . . . . . . 667
14.5.2 Mixtures of logistic models . . . . . . . . . . . . . . . . . 670
14.5.3 Mixtures of experts . . . . . . . . . . . . . . . . . . . . . . 672
Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674
Appendix A Data Sets 677
Appendix B Probability Distributions 685
Appendix C Properties of Matrices 695
Appendix D Calculus of Variations 703
Appendix E LagrangeMultipliers 707
References 711
· · · · · · (收起)

读后感

评分

我是一名研一的学生,方向不是机器学习方向,但是对这方面很感兴趣。 看过一篇blog说,当下所说的机器学习其实分两种,一种如本书,可称为统计机器学习,另外一种是人工智能领域,这两种有交叉,但是研究内容有很大不同。 初读这书,刚觉很罗嗦,加上是英语,就觉得有些内容很...  

评分

这几天没事把尾巴扫了。 如果想做ML无论是theory(tcsers请先别吐槽好吧,以后会有槽吐你们的)、algorithm还是application此书都是必读,而且书只读这一本足够了。ML吹破天还是那点内容,想学“fashion”的concept有那么多paper、review,看书是自取其辱。有人说此书遗憾没有...  

评分

赞扬已经够多了,引用黄亮的话来说下这本书不好的地方。 “这书把machine learning搞得太复杂太琐碎了,而迷失了其数学真意。其数学真意应该是简单统一的几何意义,而不是满屏的公式。另外这书理论深度不够,很多重要但简单的证明没讲. 简言之,这书是电子工程师写的,不是给...  

评分

这本书最近开源了: https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/ 作为上课的教材读的,内容结构上比较全面。从基本的问题出发,对于每一个问题和范式的来由解释得比较详细清楚,也因而显得小章节间的逻辑关系 (有时) 堆得比较...  

评分

我们已经读完了Pattern Recognition And Machine Learning ,写的非常优美的一本书,另外我们正准备读MLAPP,欢迎加群177217565讨论。请在群申请理由里用简短的话描述一个算法的关键思想。  

用户评价

评分

这本书的阅读体验,就像是跟随一位经验极其丰富但又极富耐心的导师进行一对一的深度辅导。它的文字风格沉稳、客观,几乎没有多余的修饰词或煽动性的语言,完全依靠逻辑的强大力量来吸引读者。然而,正是这种克制,使得书中的每一个论点都显得格外有分量。我尤其欣赏作者在介绍各种算法时所采用的迭代式讲解方法:先给出直觉理解,再建立数学框架,最后给出算法步骤和收敛性分析。这种层层递进的结构,极大地降低了复杂概念的认知门槛。对于我这样的自学者来说,最大的挑战往往是无法及时获得反馈和澄清。这本书通过其极高的内在一致性和完备的内部逻辑,很大程度上扮演了“自我修正”的角色。你无法轻易地跳过任何一个章节,因为后面的内容很可能建立在之前看似不经意的小细节之上。它要求你投入时间、心力,但回报是实实在在的、可迁移的高级思维模式,而不是一堆零散的“知识点”。读完之后,你会发现,你不仅仅学会了某些算法,更重要的是,你学会了如何像一个真正的机器学习研究者那样去思考问题、去设计实验。

评分

这本书最让我惊艳的地方,在于它对“不确定性”的处理态度。在很多入门书籍里,我们被告知数据是输入,模型是黑箱,输出是结果,整个过程被简化得过于“确定”。然而,这部巨著却毫不回避地将概率论和贝叶斯思想贯穿始终,时刻提醒读者,我们所做的一切都是在对世界进行推断和估计,而非绝对的计算。这种深入骨髓的统计哲学,极大地改变了我看待模型预测的方式。我记得在阅读关于高斯过程(Gaussian Processes)的那一章时,我仿佛亲眼看到了不确定性是如何被优雅地量化和传播的,那种感觉,就像黑暗中点亮了一盏精确的灯塔。这种对内在不确定性的深刻剖析,让我在处理真实世界那些充满噪声和模糊性的数据时,变得更加审慎和专业。它教会我,一个好的模型不仅要给出预测值,更要给出对这个预测值“把握有多大”的评估。这种严谨性,在追求快速迭代的今天显得尤为可贵,它真正体现了科学研究的精髓——量化你的无知。

评分

这本书简直是开启我数据科学大门的钥匙,虽然我之前对机器学习的理解还停留在非常基础的皮毛阶段,但阅读这本著作的体验却是出乎意料地顺畅和深入。作者在介绍那些听起来高深莫测的数学概念时,总是能巧妙地将其与实际的应用场景联系起来,让人感觉那些复杂的公式不再是高高在上的理论,而是解决现实世界问题的有力工具。尤其是关于概率论和统计推断的部分,讲解得细致入微,即便是像我这样对高等数学有些心生畏惧的人,也能逐步跟上作者的思路。更让我欣赏的是,它并非那种只停留在理论层面的教材,书中穿插的大量实例和思考题,强迫你去动手、去思考,真正理解“为什么”这样做比“怎么做”更重要。每一次攻克书中的一个小难点,都带来巨大的成就感,它建立的不仅仅是知识体系,更是解决复杂问题的信心。如果说市面上大部分入门书是教你“如何用工具”,那么这本书,则是在教你“工具是如何被锻造出来的”,这种底层的理解,对于任何想在这个领域深耕的人来说,都是无价的。它就像一本武林秘籍,初看时眼花缭乱,但随着练习的深入,你才能真正体会到每一招一式背后蕴含的深意与力量。

评分

我是一个习惯通过对比和批判性阅读来加深理解的人,而这本书在与我书架上其他同类书籍的对比中,展现出了压倒性的优势——它的广度与深度达到了一个极佳的平衡点。许多侧重实践的书籍在数学推导上往往过于简略,让你知其然却不知其所以然;而纯粹的数学专著又太过抽象,脱离了工程实现的语境。这本书的神奇之处就在于,它用一种近乎艺术性的方式,将两者完美融合。它既有足以支撑博士论文的理论深度,又有清晰的、可付诸代码实现的算法描述。例如,它对支持向量机(SVM)的讲解,不仅涵盖了对对偶问题的推导,还清晰地解释了核技巧(Kernel Trick)在特征空间映射中的哲学意义,这远比简单地告诉你“换个核函数就能解决问题”要深刻得多。对于我而言,它更像是一本参考手册,当我遇到新的、陌生的学习范式时,我总能回到这本书中,找到一个已知的、稳固的理论基石,然后以这本书为锚点,去理解新的概念是如何从这个基石上延伸出来的。这种“万宗归一”的感觉,是其他书籍难以提供的。

评分

坦白说,第一次翻开这本厚厚的书时,我的内心是充满敬畏的,感觉像是在面对一座知识的珠穆朗玛峰。它给人的感觉是极其严谨、一丝不苟,学术气息浓厚到几乎可以闻到纸张上散发出的油墨和智慧的味道。这本书的价值不在于它能让你“快速上手”,而在于它能让你“打下最坚实的地基”。它没有迎合任何“速成”的心态,而是以一种近乎教科书式的完美结构,为你梳理了从基础统计学到高级神经网络的整个知识脉络。我特别留意了其中对不同模型假设的讨论,作者在权衡各种方法的优劣时展现出的洞察力,远非那些简化版读物所能比拟。阅读过程中,我常常需要停下来,反复咀嚼那些看似简单的定义,因为我知道,这里面的每一个词汇都承载着深厚的数学背景。对于那些已经有一些经验,但总感觉知识体系存在漏洞的学习者来说,这本书简直是查漏补缺的利器。它迫使你正视自己的知识盲区,然后用一种无可辩驳的逻辑链条将这些零散的知识点串联起来,构建出一个宏大而统一的认知框架。它不是一本轻松的读物,但绝对是一本能让你脱胎换骨的经典。

评分

觉得可能不如ESL,但是这书贵在太多人一起看了各种笔记丰富,给马春鹏这位小弟弟跪了!

评分

终于熬过了这门课。Bishop真是太牛逼了!

评分

估计很长时间内不会再翻了

评分

结构清晰,内容齐全,是初学者不可多得的好书。

评分

上学期上了门课,一点不喜欢!!虽然老师身材不错而且顺了几个八卦。前几天整理房间的时候看到这教材顺路读了下 结果欲罢不能....我果然是犯贱吗?!

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2026 book.quotespace.org All Rights Reserved. 小美书屋 版权所有