信息检索 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:机械工业出版社

作者:（美）Stefan Büttcher

出品人:

页数:412

译者:陈健

出版时间:2012-1

价格:65.00元

装帧:平装

isbn号码:9787111359906

丛书系列:计算机科学丛书

图书标签:

信息检索
搜索引擎
计算机
计算机科学
机器学习
互联网
数据挖掘
数据分析
信息检索
搜索引擎
信息科学
数据挖掘
文本分析
自然语言处理
信息组织
知识管理
数据库
算法

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到小美书屋

book.quotespace.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

“这本书是越来越多的信息检索文献里的一本好书”

——Donald H. Kraft，计算机评论

“学术巨匠齐聚一堂编撰了一部信息检索的优秀教材。Stefan Bu ̈ttcher、Charles Clarke和Gordon Cormack以合计超过五十年的研究经验，组成了横跨三代的信息检索研究泰斗组合……这本书是所有信息检索研究者和从业人员的必读教材！”

——来自由Amit Singhal撰写的序言

信息检索奠定了现代搜索引擎的基石。本书介绍了现代搜索技术的核心主题，包括了算法、数据结构、索引、检索和评价。重点在于实现和实验；每一章都有练习和对学生项目的建议。Wumpus——本书其中一位作者开发的一个多用户开源信息检索系统，可以在网上下载——提供了模型实现，可作为学生练习的一个基础。本书采用的模块化结构使教师可以将此书用于不同水平的研究生课程中，包括从数据库系统角度教授的课程、专注于理论的传统信息检索课程和关于Web检索基础的课程。

对信息检索的基础进行介绍之后，本书分别在相应的部分介绍了3个重要主题——索引、检索和评价。本书的最后一部分借用并扩展了前面部分的基本内容，考虑了以下具体应用：并行搜索引擎、Web搜索和XML检索。每章末尾的参考文献给出了延伸阅读；练习包括纸笔练习题和重大编程项目。除了用于课堂教学，本书对计算机科学、计算机工程和软件工程的专业人员来说也具有很好的参考价值。

作者简介

Stefan B ttcher是一名在Google工作的网站可靠性工程师。Charles L. A. Clarke 和Gordon V. Cormack是滑铁卢大学David R.Cheriton计算机科学学院的计算机科学教授。

目录信息

出版者的话
译者序
序
前言
符号
第一部分基础知识
第1章绪论
1.1什么是信息检索
1.1.1Web搜索
1.1.2其他搜索应用
1.1.3其他信息检索应用
1.2信息检索系统
1.2.1信息检索系统基础架构
1.2.2文档及其更新
1.2.3性能评价
1.3使用电子文本
1.3.1文本格式
1.3.2英文文本中的分词
1.3.3词项分布
1.3.4语言模型
1.4测试集
1.5开源信息检索系统
1.5.1Lucene
1.5.2Indri
1.5.3Wumpus
1.6延伸阅读
1.7练习
1.8参考文献
第2章基础技术
2.1倒排索引
2.1.1延伸例子：词组查找
2.1.2实现倒排索引
2.1.3文档和其他元素
2.2检索与排名
2.2.1向量空间模型
2.2.2邻近度排名
2.2.3布尔检索
2.3评价
2.3.1查全率和查准率
2.3.2排名检索的有效性指标
2.3.3创建测试集
2.3.4效率指标
2.4总结
2.5延伸阅读
2.6练习
2.7参考文献
第3章词条与词项
3.1英语
3.1.1标点与大写
3.1.2词干提取
3.1.3停词
3.2字符
3.3字符ngram
3.4欧洲语言
3.5CJK语言
3.6延伸阅读
3.7练习
3.8参考文献
第二部分索引
第4章静态倒排索引
4.1索引的组成部分和索引的生命周期
4.2词典
4.3位置信息列表
4.4交错词典和位置信息列表
4.5索引的构建
4.5.1基于内存的索引构建法
4.5.2基于排序的索引构建法
4.5.3基于合并的索引构建法
4.6其他索引
4.7总结
4.8延伸阅读
4.9练习
4.10参考文献
第5章查询处理
5.1排名检索的查询处理
5.1.1documentatatime查询处理
5.1.2termatatime查询处理
5.1.3预计算得分贡献
5.1.4影响力排序
5.1.5静态索引裁剪
5.2轻量级结构
5.2.1广义索引表
5.2.2操作符
5.2.3例子
5.2.4实现
5.3延伸阅读
5.4练习
5.5参考文献
第6章索引压缩
6.1通用数据压缩
6.2符号数据压缩
6.2.1建模和编码
6.2.2哈夫曼编码
6.2.3算术编码
6.2.4基于符号的文本压缩
6.3压缩位置信息列表
6.3.1无参数间距压缩
6.3.2参数间距压缩
6.3.3上下文感知的压缩方法
6.3.4高查询性能的索引压缩
6.3.5压缩效果
6.3.6解码性能
6.3.7文档重排
6.4压缩词典
6.5总结
6.6延伸阅读
6.7练习
6.8参考文献
第7章动态倒排索引
7.1批量更新
7.2增量式索引更新
7.2.1连续倒排列表
7.2.2非连续倒排列表
7.3文档删除
7.3.1无效列表
7.3.2垃圾回收
7.4文档修改
7.5讨论及延伸阅读
7.6练习
7.7参考文献
第三部分检索和排名
第8章概率检索
8.1相关性建模
8.2二元独立模型
8.3Robertson/Sprck Jones权重公式
8.4词频
8.4.1Bookstein的双泊松模型
8.4.2双泊松模型的近似
8.4.3查询词频
8.5文档长度：BM25
8.6相关反馈
8.6.1词项选择
8.6.2伪相关反馈
8.7区域权重：BM25F
8.8实验对比
8.9延伸阅读
8.10练习
8.11参考文献
第9章语言模型及其相关方法
9.1从文档中产生查询
9.2语言模型和平滑
9.3使用语言模型排名
9.4KullbackLeibler距离
9.5随机差异性
9.5.1一个随机模型
9.5.2精华性
9.5.3文档长度规范化
9.6段落检索及排名
9.6.1段落评分
9.6.2实现
9.7实验对比
9.8延伸阅读
9.9练习
9.10参考文献
第10章分类和过滤
10.1详细示例
10.1.1面向主题的批过滤
10.1.2在线过滤
10.1.3从历史样本中学习
10.1.4语言分类
10.1.5在线自适应垃圾邮件过滤系统
10.1.6二元分类的阈值选择
10.2分类
10.2.1比值和比值比
10.2.2构造分类器
10.2.3学习模型
10.2.4特征工程
10.3概率分类器
10.3.1概率估计
10.3.2联合概率估计
10.3.3实际考虑
10.4线性分类器
10.4.1感知器算法
10.4.2支持向量机
10.5基于相似度的分类器
10.5.1Rocchio法
10.5.2基于记忆的方法
10.6广义线性模型
10.7信息理论模型
10.7.1模型比较
10.7.2序列压缩模型
10.7.3决策树与树桩
10.8实验对比
10.8.1面向主题的在线过滤器
10.8.2在线自适应垃圾信息过滤
10.9延伸阅读
10.10练习
10.11参考文献
第11章融合和元学习
11.1搜索结果融合
11.1.1固定临界值合成
11.1.2排名和得分合成
11.2叠加自适应过滤器
11.3叠加批分类器
11.3.1holdout验证
11.3.2交叉验证
11.4bagging
11.5boosting
11.6多类排名和分类
11.6.1文档得分与类别得分
11.6.2文档排名融合与类别排名融合
11.6.3多类方法
11.7学习排名
11.7.1什么是学习排名
11.7.2学习排名的方法
11.7.3优化什么
11.7.4分类的学习排名
11.7.5排名检索的学习
11.7.6LETOR数据集
11.8延伸阅读
11.9练习
11.10参考文献
第四部分评价
第12章度量有效性
12.1传统的有效性指标
12.1.1查全率和查准率
12.1.2前k个文档的查准率（P@k）
12.1.3平均查准率
12.1.4排名倒数
12.1.5算术平均与几何平均
12.1.6用户满意度
12.2TREC
12.3在评价中使用统计
12.3.1基础和术语
12.3.2置信区间
12.3.3比较评价
12.3.4被认为有害的假设检验
12.3.5配对和未配对差值
12.3.6显著性检验
12.3.7统计检验的效度和检验力
12.3.8报告指标的查准率
12.3.9元分析
12.4最小化判定工作
12.4.1为判定选择合适的文档
12.4.2对池进行抽样
12.5非传统的有效性指标
12.5.1分级相关性
12.5.2不完整判定和偏差判定
12.5.3新颖性和多样性
12.6延伸阅读
12.7练习
12.8参考文献
第13章度量效率
13.1效率标准
13.1.1吞吐量和延迟
13.1.2汇总统计和用户满意度
13.2排队论
13.2.1肯德尔符号
13.2.2M/M/1排队模型
13.2.3延迟量和平均利用率
13.3查询调度
13.4缓存
13.4.1三级缓存
13.4.2缓存策略
13.4.3预取搜索结果
13.5延伸阅读
13.6练习
13.7参考文献
第五部分应用和扩展
第14章并行信息检索
14.1并行查询处理
14.1.1文档划分
14.1.2词项划分
14.1.3混合方案
14.1.4冗余和容错
14.2MapReduce
14.2.1基本框架
14.2.2合并
14.2.3辅助关键字
14.2.4机器失效
14.3延伸阅读
14.4练习
14.5参考文献
第15章Web搜索
15.1Web的结构
15.1.1Web图
15.1.2静态与动态网页
15.1.3暗网
15.1.4Web的规模
15.2查询与用户
15.2.1用户意图
15.2.2点击曲线
15.3静态排名
15.3.1基本PageRank
15.3.2扩展的PageRank
15.3.3PageRank的性质
15.3.4其他链接分析方法：HITS和SALSA
15.3.5其他静态排名方法
15.4动态排名
15.4.1锚文本
15.4.2新颖性
15.5评价Web搜索
15.5.1指定页面发现
15.5.2用户隐式反馈
15.6Web爬虫
15.6.1爬虫的组成
15.6.2抓取顺序
15.6.3重复与近似重复
15.7总结
15.8延伸阅读
15.8.1链接分析
15.8.2锚文本
15.8.3隐式反馈
15.8.4Web爬虫
15.9练习
15.10参考文献
第16章XML检索
16.1XML的本质
16.1.1文档类型定义
16.1.2XML模式
16.2路径、树和FLWOR
16.2.1XPath
16.2.2NEXI
16.2.3XQuery
16.3索引和查询处理
16.4排名检索
16.4.1排名元素
16.4.2重叠元素
16.4.3可检索元素
16.5评价
16.5.1测试集
16.5.2有效性指标
16.6延伸阅读
16.7练习
16.8参考文献
第六部分附录
附录A计算机性能
· · · · · · (收起)

读后感

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

**书名：信息检索** 拿到这本书的时候，我其实是带着一种期待和忐忑的心情的。毕竟“信息检索”这个领域听起来就挺高深的，生怕自己理解起来会像啃一本晦涩难懂的古籍。然而，初翻几页，我的疑虑就烟消云散了。这本书的叙述方式非常灵活，它不像那种教科书一样堆砌公式和理论，反而更像是一位经验丰富的图书馆员在和你娓娓道来他的工作心得。它开篇并没有直接跳入复杂的算法，而是从用户需求出发，比如我们每天在搜索引擎里输入的那些看似简单的查询，背后到底隐藏着多么精妙的“翻译”过程。我尤其喜欢作者对“查询理解”那一章节的描述，那种抽丝剥茧的分析，让我对“自然语言处理”有了更直观的认识。它用大量的实例来佐证观点，比如不同文化背景下人们对同一概念的描述差异，这种细致的观察，让原本抽象的技术问题变得有血有肉。读完前三分之一，我感觉自己像是被领进了一个巨大的信息迷宫，但手中却拿到了一张非常清晰的导航图，知道该如何辨别方向，而不是盲目乱撞。这本书的价值就在于，它既能让入门者建立起扎实的底层认知，又不至于让专业人士觉得内容过于浅薄，它找到了一个非常优雅的平衡点。

评分☆☆☆☆☆

坦白说，我购买这本书时，主要关注点在于它对“用户体验（UX）”和“人机交互”在信息检索中的应用。传统的信息检索书籍往往重技术而轻交互，但这本《信息检索》显著地纠正了这一倾向。作者花了不小的篇幅来讨论“搜索结果的呈现形式”，从最简单的列表到如今的知识卡片、时间轴、地图集成等，分析了每种呈现方式对用户决策路径的影响。最让我印象深刻的是关于“交互式搜索”的讨论，它强调了搜索不是一个单向的“问答”过程，而是一个持续的“探索”过程。书中对“会话式搜索”的未来趋势的预测，既有前瞻性，又建立在对当前技术瓶颈的清醒认识之上。我甚至注意到作者在引用文献时，不局限于计算机科学领域，还穿插了认知心理学和人机工程学的经典研究，这种跨界的引用极大地丰富了我对“好的检索”的定义。它让我意识到，信息检索的终极目标，不是找到“最相关”的文档，而是帮助用户最高效地达成其“信息目标”。这本书，从根本上重塑了我对“检索”二字的理解。

评分☆☆☆☆☆

这本书的阅读体验是极其“沉浸式”的，它成功地将枯燥的技术语言转化为富有画面感的场景描述。例如，在讲解“网页爬取策略”时，作者没有使用冷冰冰的协议术语，而是描绘了一幅机器人在互联网海洋中如何巧妙规避“陷阱”和识别“价值洼地”的动态图景。这种叙事手法的转换，极大地降低了非专业背景读者的阅读门槛。此外，书中对“垂直领域检索”的讨论也让我耳目一新。我们知道通用搜索引擎很强大，但当涉及到专业医学文献或法律条文时，通用算法往往力不从心。这本书详尽地分析了领域特定知识图谱如何嵌入到检索流程中，以实现更深层次的语义匹配。我感觉自己不是在学习一本教科书，而是在参与一个跨学科的研讨会，作者不仅是技术专家，更是一位对信息社会有着深刻洞察的社会学家。这种多维度的解读，使得这本书的价值超越了单纯的技术手册范畴，具有更强的启发意义。

评分☆☆☆☆☆

我是一个常年与海量数据打交道的市场分析师，我对效率和精准度的要求近乎苛刻。过去，我尝试过很多号称能“提升效率”的工具书和在线课程，但大多虎头蛇尾，只停留在表面介绍。这本书真正打动我的地方在于它对“排序模型”的深入探讨。作者没有满足于罗列出TF-IDF或者BM25这些经典模型，而是花费了大量篇幅去剖析现代搜索引擎是如何融合机器学习和深度学习来进行动态排序的。书中关于“相关性反馈”的章节，简直像是一堂关于用户行为心理学的课。它解释了为什么有时候你搜了两次，第二次的结果会比第一次更贴近你的真实意图。这种迭代优化的思想，对于理解商业搜索引擎的进化历程至关重要。我特别欣赏作者在讨论“偏见与公平性”时的坦诚态度，指出任何检索系统都不可能绝对客观，而如何量化和缓解这种系统性偏差，是未来信息检索必须面对的伦理难题。阅读过程中，我不得不频繁地停下来，将书中的理论与我日常工作中遇到的数据清洗和结果评估问题进行对照，那种醍醐灌顶的感觉，是其他任何资料都无法给予的。

评分☆☆☆☆☆

如果让我用一个词来形容这本书给我的感受，那就是“结构美学”。作为一名计算机专业的学生，我习惯了逻辑严密的论证体系，而这本书在构建信息检索的知识体系时，展现出一种令人赞叹的层次感。它从最基础的倒排索引和数据结构讲起，层层递进到查询处理、结果展示，最后汇聚到性能评估和系统架构。这种由点到面的组织方式，确保了读者在学习高阶概念之前，已经对基础构建模块了如指掌。我特别喜欢它对“索引结构优化”那一块的讲解，它不仅仅是告诉你“需要快”，而是细致地展示了各种变长编码、磁盘I/O优化策略是如何在理论和实践的夹缝中求生存的。书中甚至提到了分布式环境下数据一致性和延迟带来的挑战，这说明作者的视野已经远远超出了单一机器的范畴，直指当今互联网信息检索的复杂现实。每一次翻阅，我都能在不同层次上发现新的细节，这不像是在“读”一本书，更像是在“搭建”一个复杂的系统模型。

评分☆☆☆☆☆

这本书是信息检索文献里的一本好书啊！

评分☆☆☆☆☆

挺全面的科普，缺深度

评分☆☆☆☆☆

这本书是信息检索文献里的一本好书啊！

评分☆☆☆☆☆

Ch 1-9, 12, 15. 主要还是看课件，书就是遇到含糊的地方再去查，为了快速干脆看中文版，翻译还不错。

评分☆☆☆☆☆

挺全面的科普，缺深度