深入搜索引擎 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:電子工業齣版社

作者:ian H. Witten

出品人:博文視點

頁數:540

译者:梁斌

出版時間:2009-6

價格:79.00元

裝幀:平裝

isbn號碼:9787121084911

叢書系列:

圖書標籤:

搜索引擎
信息檢索
數據挖掘
計算機
搜索
深入搜索引擎
算法信息論
技術
搜索引擎
算法
爬蟲
索引
檢索
推薦
自然語言
分布式
高性能
用戶體驗

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到小美書屋

book.quotespace.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

《深入搜索引擎:海量信息的壓縮、索引和查詢》是斯坦福大學信息檢索和挖掘課程的首選教材之一，並已成為全球主要大學信息檢索的主要教材。《深入搜索引擎:海量信息的壓縮、索引和查詢》理論和實踐並重，深入淺齣地給齣瞭海量信息數據處理的整套解決方案，包括壓縮、索引和查詢的方方麵麵。其最大的特色在於不僅僅滿足信息檢索理論學習的需要，更重要的是給齣瞭實踐中可能麵對的各種問題及其解決方法。

《深入搜索引擎:海量信息的壓縮、索引和查詢》作為斯坦福大學信息檢索課程的教材之一，具有一定的閱讀難度，主要麵嚮信息檢索專業高年級本科生和研究生、搜索引擎業界的專業技術人員和從事海量數據處理相關專業的技術人員。

著者簡介

圖書目錄

第1章概覽
1.1 文檔數據庫（DOCUMENT DATABASES）
1.2 壓縮（COMPRESSION）
1.3 索引（INDEXES）
1.4 文檔索引
1.5 MG海量文檔管理係統
1.6 進一步閱讀
第2章文本壓縮
2.1 模型
2.2 自適應模型
2.3 哈夫曼編碼
範式哈夫曼編碼
計算哈夫曼編碼長度
總結
2.4 算術編碼
算術編碼是如何工作的
實現算術編碼
保存纍積計數
2.5 符號模型
部分匹配預測
塊排序壓縮
動態馬爾科夫壓縮
基於單字的壓縮
2.6 字典模型
自適應字典編碼器的LZ77係列
LZ77的Gzip變體
自適應字典編碼器的LZ78係列
LZ78的LZW變體
2.7 同步
創造同步點
自同步編碼
2.8 性能比較
壓縮性能
壓縮速度
其他性能方麵的考慮
2.9 進一步閱讀
第3章索引
3.1 樣本文檔集閤
3.2 倒排文件索引
3.3 壓縮倒排文件
無參模型（Nonparameterized models）
全局貝努裏模型
全局觀測頻率模型（Global observed frequency model）
局部貝努裏模型（Local Bernoulli model）
有偏貝努裏模型（Skewed Bernoulli model）
局部雙麯模型（Local hyperbolic model）
局部觀測頻率模型（Local observed frequency model）
上下文相關壓縮（Context-sensitive compression）
3.4 索引壓縮方法的效果
3.5 簽名文件和位圖
簽名文件
位片簽名文件（Bitsliced signature files）
簽名文件分析
位圖
簽名文件和位圖的壓縮
3.6 索引方法的比較
3.7 大小寫摺疊、詞根化和停用詞
大小寫摺疊
詞根化
影響索引長度的因素
停用詞（stop word）
3.8 進一步閱讀
第4章查詢
4.1 訪問字典的方法
訪問數據結構
前端編碼（Front coding）
最小完美哈希函數
完美哈希函數的設計
基於磁盤的字典存儲
4.2 部分指定的查詢術語
字符串暴力匹配（Brute-force string matching）
用n-gram索引
循環字典（Rotated lexicon）
4.3 布爾查詢（BOOLEAN QUERY）
閤取查詢（conjunctive query）
術語處理順序
隨機訪問和快速查找
分塊倒排索引
非閤取查詢（Nonconjunctive query）
4.4 信息檢索和排名
坐標匹配（Coordinate matching）
內積相似度
嚮量空間模型
4.5 檢索效果評價
召迴率和精確率
召迴率-精確率麯綫
TREC項目 208
萬維網搜索（World Wide Web Searching）
其他有效性評價方法
4.6 餘弦法實現
文檔內頻率
餘弦值的計算方法
文檔權重所需的內存
纍加器內存
快速查詢處理
按頻率排序的索引
排序
4.7 交互式檢索
相關性反饋
概率模型
4.8 分布式檢索
4.9 進一步閱讀
第5章索引構造
第6章圖像壓縮
第7章文本圖像
第8章混閤圖文
第9章係統實現
第10章信息爆炸
附錄A MG係統指南
附錄B 新西蘭圖書館
· · · · · · (收起)

讀後感

評分☆☆☆☆☆

Ian Witten是澳洲神童啊，我的一个国际专利和他还有这本书有很大关系。字字珠玑，值得一看，长见识，不看或者不看懂人生都不圆满。推荐！

評分☆☆☆☆☆

一上来就讲手工时代编制索引的故事，从圣经讲到莎士比亚，囧~ 跳过有灰色条框的部分，估计得看两变以上，不懂压缩信息学知识……

評分☆☆☆☆☆

斯坦福大学是GOOGLE的发源地哦。译者花了一年半的时间精心翻译的，期间加入了上百条译者注，帮助大家理解内容。

評分☆☆☆☆☆

在这个大数据时代，管理海量数据是必备技能，也是数据挖掘、数据统计分析，信息检索与数据化运营的基础技术，这本书作为斯坦福大学信息检索和挖掘课程的首选教材，重视理论和实践，深入浅出地给出了海量信息数据处理的整套解决方案，包括压缩、索引和查询的方方面面。其最...

評分☆☆☆☆☆

英文版是99年出版的，从英文标题也可以看出来是老书了。原来是信息检索实现方面的经典教材。现在看来内容稍显陈旧。建议参考 http://www.douban.com/subject/3059637/ (原书网站+电子版：http://nlp.stanford.edu/IR-book/information-retrieval-book.html) 和 http://www.do...