走進搜索引擎

走進搜索引擎 pdf epub mobi txt 電子書 下載2025

出版者:電子工業齣版社
作者:潘雪峰
出品人:博文視點
頁數:286
译者:
出版時間:2011-5
價格:49.00元
裝幀:平裝
isbn號碼:9787121131042
叢書系列:
圖書標籤:
  • 搜索引擎
  • 信息檢索
  • SEO
  • 搜索引擎原理
  • 互聯網
  • 計算機
  • 計算機科學
  • 編程
  • 搜索引擎
  • 網絡技術
  • 信息檢索
  • 計算機科學
  • 數據處理
  • 算法原理
  • 互聯網應用
  • 數字技術
  • 智能搜索
  • 信息管理
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

《走進搜索引擎(第2版)》由搜索引擎開發研究領域三位年輕的博士生精心編寫,作者們希望將自己對搜索引擎的理解和實際應用相結閤,讓未接觸過搜索引擎原理和方法的讀者也能輕鬆讀懂該書的大部分內容。

《走進搜索引擎(第2版)》在第1版的基礎上,刪除瞭搜索引擎曆史等章節,並對錯誤和不足進行瞭修訂和補充,同時增加瞭潘雪峰編寫的第6章“搜索引擎日誌分析”,花貴春編寫的第7章“排序學習(LearningtoRank)”和梁斌編寫的第8章“搜索引擎的性能調優”三個主要章節,變更的內容約占第1版的一半。

著者簡介

圖書目錄

第1章 引言
1.1 搜索引擎概述
1.1.1 目錄式搜索引擎
1.1.2 全文搜索引擎
1.1.3 元搜索引擎(Meta-Search Engine)
1.2 搜索引擎的主要需求
1.2.1 快
1.2.2 全
1.2.3 準
1.2.4 穩
1.2.5 省
1.3 搜索引擎的4大係統
1.3.1 搜索引擎的體係結構
第2章 搜索引擎的下載係統
2.1 爬蟲的發展曆史
2.1.1 世界上第1個爬蟲
2.1.2 爬蟲的發展曆程
2.2 萬維網及其網頁分析
2.2.1 蝴蝶結型的萬維網
2.2.2 萬維網的直徑
2.2.3 萬維網的規模及變化特徵
2.2.4 網頁的特徵
2.3 有關爬蟲的基本概念
2.3.1 爬蟲
2.3.2 種子站點
2.3.3 URL
2.3.4 Backlinks
2.4 網頁抓取原理
2.4.1 telnet和wget
2.4.2 從種子站點開始逐層抓取
2.4.3 不重復抓取策略
2.4.4 網頁抓取優先策略
2.4.5 網頁重訪策略
2.4.6 Robots協議
2.4.7 其他應該注意的禮貌性問題
2.4.8 重要性網頁優先抓取策略
2.4.9 抓取提速策略(閤作抓取策略)
2.5 網頁庫
2.6 下載係統迴顧及未來發展
參考文獻
第3章 搜索引擎的分析係統
3.1 知識準備
3.1.1 HTML語言
3.1.2 錨文本(anchor text)
3.1.3 半結構化數據(semi-structured data)
3.2 信息抽取及網頁信息結構化
3.2.1 網頁結構化的目標
3.2.2 建立HTML標簽樹
3.2.3 通過投票方法得到正文
3.2.4 網頁結構化過程迴顧
3.3 網頁查重
3.3.1 網頁查重技術發展曆史
3.3.2 網頁查重實現方法
3.4 中文分詞
3.4.1 什麼是中文分詞
3.4.2 通過字典實現分詞
3.4.3 基於統計的分詞方法
3.5 PageRank
3.5.1 PageRank的來由
3.5.2 PageRank的基本想法
3.5.3 PageRank的計算公式
3.5.4 PageRank的計算方法
3.6 分析係統結構圖
參考文獻
第4章 搜索引擎的索引係統
4.1 知識準備
4.1.1 信息
4.1.2 索引
4.1.3 倒排索引、倒排錶、臨時倒排文件、最終倒排文件
4.1.4 其他概念
4.2 全文檢索
4.3 文檔編號
4.3.1 編號的本質
4.3.2 文檔編號的方法
4.3.3 遊程編碼
4.4 倒排索引
4.4.1 經典的倒排索引
4.4.2 正排索引(前嚮索引)
4.4.3 倒排索引
4.5 數據規模的估計
4.5.1 齊普夫法則
4.5.2 布爾檢索模型下的索引規模估計
4.6 涉及存儲規模的一些計算
4.6.1 正排錶與倒排錶的閤並
4.6.2 多個臨時倒排文件的歸並
4.6.3 倒排索引分布式存儲
4.6.4 倒排文件緩存
4.6.5 倒排索引詞典統計信息的計算
4.7 倒排索引文件的創建過程
4.7.1 創建倒排錶
4.7.2 計算統計信息
參考文獻
第5章 搜索引擎的查詢係統
5.1 知識準備
5.1.1 什麼是信息熵
5.1.2 檢索和查詢的區彆
5.1.3 檢索詞和查詢詞的區彆
5.1.4 自動文本摘要(Automatic Text Summarization)
5.2 網頁信息檢索
5.2.1 早期的檢索模型
5.2.2 嚮量空間模型(Vector Space Models)
5.2.3 關鍵詞權重的量化方法TF/IDF
5.2.4 搜索引擎采用的檢索模型
5.2.5 多文檔列錶求交計算
5.2.6 檢索結果排序
5.2.7 堆排序
5.3 中文自動摘要
5.3.1 自動摘要的發展曆史
5.3.2 自動摘要的含義和實現
5.4 生成搜索結果頁
5.4.1 生成搜索結果頁
5.5 搜索結果頁的緩存
5.6 推測用戶查詢意圖
5.6.1 查詢分類
5.6.2 推測信息類、事物類的查詢意圖
5.7 查詢係統的當前熱點和發展方嚮
5.7.1 查詢係統的當前熱點
5.7.2 查詢係統的發展方嚮
參考文獻
第6章 搜索引擎日誌分析
6.1 簡介
6.1.1 人機交互的記錄——日誌
6.1.2 分析搜索引擎日誌的意義
6.1.3 本章的主要內容
6.2 知識準備
6.2.1 二分圖模型(Bipartite Model)
6.2.2 圖模型(graphical model)
6.2.3 LDA(Latent Dirichlet Allocation)模型
6.2.4 隨機遊走 (Random Walk)
6.2.5 小結
6.3 查詢日誌分析
6.3.1 查詢日誌的內容
6.3.2 查詢詞頻統計
6.3.3 查詢串提示(Suggestion)
6.3.4 命名實體(Named Entity)類彆識彆
6.3.5 小結
6.4 點擊日誌分析
6.4.1 點擊日誌的內容
6.4.2 查詢串提示(Suggestion)再分析
6.4.3 查詢和結果類彆屬性傳遞
6.4.4 搜索結果相似性度量
6.4.5 查詢結果排序
6.4.6 點擊數據的稀疏性
6.4.7 小結
6.5 隱私問題
6.5.1 日誌的兩麵性
6.5.2 日誌的安全使用
6.5.3 小結
6.6 本章總結
參考文獻
第7章 排序學習(Learning to Rank)
7.1 排序概述
7.2 傳統的排序模型
7.2.1 查詢相關的排序模型
7.2.2 查詢無關的排序模型
7.3 排序學習簡介以及研究現狀
7.3.1 排序學習簡介
7.3.2 排序學習問題的研究現狀
7.4 排序學習模型的應用實例
7.5 排序學習方法的框架
7.5.1 參數設置
7.5.2 排序學習方法的框架
7.6 評測數據集
7.6.1 LETOR數據集
7.6.2 Microsoft Learning to Rank數據集
7.6.3 Yahoo Webscope數據集
7.7 排序學習模型簡介
7.7.1 實例
7.7.2 Pointwise方法
7.7.3 Pairwise方法
7.7.4 Listwise方法
7.7.5 3種排序方法的對比
7.8 排序學習模型性能比較
7.8.1 評測方法
7.8.2 排序模型性能的比較
7.9 排序學習的研究方嚮
7.9.1 標準標注的自動構建
7.9.2 排序特徵
7.9.3 半監督學習/主動學習
7.9.4 查詢相關的排序模型
7.9.5 利用用戶行為特徵
7.10 總結
參考文獻
第8章 搜索引擎的性能調優
8.1 係統調優概述
8.2 瓶頸識彆
8.3 涉及CPU的優化方法
8.3.1 上下文切換問題(context switching)
8.3.2 中斷和輪詢
8.3.3 CPU的Affinity問題
8.3.4 流水綫問題
8.4 涉及內存的優化方法
8.4.1 概述
8.4.2 對換區
8.4.3 cache line
8.4.4 false sharing問題
8.4.5 內存的鎖問題
8.4.6 內存庫的使用
8.5 涉及磁盤的優化方法
8.5.1 磁盤IO的調度
8.5.2 其他常見磁盤參數調優
8.5.3 磁盤讀寫方式
8.5.4 文件緩存問題
8.5.5 5分鍾法則
8.6 涉及網絡的優化方法
8.6.1 搜索首頁,結果頁提速方法
8.6.2 Web server的架構選擇
參考文獻
· · · · · · (收起)

讀後感

評分

这本书讲述的 PageRank 似乎是国内比较早的对谷歌PR的介绍,不过缺点在于过于重视理论,对实际数据的把握不够准确,比如对PR计算公式中的阻尼系数d,不作介绍,举例也仅仅是随便取了一个0.5。 在读过的另外两本介绍 PageRank 的书中,至少说明了阻尼系数的作用是使得链接循环中...  

評分

空白实在太多了,行距超常的大。。。。适合视力不好的人以及对价格不敏感的人看。。 内容还是比较通俗易懂,结合李晓明的那本看效果不错。  

評分

作者倒是认真的,给大爷大妈们写了本介绍搜索引擎的“专业书”。 电子社居然两三百字就凑成一页,弄些图片来填充,每页还留有些“读书笔记”的硕大空挡,居然凑满了272页,卖你50大元没商量!还在封面上“刮”不知耻地写上“打造优质搜索引擎的第一书!” 我靠!  

評分

作者倒是认真的,给大爷大妈们写了本介绍搜索引擎的“专业书”。 电子社居然两三百字就凑成一页,弄些图片来填充,每页还留有些“读书笔记”的硕大空挡,居然凑满了272页,卖你50大元没商量!还在封面上“刮”不知耻地写上“打造优质搜索引擎的第一书!” 我靠!  

評分

大致看了一遍,要说这本书的唯一缺点,就是价格比同类书高了一点,不过该书内容绝对对得起它的价格,确实有特色之处,怪不得能得到王小川的推荐。这本书在我看过的同类书中我觉得是数一数二的。个人意见,供大家参考。  

用戶評價

评分

入門級。相比第1版增加的日誌分析、排序、性能調優三章都挺不錯。

评分

入門級。相比第1版增加的日誌分析、排序、性能調優三章都挺不錯。

评分

設計搜索課程時看到過,暫時不需要

评分

寫得挺好的,求問有哪些講GPU講得比較好的書?

评分

總算看完瞭,整本書通俗易懂,結構清晰,對搜索引擎的各個模塊都進行瞭介紹和分析,並在其中加入瞭一些數學原理。總得說來算是一本搜索引擎方麵入門好書。。

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有