走進搜索引擎 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:電子工業齣版社

作者:潘雪峰

出品人:博文視點

頁數:286

译者:

出版時間:2011-5

價格:49.00元

裝幀:平裝

isbn號碼:9787121131042

叢書系列:

圖書標籤:

搜索引擎
信息檢索
SEO
搜索引擎原理
互聯網
計算機
計算機科學
編程
搜索引擎
網絡技術
信息檢索
計算機科學
數據處理
算法原理
互聯網應用
數字技術
智能搜索
信息管理

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到小美書屋

book.quotespace.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

《走進搜索引擎(第2版)》由搜索引擎開發研究領域三位年輕的博士生精心編寫，作者們希望將自己對搜索引擎的理解和實際應用相結閤，讓未接觸過搜索引擎原理和方法的讀者也能輕鬆讀懂該書的大部分內容。

《走進搜索引擎(第2版)》在第1版的基礎上，刪除瞭搜索引擎曆史等章節，並對錯誤和不足進行瞭修訂和補充，同時增加瞭潘雪峰編寫的第6章“搜索引擎日誌分析”，花貴春編寫的第7章“排序學習（LearningtoRank）”和梁斌編寫的第8章“搜索引擎的性能調優”三個主要章節，變更的內容約占第1版的一半。

著者簡介

圖書目錄

第1章引言
1.1 搜索引擎概述
1.1.1 目錄式搜索引擎
1.1.2 全文搜索引擎
1.1.3 元搜索引擎（Meta-Search Engine）
1.2 搜索引擎的主要需求
1.2.1 快
1.2.2 全
1.2.3 準
1.2.4 穩
1.2.5 省
1.3 搜索引擎的4大係統
1.3.1 搜索引擎的體係結構
第2章搜索引擎的下載係統
2.1 爬蟲的發展曆史
2.1.1 世界上第1個爬蟲
2.1.2 爬蟲的發展曆程
2.2 萬維網及其網頁分析
2.2.1 蝴蝶結型的萬維網
2.2.2 萬維網的直徑
2.2.3 萬維網的規模及變化特徵
2.2.4 網頁的特徵
2.3 有關爬蟲的基本概念
2.3.1 爬蟲
2.3.2 種子站點
2.3.3 URL
2.3.4 Backlinks
2.4 網頁抓取原理
2.4.1 telnet和wget
2.4.2 從種子站點開始逐層抓取
2.4.3 不重復抓取策略
2.4.4 網頁抓取優先策略
2.4.5 網頁重訪策略
2.4.6 Robots協議
2.4.7 其他應該注意的禮貌性問題
2.4.8 重要性網頁優先抓取策略
2.4.9 抓取提速策略（閤作抓取策略）
2.5 網頁庫
2.6 下載係統迴顧及未來發展
參考文獻
第3章搜索引擎的分析係統
3.1 知識準備
3.1.1 HTML語言
3.1.2 錨文本（anchor text）
3.1.3 半結構化數據（semi-structured data）
3.2 信息抽取及網頁信息結構化
3.2.1 網頁結構化的目標
3.2.2 建立HTML標簽樹
3.2.3 通過投票方法得到正文
3.2.4 網頁結構化過程迴顧
3.3 網頁查重
3.3.1 網頁查重技術發展曆史
3.3.2 網頁查重實現方法
3.4 中文分詞
3.4.1 什麼是中文分詞
3.4.2 通過字典實現分詞
3.4.3 基於統計的分詞方法
3.5 PageRank
3.5.1 PageRank的來由
3.5.2 PageRank的基本想法
3.5.3 PageRank的計算公式
3.5.4 PageRank的計算方法
3.6 分析係統結構圖
參考文獻
第4章搜索引擎的索引係統
4.1 知識準備
4.1.1 信息
4.1.2 索引
4.1.3 倒排索引、倒排錶、臨時倒排文件、最終倒排文件
4.1.4 其他概念
4.2 全文檢索
4.3 文檔編號
4.3.1 編號的本質
4.3.2 文檔編號的方法
4.3.3 遊程編碼
4.4 倒排索引
4.4.1 經典的倒排索引
4.4.2 正排索引（前嚮索引）
4.4.3 倒排索引
4.5 數據規模的估計
4.5.1 齊普夫法則
4.5.2 布爾檢索模型下的索引規模估計
4.6 涉及存儲規模的一些計算
4.6.1 正排錶與倒排錶的閤並
4.6.2 多個臨時倒排文件的歸並
4.6.3 倒排索引分布式存儲
4.6.4 倒排文件緩存
4.6.5 倒排索引詞典統計信息的計算
4.7 倒排索引文件的創建過程
4.7.1 創建倒排錶
4.7.2 計算統計信息
參考文獻
第5章搜索引擎的查詢係統
5.1 知識準備
5.1.1 什麼是信息熵
5.1.2 檢索和查詢的區彆
5.1.3 檢索詞和查詢詞的區彆
5.1.4 自動文本摘要（Automatic Text Summarization）
5.2 網頁信息檢索
5.2.1 早期的檢索模型
5.2.2 嚮量空間模型（Vector Space Models）
5.2.3 關鍵詞權重的量化方法TF/IDF
5.2.4 搜索引擎采用的檢索模型
5.2.5 多文檔列錶求交計算
5.2.6 檢索結果排序
5.2.7 堆排序
5.3 中文自動摘要
5.3.1 自動摘要的發展曆史
5.3.2 自動摘要的含義和實現
5.4 生成搜索結果頁
5.4.1 生成搜索結果頁
5.5 搜索結果頁的緩存
5.6 推測用戶查詢意圖
5.6.1 查詢分類
5.6.2 推測信息類、事物類的查詢意圖
5.7 查詢係統的當前熱點和發展方嚮
5.7.1 查詢係統的當前熱點
5.7.2 查詢係統的發展方嚮
參考文獻
第6章搜索引擎日誌分析
6.1 簡介
6.1.1 人機交互的記錄——日誌
6.1.2 分析搜索引擎日誌的意義
6.1.3 本章的主要內容
6.2 知識準備
6.2.1 二分圖模型（Bipartite Model）
6.2.2 圖模型(graphical model)
6.2.3 LDA（Latent Dirichlet Allocation）模型
6.2.4 隨機遊走 (Random Walk)
6.2.5 小結
6.3 查詢日誌分析
6.3.1 查詢日誌的內容
6.3.2 查詢詞頻統計
6.3.3 查詢串提示（Suggestion）
6.3.4 命名實體（Named Entity）類彆識彆
6.3.5 小結
6.4 點擊日誌分析
6.4.1 點擊日誌的內容
6.4.2 查詢串提示（Suggestion）再分析
6.4.3 查詢和結果類彆屬性傳遞
6.4.4 搜索結果相似性度量
6.4.5 查詢結果排序
6.4.6 點擊數據的稀疏性
6.4.7 小結
6.5 隱私問題
6.5.1 日誌的兩麵性
6.5.2 日誌的安全使用
6.5.3 小結
6.6 本章總結
參考文獻
第7章排序學習（Learning to Rank）
7.1 排序概述
7.2 傳統的排序模型
7.2.1 查詢相關的排序模型
7.2.2 查詢無關的排序模型
7.3 排序學習簡介以及研究現狀
7.3.1 排序學習簡介
7.3.2 排序學習問題的研究現狀
7.4 排序學習模型的應用實例
7.5 排序學習方法的框架
7.5.1 參數設置
7.5.2 排序學習方法的框架
7.6 評測數據集
7.6.1 LETOR數據集
7.6.2 Microsoft Learning to Rank數據集
7.6.3 Yahoo Webscope數據集
7.7 排序學習模型簡介
7.7.1 實例
7.7.2 Pointwise方法
7.7.3 Pairwise方法
7.7.4 Listwise方法
7.7.5 3種排序方法的對比
7.8 排序學習模型性能比較
7.8.1 評測方法
7.8.2 排序模型性能的比較
7.9 排序學習的研究方嚮
7.9.1 標準標注的自動構建
7.9.2 排序特徵
7.9.3 半監督學習/主動學習
7.9.4 查詢相關的排序模型
7.9.5 利用用戶行為特徵
7.10 總結
參考文獻
第8章搜索引擎的性能調優
8.1 係統調優概述
8.2 瓶頸識彆
8.3 涉及CPU的優化方法
8.3.1 上下文切換問題（context switching）
8.3.2 中斷和輪詢
8.3.3 CPU的Affinity問題
8.3.4 流水綫問題
8.4 涉及內存的優化方法
8.4.1 概述
8.4.2 對換區
8.4.3 cache line
8.4.4 false sharing問題
8.4.5 內存的鎖問題
8.4.6 內存庫的使用
8.5 涉及磁盤的優化方法
8.5.1 磁盤IO的調度
8.5.2 其他常見磁盤參數調優
8.5.3 磁盤讀寫方式
8.5.4 文件緩存問題
8.5.5 5分鍾法則
8.6 涉及網絡的優化方法
8.6.1 搜索首頁，結果頁提速方法
8.6.2 Web server的架構選擇
參考文獻
· · · · · · (收起)