搜索引擎

搜索引擎 pdf epub mobi txt 電子書 下載2025

出版者:科學齣版社
作者:李曉明
出品人:
頁數:330
译者:
出版時間:2012-5
價格:48.00元
裝幀:平裝
isbn號碼:9787030342584
叢書系列:
圖書標籤:
  • 搜索引擎
  • 係統設計
  • 數據庫
  • 已購買
  • IT産業
  • 搜索引擎
  • 信息檢索
  • 數據挖掘
  • 算法
  • 網絡技術
  • 人工智能
  • 大數據
  • 計算機科學
  • 用戶行為分析
  • Web技術
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

《搜索引擎:原理技術與係統(第2版)》係統介紹瞭互聯網搜索引擎的工作原理、實現技術及係統構建方案。全書分三篇共13章。上篇介紹搜索引擎的基本原理和技術,講述一個小型簡單搜索引擎實現的具體細節;中篇詳細討論瞭大規模分布式搜索引擎係統的設計要點及其關鍵技術;下篇結閤“中國Web信息博物館”和“中國互聯網數字資源財富庫藏”的實踐經驗,介紹瞭構建大規模Web曆史網頁和非網頁倉儲係統的技術和方法,以及中文網頁的自動分類與聚類、開放域問題係統的構建等。

著者簡介

李曉明:天網搜索引擎領域負責人

閆宏飛 王繼民:天網搜索引擎項目負責人

圖書目錄

第二版前言
第一版前言
第一章引論
第一節搜索引擎的概念
第一二節搜索引擎的發展曆史
第三節一些著名的搜索引擎
第四節小結
上篇Web搜索引擎基本原理和技術
第二章Web搜索引擎工作原理和體係結構
第一節基本要求
第二節網頁搜集
第三節預處理
第四節查詢服務
第五節體係結構
第六節小結
第三章Web信息的搜集
第一節概述
一、超文本傳輸協議
二、一個小型搜索引擎係統
第二節網頁搜集
一、定義URL類和Page類
二、與服務器建立連接
三、發送請求和接收數據
四、網頁信息存儲的天網格式
第三節多道搜集程序並行工作
一、多綫程並發工作
二、控製對一個站點井發搜集綫程的數目
第四節如何避免網頁的重復搜集
一、記錄未訪問、已訪問URL和網頁內容摘要信息
二、域名與IP的對應問題
第五節搜集信息的類型
第六節小結
第四章對搜集信息的預處理
第一節索引網頁庫
第二節網頁編碼識彆
一、基本而重要的概念
二、常用字符編碼
三、常用字符編碼算法
四、字符的輸入和顯示
五、編碼識彆
第三節中文自動分詞
第四節分析網頁和建立倒排文件
第五節小結
第五章信息查詢服務
第一節檢索的定義
第二節查詢服務的實現
一、結果集閤的形成
二、查詢結果顯示
第三節小結
中篇對質量和性能的追求
第六章可擴展搜集子係統
第一節天網係統概述和集中式搜集係統結構
一、天網係統結構
二、集中式搜集係統
第二節利用並行處理技術高效搜集網頁的一種方案
一、節點問URL的劃分策略
二、關於性能的討論
三、性能測試和評價
四、係統的動態可配置性設計
第三節天網分布式搜集係統
第四節對DeepWeb的認識
一、DeepWeh的成因
二、搜索DeepWeb的方法
第五節小結
第七章網頁淨化與消重
第一節網頁淨化與元數據提取
一、DocView模型
二、網頁的錶示
三、提取DocView模型要素的方法
四、模型應用及實驗研究
第二節網頁消重算法
一、消重算法
二、算法評測
第三節小結
第八章高性能檢索子係統
第一節檢索係統基本技術
一、係統設計與結構
二、索引創建
三、檢索過程
第二節適於查詢的網頁索引結構
一、倒排索引結構
二、平麵位置索引
第三節倒排索引壓縮
一、倒排索引壓縮技術
二、詞典與倒排錶的壓縮
第四節索引剪枝
一、靜態索引剪枝方法
二、動態索引剪枝方法
第五節混閤索引技術
一、混閤索引的原理
二、混閤索引的實現
第六節倒排文件緩存機製
一、倒排文件緩存
二、負載特性
三、緩存策略的選擇
第七節小結
第九章相關排序與係統質量評估
第一節傳統IR的相關排序技術
第二節鏈接分析與相關排序
一、鏈接分析
二、Web查詢模式下的新信息
第三節相關排序的一種實現方案
一、形成網頁中詞項的基本權重
二、利用鏈接的結構
三、收集用戶反饋信息
四、計算最終的權重
第四節信息檢索技術評估
一、信息檢索技術評估指標
二、TREC和CWIRF信息檢索評估
三、搜索引擎技術評估
第五節小結
下篇Web信息資源的組織與應用服務
第十章大規模Web曆史網頁倉儲係統的構建
第一節國外Web曆史網頁保存現狀
一、Internet Arc hive
二、PANDORA
三、其他相關Web保存項目
第二節中國Web信息博物館的係統設計
一、WehlnfoM all的設計目標
二、Web InfoMall的體係結構
第三節曆史網頁的存儲
一、數據的組織
二、存儲結構
三、數據管理與壓縮
四、存儲性能
第四節數據訪問
一、PageID的索引
二、URL的索引
三、數據服務
四、性能與優化
第五節網頁的格式保存
第六節小結
第十一章大規模We非網頁信息倉儲係統的構建
第一節網絡資源庫藏相關工作
一、Ibiblio
二、Internet Archive
三、Wikimedia
四、中國互聯網數字資源財富庫藏
第二節CDAL係統概況
第三節CDAL係統設計
一、係統體係結構
二、可擴展的存儲組織方案
第四節網絡資源描述信息獲取
一、Ontology概述
二、描述信息獲取機製
三、改進查詢的方法
四、改進排序的方法
第五節基於局部聚類思想的共現詞匯算法
一、基本定義
二、FDC共現詞匯算法
第六節小結
……
第十二章中文網頁自動分類與聚類
第十三章開放域問答係統
參考文獻
附錄術語
· · · · · · (收起)

讀後感

評分

是阅读该书及TSE源代码非常好的参考资料,可以作为想从零了解搜索引擎的朋友的入门资料。 可以参考某人的csdn博客中的笔记:http://blog.csdn.net/column/details/inside-tse.html  

評分

最近埋头苦看各种搜索引擎原理的书籍,当然我是一个入门者,所以从入门者的角度来说几句吧~ 首先我的背景是给老外打工,所以几乎都是英文,挑选这本书仅仅是偶然,其实我想找的是另外一本 《信息检索实践》,在误点的情况下下载了本书,然后读完了,通读一遍的感觉是里面还不...  

評分

最近埋头苦看各种搜索引擎原理的书籍,当然我是一个入门者,所以从入门者的角度来说几句吧~ 首先我的背景是给老外打工,所以几乎都是英文,挑选这本书仅仅是偶然,其实我想找的是另外一本 《信息检索实践》,在误点的情况下下载了本书,然后读完了,通读一遍的感觉是里面还不...  

評分

谷歌搜索引擎优化seo?能不能自动优化? 万水千山总是情,你在那头,我在这头,默默的祝福,深深的思念,就让清风捎去我的问候,一切都未曾改变,你永远是我的牵挂! 走过山山水水,路过春夏秋冬,克服千险万阻,为你搜集一件无忧衫,前身是吉祥如意,后背是平安喜气,袖子是快...  

評分

因为以后要从事搜索开发的工作,所以公司推荐了这本书。书挺薄的,前后一个月看完吧,总体感觉还行。这本书把搜索引擎相关的各项技术基本都做了介绍,比较全面,算是为数不多、质量不错的入门书籍。说说缺点吧,这本书应该是北大n多论文拼出来的,有一种前后不太连贯的感觉;因...  

用戶評價

评分

....是自己看不懂

评分

....是自己看不懂

评分

....是自己看不懂

评分

....是自己看不懂

评分

....是自己看不懂

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有