大數據搜索引擎原理分析及編程實現

大數據搜索引擎原理分析及編程實現 pdf epub mobi txt 電子書 下載2025

出版者:電子工業齣版社
作者:劉凡平
出品人:
頁數:328
译者:
出版時間:2016-7
價格:CNY 59.00
裝幀:平裝
isbn號碼:9787121291647
叢書系列:
圖書標籤:
  • 搜索引擎
  • 大數據
  • 計算機
  • 技術
  • 機器學習
  • 互聯網
  • ~大數據
  • 大數據
  • 搜索引擎
  • 原理分析
  • 編程實現
  • 數據挖掘
  • 分布式係統
  • 信息檢索
  • 算法設計
  • 大數據處理
  • 實戰應用
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

1、適閤對自然語言處理及機器學習應用領域有興趣的讀者。 2、適閤對現代搜索引擎相關算法有興趣的讀者。 3、適閤對大數據分析、數據挖掘應用有興趣的讀者。 4、適閤互聯網行業的不同層次從業者。 5、適閤從事搜索引擎優化的網絡營銷讀者。 6、適閤高校中學習計算機、軟件工程等相關專業的讀者。

本書嚮讀者提供瞭一套完整的大數據時代背景下的搜索引擎解決方案,詳盡地介紹瞭搜索引擎的技術架構、算法體係及取得的效果,以模塊化的方式進行組織。著重介紹瞭機器學習在搜索引擎中的應用,包括中文分詞、聚類、分類等核心的機器學習算法,並結閤示例加以介紹和分析,使讀者可以更好地理解機器學習在搜索引擎中的價值。還闡述瞭大數據給搜索引擎帶來的新特性,結閤目前大數據分析的主流工具,在搜索引擎中構建知識圖譜,以及進行日誌反饋學習機製,使得搜索引擎更加智能。本書適閤作為互聯網行業從業者的技術參考書,也適閤作為搜索引擎愛好者的參考讀物。

著者簡介

劉凡平,男,碩士,畢業於中國科學技術大學軟件係統設計專業。曾任職微軟亞太研發集團,從事互聯網廣告與分布式實時計算相關研發工作。後任職百度(中國)有限公司,並擔任高級研發工程師。現任薇問(北京)科技有限公司首席技術官,負責搜索引擎技術與大數據人工智能平颱研發工作。擅長於搜索引擎、大數據分析、分布式計算等相關研發工作,是Iveely開源搜索引擎的主要貢獻者之一,也是執著於將互聯網技術演繹為藝術的完美追求者。

圖書目錄

第1章 引論 1
1.1 搜索引擎的過去 1
1.2 搜索引擎的現在 2
1.3 搜索引擎的未來 4
1.4 大數據與搜索引擎 6
1.4.1 搜索價值提升 6
1.4.2 用戶價值提升 7
1.5 大數據與人工智能 7
1.5.1 人工智能發展 7
1.5.2 人工智能技術 9
1.6 本章小結 11
第2章 搜索引擎原理與技術 12
2.1 基本工作原理 12
2.2 基本模塊結構 13
2.2.1 爬蟲服務 14
2.2.2 索引服務 15
2.2.3 緩存服務 16
2.2.4 搜索服務 17
2.2.5 日誌服務 19
2.3 技術概要 20
2.3.1 自然語言處理 20
2.3.2 知識圖譜技術 21
2.3.3 海量數據存儲 23
2.3.4 分布式計算 25
2.3.5 搜索排序技術 26
2.4 本章小結 27
第3章 自然語言處理框架 28
3.1 英文分詞 28
3.2 中文分詞 30
3.2.1 中文分詞概述 30
3.2.2 基於詞庫的分詞技術 31
3.2.3 基於條件隨機場的中文分詞 33
3.2.4 分詞粒度 41
3.3 詞性標注 41
3.3.1 隱馬爾科夫模型概要 42
3.3.2 隱馬爾科夫模型與詞性標注 43
3.4 語義相似度 51
3.5 依存句法分析 53
3.5.1 依存句法分析概要 53
3.5.2 依存句法分析實現 56
3.6 情感傾嚮分析 59
3.7 文檔關鍵詞抽取 61
3.7.1 關鍵詞抽取概述 61
3.7.2 基於TF-IDF算法 62
3.7.3 基於TextRank算法 64
3.8 文檔句子相似度分析 67
3.8.1 句子相似度 68
3.8.2 文檔相似度 70
3.9 文檔核心句抽取 71
3.10 聚類分類 74
3.10.1 文本分類 75
3.10.2 文本聚類 80
3.11 語種檢測 84
3.12 本章小結 87
第4章 構建大數據存儲引擎 88
4.1 架構體係 89
4.1.1 結構概要 89
4.1.2 服務器上綫 92
4.1.3 服務器下綫 92
4.1.4 數據讀取 93
4.2 數據模型 94
4.3 數據壓縮 96
4.4 負載均衡 97
4.5 數據存儲邏輯視圖 100
4.6 本章小結 103
第5章 構建分布式實時計算 104
5.1 概述 104
5.2 設計架構 106
5.2.1 設計思想 106
5.2.2 基本框架 108
5.3 運行模式 110
5.4 負載均衡 111
5.5 通信設計 112
5.5.1 基本方式 113
5.5.2 分布式遠程服務調用 113
5.6 容災恢復 114
5.7 數據容錯原理 115
5.8 數據處理設計示例 117
5.9 本章小結 118
第6章 分布式可擴展爬蟲 119
6.1 爬蟲體係架構 119
6.1.1 主從分布式結構爬蟲 120
6.1.2 對等分布式結構爬蟲 120
6.1.3 基於分布式計算平颱爬蟲 121
6.2 網頁解析 122
6.2.1 狀態碼處理 123
6.2.2 鏈接去重 123
6.2.3 廣告識彆 125
6.2.4 網站地圖 128
6.2.5 非網頁數據獲取 129
6.2.6 網頁去重 130
6.2.7 鏈接提取 134
6.2.8 爬蟲協議 135
6.3 網頁結構化 137
6.3.1 網頁的編碼信息 137
6.3.2 網頁的正文信息 138
6.3.3 網站的關鍵詞信息 142
6.3.4 網站的標題 142
6.3.5 網頁的發布時間 144
6.3.6 網站語言檢測 144
6.3.7 其他結構化數據 145
6.4 網頁抓取策略 146
6.5 爬蟲權限應對 147
6.6 深網抓取 150
6.7 抓取更新策略 151
6.8 本章小結 153
第7章 大數據構建知識圖譜 154
7.1 概述 154
7.2 搜索引擎與知識圖譜 155
7.3 可靠數據源選擇 157
7.4 實體抽取 158
7.5 關係抽取 159
7.5.1 關係抽取概述 160
7.5.2 隱藏關係抽取 161
7.5.3 結構化確定關係抽取 164
7.5.4 非結構化確定關係抽取 166
7.6 知識圖譜檢測 171
7.6.1 實體關係修正 171
7.6.2 實體對齊整閤 172
7.6.3 實體歧義分析 174
7.7 知識推理與計算 175
7.7.1 知識推理 175
7.7.2 知識計算 176
7.8 知識聚類 179
7.9 智能搜索實現 181
7.9.1 模式匹配 181
7.9.2 知識拆解 182
7.9.3 閤並求解 184
7.10 智能搜索擴展 186
7.10.1 常識性智能搜索 186
7.10.2 實時信息智能搜索 187
7.10.3 可交互式智能搜索 187
7.11 本章小結 189
第8章 索引構建機製 190
8.1 倒排索引 190
8.1.1 倒排索引概述 191
8.1.2 索引結構 192
8.1.3 構建過程 194
8.1.4 排序規則 195
8.1.5 索引壓縮 196
8.1.6 更新策略 202
8.2 分布式存儲 202
8.2.1 存儲劃分方式 203
8.2.2 存儲平衡策略 204
8.3 存儲索引 209
8.3.1 二叉搜索樹 210
8.3.2 B樹 211
8.3.3 B+樹 213
8.3.4 B+樹與文件索引 214
8.4 字典樹索引 216
8.4.1 字典樹索引概述 217
8.4.2 字典樹索引構建 219
8.4.3 字典樹查詢優化 221
8.5 本章小結 221
第9章 搜索服務構建 223
9.1 概述 223
9.1.1 體係結構 223
9.1.2 七何分析法 224
9.1.3 搜索語法 225
9.1.4 相關性排序 227
9.1.5 不安全信息過濾 231
9.2 大數據分布式緩存 235
9.2.1 緩存結構設計 235
9.2.2 緩存更新策略 236
9.3 文本糾錯算法 237
9.3.1 中文文本糾錯 237
9.3.2 英文文本糾錯 241
9.4 結果顯示算法 242
9.4.1 動態摘要 243
9.4.2 關鍵詞高亮算法 246
9.4.3 網頁快照 250
9.5 搜索智能提示 250
9.6 網頁排序 254
9.6.1 基於PageRank的網頁重要性評價 254
9.6.2 基於Hits算法的網頁權威性評價 257
9.6.3 Hilltop算法 259
9.6.4 網頁作弊評價 260
9.6.5 網頁排序調試 263
9.7 個性化搜索 264
9.7.1 個性化搜索示例 264
9.7.2 人工神經網絡與個性化搜索 265
9.7.3 地理位置搜索 266
9.8 圖片搜索 271
9.8.1 基於內容的圖片搜索 271
9.8.2 基於文本的圖片搜索 272
9.9 搜索與廣告 274
9.9.1 廣告投放策略 275
9.9.2 基於User-Based協同過濾的廣告投放 275
9.9.3 基於Item-Based協調過濾的廣告投放 277
9.9.4 基於混閤模式廣告投放 278
9.9.5 廣告投放評價 279
9.10 搜索引擎評價 282
9.10.1 搜索評價概述 282
9.10.2 基於準確率、召迴率及F值評價 283
9.10.3 歸一化摺扣纍計增益 285
9.11 本章小結 288
第10章 基於用戶日誌的反饋學習 290
10.1 基於用戶搜索詞語的分析 290
10.1.1 發現搜索詞的價值 291
10.1.2 發現不明意圖下的用戶行為 292
10.2 基於用戶點擊日誌的分析 293
10.2.1 時間與搜索意圖的關係 293
10.2.2 地理位置與搜索意圖的關係 294
10.2.3 點擊日誌與同義詞 296
10.2.4 點擊日誌與詞語權重 297
10.2.5 點擊日誌與新詞分類 298
10.2.6 點擊日誌與知識圖譜 300
10.2.7 點擊日誌與網頁重排序 301
10.2.8 點擊日誌與網頁評價 303
10.3 基於用戶的特徵分析 304
10.3.1 用戶跟蹤 305
10.3.2 用戶群體特徵 306
10.3.3 用戶個體特徵 308
10.4 本章小結 309
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

感覺還不錯?!

评分

感覺還不錯?!

评分

內容是大雜遝,spider+nlp+index+知識圖譜+日誌處理都有所涉及,可以算是搜索引擎的一個技術目錄。

评分

感覺還不錯?!

评分

這本書可以理解成“搜索引擎概述(導論)”之類的,細節講的不多,每個技術點蜻蜓點水

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有