目 錄
第1章 信息檢索模型 1
1.1 信息檢索概述 1
1.1.1 信息過載 1
1.1.2 信息檢索定義 2
1.1.3 信息檢索常用術語 3
1.1.4 信息檢索係統 4
1.2 分詞算法 5
1.2.1 分詞算法概述 5
1.2.2 詞典匹配分詞法 6
1.2.3 語義理解分詞法 6
1.2.4 詞頻統計分詞法 7
1.3 倒排索引 7
1.4 布爾檢索模型 9
1.5 tf-idf權重計算 11
1.6 嚮量空間模型 13
1.7 概率檢索模型 16
1.7.1 貝葉斯決策理論 17
1.7.2 二值獨立模型 18
1.7.3 Okapi BM25模型 20
1.7.4 BM25F模型 20
1.8 本章小結 21
第2章 Lucene開發入門 22
2.1 Lucene概述 22
2.1.1 Lucene簡介 22
2.1.2 Lucene特點 22
2.1.3 Lucene架構 23
2.2 Lucene開發準備 25
2.2.1 下載Lucene文件庫 25
2.2.2 工程中引入Lucene 26
2.2.3 下載Luke 27
2.2.4 下載IK分詞工具 28
2.2.5 工程搭建 29
2.3 Lucene分詞詳解 30
2.3.1 Lucene分詞係統 30
2.3.2 分詞器測試 31
2.3.3 IK分詞器配置 34
2.3.4 中文分詞器對比 36
2.3.5 擴展停用詞詞典 38
2.3.6 擴展自定義詞典 38
2.4 Lucene索引詳解 40
2.4.1 Lucene字段類型 40
2.4.2 索引文檔示例 41
2.4.3 Luke中查看索引 46
2.4.4 索引的刪除 48
2.4.5 索引的更新 49
2.5 Lucene查詢詳解 50
2.5.1 搜索入門 51
2.5.2 多域搜索(MultiFieldQueryParser) 52
2.5.3 詞項搜索(TermQuery) 53
2.5.4 布爾搜索(BooleanQuery) 53
2.5.5 範圍搜索(RangeQuery) 54
2.5.6 前綴搜索(PrefixQuery) 55
2.5.7 多關鍵字搜索(PhraseQuery) 55
2.5.8 模糊搜索(FuzzyQuery) 55
2.5.9 通配符搜索(WildcardQuery) 56
2.6 Lucene查詢高亮 56
2.7 Lucene新聞高頻詞提取 58
2.7.1 問題提齣 58
2.7.2 需求分析 58
2.7.3 編程實現 58
2.8 本章小結 61
第3章 Lucene文件檢索項目實戰 62
3.1 需求分析 62
3.2 架構設計 63
3.3 文本內容抽取 64
3.3.1 Tika簡介 64
3.3.2 Tika下載 64
3.3.3 搭建工程 65
3.3.4 內容抽取 66
3.3.5 自動解析 68
3.4 工程搭建 71
3.5 索引文檔 72
3.6 查詢界麵 75
3.7 文件檢索 77
3.8 結果展示 80
3.9 本章小結 85
第4章 從Lucene到Elasticsearch 86
4.1 Elasticsearch概述 86
4.1.1 誕生過程 86
4.1.2 流行度分析 88
4.1.3 架構解讀 89
4.1.4 優點 89
4.1.5 應用場景 90
4.1.6 核心概念 92
4.1.7 對比RDMS 94
4.1.8 文檔結構 94
4.2 安裝Elasticsearch 95
4.2.1 安裝Java 96
4.2.2 下載Elasticsearch 97
4.2.3 啓動Elasticsearch 97
4.2.4 後颱運行Elasticsearch 99
4.2.5 關閉Elasticsearch 99
4.2.6 基本配置 100
4.3 中文分詞器配置 101
4.3.1 IK分詞器安裝 101
4.3.2 擴展本地詞庫 102
4.3.3 配置遠程詞庫 103
4.4 Head插件使用指南 105
4.4.1 Head插件的安裝 105
4.4.2 Head插件的使用 107
4.5 REST命令 109
4.5.1 CURL工具 110
4.5.2 Kibana Dev Tools 111
4.6 本章小結 112
第5章 Elasticsearch集群入門 113
5.1 索引管理 113
5.1.1 新建索引 113
5.1.2 更新副本 115
5.1.3 讀寫權限 115
5.1.4 查看索引 116
5.1.5 刪除索引 117
5.1.6 索引的打開與關閉 118
5.1.7 復製索引 118
5.1.8 收縮索引 119
5.1.9 索引彆名 120
5.2 文檔管理 123
5.2.1 新建文檔 123
5.2.2 獲取文檔 125
5.2.3 更新文檔 127
5.2.4 查詢更新 129
5.2.5 刪除文檔 129
5.2.6 查詢刪除 130
5.2.7 批量操作 130
5.2.8 版本控製 133
5.2.9 路由機製 136
5.3 映射詳解 137
5.3.1 映射分類 137
5.3.2 動態映射 138
5.3.3 日期檢測 140
5.3.4 靜態映射 141
5.3.5 字段類型 142
5.3.6 元字段 156
5.3.7 映射參數 162
5.3.8 映射模闆 180
5.4 本章小結 181
· · · · · · (
收起)