序一
序二
前言
第1章 NLP基礎 1
1.1 什麼是NLP 1
1.1.1 NLP的概念 1
1.1.2 NLP的研究任務 3
1.2 NLP的發展曆程 5
1.3 NLP相關知識的構成 7
1.3.1 基本術語 7
1.3.2 知識結構 9
1.4 語料庫 10
1.5 探討NLP的幾個層麵 11
1.6 NLP與人工智能 13
1.7 本章小結 15
第2章 NLP前置技術解析 16
2.1 搭建Python開發環境 16
2.1.1 Python的科學計算發行版——Anaconda 17
2.1.2 Anaconda的下載與安裝 19
2.2 正則錶達式在NLP的基本應用 21
2.2.1 匹配字符串 22
2.2.2 使用轉義符 26
2.2.3 抽取文本中的數字 26
2.3 Numpy使用詳解 27
2.3.1 創建數組 28
2.3.2 獲取Numpy中數組的維度 30
2.3.3 獲取本地數據 31
2.3.4 正確讀取數據 32
2.3.5 Numpy數組索引 32
2.3.6 切片 33
2.3.7 數組比較 33
2.3.8 替代值 34
2.3.9 數據類型轉換 36
2.3.10 Numpy的統計計算方法 36
2.4 本章小結 37
第3章 中文分詞技術 38
3.1 中文分詞簡介 38
3.2 規則分詞 39
3.2.1 正嚮最大匹配法 39
3.2.2 逆嚮最大匹配法 40
3.2.3 雙嚮最大匹配法 41
3.3 統計分詞 42
3.3.1 語言模型 43
3.3.2 HMM模型 44
3.3.3 其他統計分詞算法 52
3.4 混閤分詞 52
3.5 中文分詞工具——Jieba 53
3.5.1 Jieba的三種分詞模式 54
3.5.2 實戰之高頻詞提取 55
3.6 本章小結 58
第4章 詞性標注與命名實體識彆 59
4.1 詞性標注 59
4.1.1 詞性標注簡介 59
4.1.2 詞性標注規範 60
4.1.3 Jieba分詞中的詞性標注 61
4.2 命名實體識彆 63
4.2.1 命名實體識彆簡介 63
4.2.2 基於條件隨機場的命名實體識彆 65
4.2.3 實戰一:日期識彆 69
4.2.4 實戰二:地名識彆 75
4.3 總結 84
第5章 關鍵詞提取算法 85
5.1 關鍵詞提取技術概述 85
5.2 關鍵詞提取算法TF/IDF算法 86
5.3 TextRank算法 88
5.4 LSA/LSI/LDA算法 91
5.4.1 LSA/LSI算法 93
5.4.2 LDA算法 94
5.5 實戰提取文本關鍵詞 95
5.6 本章小結 105
第6章 句法分析 106
6.1 句法分析概述 106
6.2 句法分析的數據集與評測方法 107
6.2.1 句法分析的數據集 108
6.2.2 句法分析的評測方法 109
6.3 句法分析的常用方法 109
6.3.1 基於PCFG的句法分析 110
6.3.2 基於最大間隔馬爾可夫網絡的句法分析 112
6.3.3 基於CRF的句法分析 113
6.3.4 基於移進–歸約的句法分析模型 113
6.4 使用Stanford Parser的PCFG算法進行句法分析 115
6.4.1 Stanford Parser 115
6.4.2 基於PCFG的中文句法分析實戰 116
6.5 本章小結 119
第7章 文本嚮量化 120
7.1 文本嚮量化概述 120
7.2 嚮量化算法word2vec 121
7.2.1 神經網絡語言模型 122
7.2.2 C&W模型 124
7.2.3 CBOW模型和Skip-gram模型 125
7.3 嚮量化算法doc2vec/str2vec 127
7.4 案例:將網頁文本嚮量化 129
7.4.1 詞嚮量的訓練 129
7.4.2 段落嚮量的訓練 133
7.4.3 利用word2vec和doc2vec計算網頁相似度 134
7.5 本章小結 139
第8章 情感分析技術 140
8.1 情感分析的應用 141
8.2 情感分析的基本方法 142
8.2.1 詞法分析 143
8.2.2 機器學習方法 144
8.2.3 混閤分析 144
8.3 實戰電影評論情感分析 145
8.3.1 捲積神經網絡 146
8.3.2 循環神經網絡 147
8.3.3 長短時記憶網絡 148
8.3.4 載入數據 150
8.3.5 輔助函數 154
8.3.6 模型設置 155
8.3.7 調參配置 158
8.3.8 訓練過程 159
8.4 本章小結 159
第9章 NLP中用到的機器學習算法 160
9.1 簡介 160
9.1.1 機器學習訓練的要素 161
9.1.2 機器學習的組成部分 162
9.2 幾種常用的機器學習方法 166
9.2.1 文本分類 166
9.2.2 特徵提取 168
9.2.3 標注 169
9.2.4 搜索與排序 170
9.2.5 推薦係統 170
9.2.6 序列學習 172
9.3 分類器方法 173
9.3.1 樸素貝葉斯Naive Bayesian 173
9.3.2 邏輯迴歸 174
9.3.3 支持嚮量機 175
9.4 無監督學習的文本聚類 177
9.5 文本分類實戰:中文垃圾郵件分類 180
9.5.1 實現代碼 180
9.5.2 評價指標 187
9.6 文本聚類實戰:用K-means對豆瓣讀書數據聚類 190
9.7 本章小結 194
第10章 基於深度學習的NLP算法 195
10.1 深度學習概述 195
10.1.1 神經元模型 196
10.1.2 激活函數 197
10.1.3 感知機與多層網絡 198
10.2 神經網絡模型 201
10.3 多輸齣層模型 203
10.4 反嚮傳播算法 204
10.5 最優化算法 208
10.5.1 梯度下降 208
10.5.2 隨機梯度下降 209
10.5.3 批量梯度下降 210
10.6 丟棄法 211
10.7 激活函數 211
10.7.1 tanh函數 212
10.7.2 ReLU函數 212
10.8 實現BP算法 213
10.9 詞嵌入算法 216
10.9.1 詞嚮量 217
10.9.2 word2vec簡介 217
10.9.3 詞嚮量模型 220
10.9.4 CBOW和Skip-gram模型 222
10.10 訓練詞嚮量實踐 224
10.11 樸素Vanilla-RNN 227
10.12 LSTM網絡 230
10.12.1 LSTM基本結構 230
10.12.2 其他LSTM變種形式 234
10.13 Attention機製 236
10.13.1 文本翻譯 237
10.13.2 圖說模型 237
10.13.3 語音識彆 239
10.13.4 文本摘要 239
10.14 Seq2Seq模型 240
10.15 圖說模型 242
10.16 深度學習平颱 244
10.16.1 Tensorflow 245
10.16.2 Mxnet 246
10.16.3 PyTorch 246
10.16.4 Caffe 247
10.16.5 Theano 247
10.17 實戰Seq2Seq問答機器人 248
10.18 本章小結 254
第11章 Solr搜索引擎 256
11.1 全文檢索的原理 257
11.2 Solr簡介與部署 258
11.3 Solr後颱管理描述 263
11.4 配置schema 267
11.5 Solr管理索引庫 270
11.5.1 創建索引 270
11.5.2 查詢索引 276
11.5.3 刪除文檔 279
11.6 本章小結 281
· · · · · · (
收起)