Python和NLTK自然語言處理 pdf epub mobi txt 電子書下載2025

簡體網頁||繁體網頁

☆☆☆☆☆

出版者:人民郵電齣版社

作者:[印度] 尼天·哈登尼亞（Nitin Hardeniya）

出品人:異步圖書

頁數:621

译者:

出版時間:2019-4

價格:138.00

裝幀:平裝

isbn號碼:9787115503343

叢書系列:

圖書標籤:

自然語言處理
編程
人工智能
python
Python
自然語言處理
NLTK
文本分析
機器學習
數據科學
語言學
計算機科學
人工智能
NLP
文本挖掘

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到小美書屋

book.quotespace.org

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

具體描述

NLTK是自然語言處理領域中非常受歡迎和廣泛使用的Python庫。NLTK的優點在於其簡單性，其中大多數復雜的自然語言處理任務使用幾行代碼即可完成。本書旨在講述如何用Python和NLTK解決各種自然語言處理任務並開發機器學習方麵的應用。本書介紹瞭NLTK的基本模塊，講述瞭采用NLTK實現自然語言處理的大量技巧，討論瞭一些文本處理方法和語言處理技術，展示瞭使用Python實現NLP項目的大量實踐經驗。本書主要內容包括文本挖掘/NLP任務中所需的所有預處理步驟，如何使用Python 3的NLTK 3進行文本處理，如何通過Python開展NLP項目。本書適閤NLP和機器學習領域的愛好者、Python程序員以及機器學習領域的研究人員閱讀。

著者簡介

Nitin Hardeniya是一位數據科學傢，精通Python、NLTK、機器學習，與多傢知名公司都有長期的閤作。他的業務範圍比較廣，擅長解決不同領域的各種業務問題。他發錶過5篇專利。

圖書目錄

模塊1　NLTK基礎知識
第　1章自然語言處理簡介　3
1.1　為什麼要學習NLP　4
1.2　從Python的基本知識開始　7
1.2.1　列錶　7
1.2.2　自助　8
1.2.3　正則錶達式　9
1.2.4　詞典　11
1.2.5　編寫函數　11
1.3　NLTK　13
1.4　試一試　18
1.5　本章小結　18
第　2章文本的整理和清洗　19
2.1　文本整理　19
2.2　文本清洗　21
2.3　句子拆分器　22
2.4　標記解析　22
2.5　詞乾提取　24
2.6　詞形還原　25
2.7　停用詞刪除　26
2.8　生僻字刪除　27
2.9　拼寫校正　27
2.10　試一試　28
2.11　本章小結　28
第3章　詞性標注　30
3.1　什麼是詞性標注　30
3.1.1　斯坦福標注器　33
3.1.2　深入瞭解標注器　34
3.1.3　序列標注器　35
3.1.4　布裏爾標注器　37
3.1.5　基於標注器的機器學習　37
3.2　命名實體識彆　38
3.3　試一試　40
3.4　本章小結　41
第4章　對文本的結構進行語法分析　42
4.1　淺層語法分析與深層語法
分析　42
4.2　語法分析的兩種方法　43
4.3　為什麼需要語法分析　43
4.4　不同類型的語法分析器　45
4.4.1　遞歸下降的語法分析器　45
4.4.2　移位歸約語法分析器　45
4.4.3　圖錶語法分析器　45
4.4.4　正則錶達式語法
分析器　46
4.5　依存分析　47
4.6　組塊化　49
4.7　信息抽取　51
4.7.1　命名實體識彆　52
4.7.2　關係抽取　52
4.8　本章小結　53
第5章　NLP應用　54
5.1　構建第一個NLP應用　54
5.2　其他的NLP應用　58
5.2.1　機器翻譯　58
5.2.2　統計機器翻譯　59
5.2.3　信息檢索　59
5.2.4　語音識彆　61
5.2.5　文本分類　62
5.2.6　信息提取　63
5.2.7　問答係統　64
5.2.8　對話係統　64
5.2.9　詞義消歧　64
5.2.10　主題建模　64
5.2.11　語言檢測　65
5.2.12　光學字符識彆　65
5.3　本章小結　65
第6章　文本分類　66
6.1　機器學習　67
6.2　文本分類　68
6.3　采樣　70
6.3.1　樸素貝葉斯　73
6.3.2　決策樹　75
6.3.3　隨機梯度下降　76
6.3.4　邏輯迴歸　77
6.3.5　支持嚮量機　78
6.4　隨機森林算法　79
6.5　文本聚類　79
6.6　文本的主題建模　81
6.7　參考資料　83
6.8　本章小結　83
第7章　網絡爬取　85
7.1　網絡爬蟲　85
7.2　編寫第一個爬蟲程序　86
7.3　Scrapy中的數據流　89
7.3.1　Scrapy命令行界麵　89
7.3.2　項　94
7.4　站點地圖蜘蛛　96
7.5　項管道　97
7.6　外部參考　98
7.7　本章小結　99
第8章　與其他Python庫一同
使用NLTK　100
8.1　NumPy　100
8.1.1　ndarray　101
8.1.2　基本操作　102
8.1.3　從數組中提取數據　103
8.1.4　復雜的矩陣運算　103
8.2　SciPy　107
8.2.1　綫性代數　108
8.2.2　特徵值和特徵嚮量　108
8.2.3　稀疏矩陣　109
8.2.4　優化　110
8.3　Pandas　111
8.3.1　讀取數據　112
8.3.2　時序數據　114
8.3.3　列轉換　115
8.3.4　噪聲數據　116
8.4　Matplotlib　117
8.4.1　subplot　118
8.4.2　添加軸　119
8.4.3　散點圖　120
8.4.4　柱狀圖　120
8.4.5　3D圖　121
8.5　外部參考　121
8.6　本章小結　121
第9章　使用Python進行社交媒體
挖掘　122
9.1　數據收集　122
9.2　數據提取　126
9.3　地理可視化　128
9.3.1　影響者檢測　129
9.3.2　Facebook　130
9.3.3　影響者的朋友　134
9.4　本章小結　135
第　10章大規模的文本挖掘　136
10.1　在Hadoop上使用Python的
不同方法　136
10.1.1　Python的流　137
10.1.2　Hive/Pig UDF　137
10.1.3　流包裝器　137
10.2　在Hadoop上運行NLTK　138
10.2.1　UDF　138
10.2.2　Python流　140
10.3　在Hadoop上運行
Scikit-learn　141
10.4　PySpark　144
10.5　本章小結　146
模塊2　使用Python 3的NLTK 3進行文本處理
第　1章標記文本和WordNet的基礎　149
1.1　引言　149
1.2　將文本標記成句子　150
1.2.1　準備工作　150
1.2.2　工作方式　151
1.2.3　工作原理　151
1.2.4　更多信息　151
1.2.5　請參閱　152
1.3　將句子標記成單詞　152
1.3.1　工作方式　152
1.3.2　工作原理　153
1.3.3　更多信息　153
1.3.4　請參閱　154
1.4　使用正則錶達式標記語句　154
1.4.1　準備工作　155
1.4.2　工作方式　155
1.4.3　工作原理　155
1.4.4　更多信息　155
1.4.5　請參閱　156
1.5　訓練語句標記生成器　156
1.5.1　準備工作　156
1.5.2　工作方式　156
1.5.3　工作原理　157
1.5.4　更多信息　158
1.5.5　請參閱　158
1.6　在已標記的語句中過濾
停用詞　158
1.6.1　準備工作　158
1.6.2　工作方式　159
1.6.3　工作原理　159
1.6.4　更多信息　159
1.6.5　請參閱　160
1.7　查找WordNet中單詞的
Synset　160
1.7.1　準備工作　160
1.7.2　工作方式　160
1.7.3　工作原理　161
1.7.4　更多信息　161
1.7.5　請參閱　163
1.8　在WordNet中查找詞元和
同義詞　163
1.8.1　工作方式　163
1.8.2　工作原理　163
1.8.3　更多信息　163
1.8.4　請參閱　165
1.9　計算WordNet和Synset的
相似度　165
1.9.1　工作方式　165
1.9.2　工作原理　165
1.9.3　更多信息　166
1.9.4　請參閱　167
1.10　發現單詞搭配　167
1.10.1　準備工作　167
1.10.2　工作方式　167
1.10.3　工作原理　168
1.10.4　更多信息　168
1.10.5　請參閱　169
第　2章替換和校正單詞　170
2.1　引言　170
2.2　詞乾提取　170
2.2.1　工作方式　171
2.2.2　工作原理　171
2.2.3　更多信息　171
2.2.4　請參閱　173
2.3　使用WordNet進行詞形還原　173
2.3.1　準備工作　173
2.3.2　工作方式　173
2.3.3　工作原理　174
2.3.4　更多信息　174
2.3.5　請參閱　175
2.4　基於匹配的正則錶達式替換
單詞　175
2.4.1　準備工作　175
2.4.2　工作方式　175
2.4.3　工作原理　176
2.4.4　更多信息　177
2.4.5　請參閱　177
2.5　移除重復字符　177
2.5.1　準備工作　177
2.5.2　工作方式　178
2.5.3　工作原理　178
2.5.4　更多信息　179
2.5.5　請參閱　179
2.6　使用Enchant進行拼寫校正　180
2.6.1　準備工作　180
2.6.2　工作方式　180
2.6.3　工作原理　181
2.6.4　更多信息　181
2.6.5　請參閱　183
2.7　替換同義詞　183
2.7.1　準備工作　183
2.7.2　工作方式　183
2.7.3　工作原理　184
2.7.4　更多信息　184
2.7.5　請參閱　185
2.8　使用反義詞替換否定形式　186
2.8.1　工作方式　186
2.8.2　工作原理　187
2.8.3　更多信息　187
2.8.4　請參閱　188
第3章　創建自定義語料庫　189
3.1　引言　189
3.2　建立自定義語料庫　190
3.2.1　準備工作　190
3.2.2　工作方式　190
3.2.3　工作原理　191
3.2.4　更多信息　192
3.2.5　請參閱　192
3.3　創建詞匯錶語料庫　192
3.3.1　準備工作　192
3.3.2　工作方式　193
3.3.3　工作原理　193
3.3.4　更多信息　194
3.3.5　請參閱　194
3.4　創建已標記詞性單詞的
語料庫　195
3.4.1　準備工作　195
3.4.2　工作方式　195
3.4.3　工作原理　196
3.4.4　更多信息　196
3.4.5　請參閱　199
3.5　創建已組塊短語的語料庫　199
3.5.1　準備工作　199
3.5.2　工作方式　199
3.5.3　工作原理　201
3.5.4　更多信息　201
3.5.5　請參閱　203
3.6　創建已分類文本的語料庫　203
3.6.1　準備工作　204
3.6.2　工作方式　204
3.6.3　工作原理　204
3.6.4　更多信息　205
3.6.5　請參閱　206
3.7　創建已分類組塊語料庫
讀取器　206
3.7.1　準備工作　206
3.7.2　工作方式　207
3.7.3　工作原理　208
3.7.4　更多信息　209
3.7.5　請參閱　213
3.8　懶惰語料庫加載　213
3.8.1　工作方式　213
3.8.2　工作原理　214
3.8.3　更多信息　214
3.9　創建自定義語料庫視圖　215
3.9.1　工作方式　215
3.9.2　工作原理　216
3.9.3　更多信息　217
3.9.4　請參閱　218
3.10　創建基於MongoDB的
語料庫讀取器　218
3.10.1　準備工作　219
3.10.2　工作方式　219
3.10.3　工作原理　220
3.10.4　更多信息　221
3.10.5　請參閱　221
3.11　在加鎖文件的情況下編輯
語料庫　221
3.11.1　準備工作　221
3.11.2　工作方式　221
3.11.3　工作原理　222
第4章　詞性標注　224
4.1　引言　224
4.2　默認標注　225
4.2.1　準備工作　225
4.2.2　工作方式　225
4.2.3　工作原理　226
4.2.4　更多信息　227
4.2.5　請參閱　228
4.3　訓練一元組詞性標注器　228
4.3.1　工作方式　228
4.3.2　工作原理　229
4.3.3　更多信息　230
4.3.4　請參閱　231
4.4　迴退標注的組閤標注器　231
4.4.1　工作方式　231
4.4.2　工作原理　232
4.4.3　更多信息　232
4.4.4　請參閱　233
4.5　訓練和組閤N元標注器　233
4.5.1　準備工作　233
4.5.2　工作方式　233
4.5.3　工作原理　234
4.5.4　更多信息　235
4.5.5　請參閱　236
4.6　創建似然單詞標簽的
模型　236
4.6.1　工作方式　236
4.6.2　工作原理　237
4.6.3　更多信息　237
4.6.4　請參閱　238
4.7　使用正則錶達式標注　238
4.7.1　準備工作　238
4.7.2　工作方式　238
4.7.3　工作原理　239
4.7.4　更多信息　239
4.7.5　請參閱　239
4.8　詞綴標簽　239
4.8.1　工作方式　239
4.8.2　工作原理　240
4.8.3　更多信息　240
4.8.4　請參閱　241
4.9　訓練布裏爾標注器　241
4.9.1　工作方式　241
4.9.2　工作原理　242
4.9.3　更多信息　243
4.9.4　請參閱　244
4.10　訓練TnT標注器　244
4.10.1　工作方式　244
4.10.2　工作原理　244
4.10.3　更多信息　245
4.10.4　請參閱　246
4.11　使用WordNet進行
標注　246
4.11.1　準備工作　246
4.11.2　工作方式　247
4.11.3　工作原理　248
4.11.4　請參閱　248
4.12　標注專有名詞　248
4.12.1　工作方式　248
4.12.2　工作原理　249
4.12.3　請參閱　249
4.13　基於分類器的標注　249
4.13.1　工作方式　250
4.13.2　工作原理　250
4.13.3　更多信息　251
4.13.4　請參閱　252
4.14　使用NLTK訓練器訓練
標注器　253
4.14.1　工作方式　253
4.14.2　工作原理　254
4.14.3　更多信息　258
4.14.4　請參閱　260
第5章　提取組塊　261
5.1　引言　261
5.2　使用正則錶達式組塊和
隔斷　262
5.2.1　準備工作　262
5.2.2　工作方式　262
5.2.3　工作原理　263
5.2.4　更多信息　265
5.2.5　請參閱　267
5.3　使用正則錶達式閤並和拆分
組塊　267
5.3.1　工作方式　267
5.3.2　工作原理　269
5.3.3　更多信息　270
5.3.4　請參閱　271
5.4　使用正則錶達式擴展和刪除
組塊　271
5.4.1　工作方式　271
5.4.2　工作原理　272
5.4.3　更多信息　273
5.4.4　請參閱　273
5.5　使用正則錶達式進行部分
解析　273
5.5.1　工作方式　273
5.5.2　工作原理　274
5.5.3　更多信息　275
5.5.4　請參閱　276
5.6　訓練基於標注器的組塊器　276
5.6.1　工作方式　276
5.6.2　工作原理　277
5.6.3　更多信息　278
5.6.4　請參閱　279
5.7　基於分類的分塊　279
5.7.1　工作方式　279
5.7.2　工作原理　282
5.7.3　更多信息　282
5.7.4　請參閱　283
5.8　提取命名實體　283
5.8.1　工作方式　283
5.8.2　工作原理　284
5.8.3　更多信息　284
5.8.4　請參閱　285
5.9　提取專有名詞組塊　285
5.9.1　工作方式　286
5.9.2　工作原理　286
5.9.3　更多信息　286
5.10　提取部位組塊　287
5.10.1　工作方式　288
5.10.2　工作原理　290
5.10.3　更多信息　290
5.10.4　請參閱　290
5.11　訓練命名實體組塊器　290
5.11.1　工作方式　290
5.11.2　工作原理　292
5.11.3　更多信息　292
5.11.4　請參閱　293
5.12　使用NLTK訓練器訓練
組塊器　293
5.12.1　工作方式　293
5.12.2　工作原理　294
5.12.3　更多信息　295
5.12.4　請參閱　299
第6章　轉換組塊與樹　300
6.1　引言　300
6.2　過濾句子中無意義的
單詞　301
6.2.1　準備工作　301
6.2.2　工作方式　301
6.2.3　工作原理　302
6.2.4　更多信息　302
6.2.5　請參閱　303
6.3　糾正動詞形式　303
6.3.1　準備工作　303
6.3.2　工作方式　303
6.3.3　工作原理　305
6.3.4　請參閱　306
6.4　交換動詞短語　306
6.4.1　工作方式　306
6.4.2　工作原理　307
6.4.3　更多信息　307
6.4.4　請參閱　307
6.5　交換名詞基數　308
6.5.1　工作方式　308
6.5.2　工作原理　309
6.5.3　請參閱　309
6.6　交換不定式短語　309
6.6.1　工作方式　309
6.6.2　工作原理　310
6.6.3　更多信息　310
6.6.4　請參閱　310
6.7　單數化復數名詞　310
6.7.1　工作方式　310
6.7.2　工作原理　311
6.7.3　請參閱　311
6.8　鏈接組塊變換　311
6.8.1　工作方式　311
6.8.2　工作原理　312
6.8.3　更多信息　312
6.8.4　請參閱　313
6.9　將組塊樹轉換為文本　313
6.9.1　工作方式　313
6.9.2　工作原理　314
6.9.3　更多信息　314
6.9.4　請參閱　314
6.10　平展深度樹　314
6.10.1　準備工作　315
6.10.2　工作方式　315
6.10.3　工作原理　316
6.10.4　更多信息　317
6.10.5　請參閱　318
6.11　創建淺樹　318
6.11.1　工作方式　318
6.11.2　工作原理　320
6.11.3　請參閱　320
6.12　轉換樹標簽　320
6.12.1　準備工作　320
6.12.2　工作方式　321
6.12.3　工作原理　322
6.12.4　請參閱　322
第7章　文本分類　323
7.1　引言　323
7.2　詞袋特徵提取　324
7.2.1　工作方式　324
7.2.2　工作原理　325
7.2.3　更多信息　325
7.2.4　請參閱　327
7.3　訓練樸素貝葉斯
分類器　327
7.3.1　準備工作　327
7.3.2　工作方式　328
7.3.3　工作原理　329
7.3.4　更多信息　330
7.3.5　請參閱　333
7.4　訓練決策樹分類器　334
7.4.1　工作方式　334
7.4.2　工作原理　335
7.4.3　更多信息　335
7.4.4　請參閱　337
7.5　訓練最大熵分類器　337
7.5.1　準備工作　337
7.5.2　工作方式　337
7.5.3　工作原理　338
7.5.4　更多信息　339
7.5.5　請參閱　340
7.6　訓練scikit-learn
分類器　340
7.6.1　準備工作　341
7.6.2　工作方式　341
7.6.3　工作原理　342
7.6.4　更多信息　343
7.6.5　請參閱　345
7.7　衡量分類器的精準率和
召迴率　346
7.7.1　工作方式　346
7.7.2　工作原理　347
7.7.3　更多信息　348
7.7.4　請參閱　349
7.8　計算高信息量單詞　349
7.8.1　工作方式　350
7.8.2　工作原理　351
7.8.3　更多信息　352
7.8.4　請參閱　354
7.9　使用投票組閤分類器　354
7.9.1　準備工作　355
7.9.2　工作方式　355
7.9.3　工作原理　356
7.9.4　請參閱　356
7.10　使用多個二元分類器
分類　357
7.10.1　準備工作　357
7.10.2　工作方式　357
7.10.3　工作原理　361
7.10.4　更多信息　362
7.10.5　請參閱　363
7.11　使用NLTK訓練器訓練
分類器　363
7.11.1　工作方式　363
7.11.2　工作原理　364
7.11.3　更多信息　365
7.11.4　請參閱　371
第8章　分布式進程和大型數據集的
處理　372
8.1　引言　372
8.2　使用execnet進行分布式
標注　372
8.2.1　準備工作　373
8.2.2　工作方式　373
8.2.3　工作原理　374
8.2.4　更多內容　375
8.2.5　請參閱　377
8.3　使用execnet進行分布式
組塊　377
8.3.1　準備工作　377
8.3.2　工作方式　377
8.3.3　工作原理　378
8.3.4　更多內容　379
8.3.5　請參閱　379
8.4　使用execnet並行處理
列錶　379
8.4.1　工作方式　379
8.4.2　工作原理　380
8.4.3　更多內容　381
8.4.4　請參閱　381
8.5　在Redis中存儲頻率分布　382
8.5.1　準備工作　382
8.5.2　工作方式　382
8.5.3　工作原理　384
8.5.4　更多內容　385
8.5.5　請參閱　386
8.6　在Redis中存儲條件頻率
分布　386
8.6.1　準備工作　386
8.6.2　工作方式　386
8.6.3　工作原理　387
8.6.4　更多內容　388
8.6.5　請參閱　388
8.7　在Redis中存儲有序
字典　388
8.7.1　準備工作　388
8.7.2　工作方式　388
8.7.3　工作原理　390
8.7.4　更多內容　391
8.7.5　請參閱　392
8.8　使用Redis和execnet進行
分布式單詞評分　392
8.8.1　準備工作　392
8.8.2　工作方式　392
8.8.3　工作原理　393
8.8.4　更多內容　396
8.8.5　請參閱　396
第9章　解析特定的數據類型　397
9.1　引言　397
9.2　使用dateutil解析日期和
時間　398
9.2.1　準備工作　398
9.2.2　工作方式　398
9.2.3　工作原理　399
9.2.4　更多信息　399
9.2.5　請參閱　399
9.3　時區的查找和轉換　400
9.3.1　準備工作　400
9.3.2　工作方式　400
9.3.3　工作原理　402
9.3.4　更多信息　402
9.3.5　請參閱　403
9.4　使用lxml從HTML中提取
URL　403
9.4.1　準備工作　403
9.4.2　工作方式　403
9.4.3　工作原理　404
9.4.4　更多信息　404
9.4.5　請參閱　405
9.5　清理和剝離HTML　405
9.5.1　準備工作　405
9.5.2　工作方式　405
9.5.3　工作原理　405
9.5.4　更多信息　406
9.5.5　請參閱　406
9.6　使用BeautifulSoup轉換
HTML實體　406
9.6.1　準備工作　406
9.6.2　工作方式　406
9.6.3　工作原理　407
9.6.4　更多信息　407
9.6.5　請參閱　407
9.7　檢測和轉換字符編碼　407
9.7.1　準備工作　408
9.7.2　工作方式　408
9.7.3　工作原理　409
9.7.4　更多信息　409
9.7.5　請參閱　410
附錄A　賓州treebank詞性標簽　411
模塊3　使用Python掌握自然語言處理
第　1章使用字符串　417
1.1　標記化　417
1.1.1　將文本標記為句子　418
1.1.2　其他語言文字的標記化　418
1.1.3　將句子標記為單詞　419
1.1.4　使用TreebankWordTokenizer
進行標記化　420
1.1.5　使用正則錶達式進行
標記化　421
1.2　規範化　424
1.2.1　消除標點符號　424
1.2.2　轉化為小寫和大寫　425
1.2.3　處理停用詞　425
1.2.4　計算英語中的停用詞　426
1.3　替代和糾正標記　427
1.3.1　使用正則錶達式替換
單詞　427
1.3.2　使用一個文本替換另一個
文本的示例　428
1.3.3　在標記化之前進行
替代　428
1.3.4　處理重復的字符　428
1.3.5　刪除重復字符的示例　429
1.3.6　使用單詞的同義詞替換
單詞　430
1.4　在文本上應用齊夫定律　431
1.5　相似性量度　431
1.5.1　使用編輯距離算法應用
相似性量度　432
1.5.2　使用傑卡德係數應用
相似性量度　434
1.5.3　使用史密斯-沃特曼算法
應用相似性量度　434
1.5.4　其他字符串相似性指標　435
1.6　本章小結　436
第　2章統計語言模型　437
2.1　單詞頻率　437
2.1.1　對給定文本進行最大
似然估計　441
2.1.2　隱馬爾可夫模型估計　448
2.2　在MLE模型上應用平滑　450
2.2.1　加一平滑法　450
2.2.2　古德-圖靈算法　451
2.2.3　聶氏估計　456
2.2.4　威滕貝爾估計　457
2.3　為MLE指定迴退機製　457
2.4　應用數據插值獲得混閤和
匹配　458
2.5　應用睏惑度評估語言模型　458
2.6　在建模語言中應用
梅特羅波利斯-黑斯廷斯算法　459
2.7　在語言處理中應用
吉布斯采樣　459
2.8　本章小結　461
第3章　詞語形態學—試一試　462
3.1　詞語形態學　462
3.2　詞根還原器　463
3.3　詞形還原　466
3.4　開發用於非英語語言的詞根
還原器　467
3.5　詞語形態分析器　469
3.6　詞語形態生成器　471
3.7　搜索引擎　471
3.8　本章小結　475
第4章　詞性標注—識彆單詞　476
4.1　詞性標注　476
4.2　創建POS標注的語料庫　482
4.3　選擇某個機器學習算法　484
4.4　涉及n元組方法的統計建模　486
4.5　使用POS標注的語料庫開發
組塊器　491
4.6　本章小結　494
第5章　解析—分析訓練數據　495
5.1　解析　495
5.2　構建樹庫　496
5.3　從樹庫中提取上下文無關文法的
規則　501
5.4　從CFG中創建概率上下文無關的
文法　507
5.5　CYK圖解析算法　509
5.6　厄雷圖解析算法　510
5.7　本章小結　516
第6章　語義分析—意義重大　517
6.1　語義分析　517
6.1.1　NER簡介　521
6.1.2　使用隱馬爾可夫模型的
NER係統　525
6.1.3　使用機器學習工具包訓練
NER　530
6.1.4　使用POS標注的
NER　531
6.2　從Wordnet中生成同義詞集
ID　534
6.3　使用Wordnet消除歧義　537
6.4　本章小結　541
第7章　情感分析—我很高興　542
7.1　情感分析　542
7.2　使用機器學習的情感分析　548
7.3　本章小結　572
第8章　信息檢索—訪問信息　573
8.1　信息檢索　573
8.1.1　停用詞刪除　574
8.1.2　利用嚮量空間模型進行
信息檢索　576
8.2　嚮量空間評分以及與查詢
操作器交互　583
8.3　利用隱含語義索引開發IR
係統　586
8.4　文本摘要　587
8.5　問答係統　588
8.6　本章小結　589
第9章　話語分析—知識就是信仰　590
9.1　話語分析　590
9.1.1　使用定中心理論進行
話語分析　595
9.1.2　迴指解析　596
9.2　本章小結　601
第　10章 NLP係統的評估—
性能分析　602
10.1　對NLP係統進行評估的
需求　602
10.1.1　NLP工具（POS標注器、
詞乾還原器和形態分析器）
的評估　603
10.1.2　使用黃金數據評估
解析器　613
10.2　IR係統的評估　614
10.3　錯誤識彆的指標　614
10.4　基於詞匯匹配的指標　615
10.5　基於語法匹配的指標　619
10.6　使用淺層語義匹配的
指標　620
10.7　本章小結　621
參考書目　622
· · · · · · (收起)