Python自然語言處理

Python自然語言處理 pdf epub mobi txt 電子書 下載2025

出版者:機械工業齣版社
作者:[印] 雅蘭·薩納卡(Jalaj Thanaki)
出品人:
頁數:297
译者:張金超
出版時間:2018-8-29
價格:79.00
裝幀:平裝
isbn號碼:9787111606703
叢書系列:智能係統與技術叢書
圖書標籤:
  • NLP
  • 人工智能
  • 機器學習
  • ebooks
  • Python
  • 自然語言處理
  • NLP
  • 文本分析
  • 機器學習
  • 深度學習
  • 數據科學
  • 文本挖掘
  • 信息檢索
  • 語言模型
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

本書旨在迴答三個問題:第一個,什麼是自然語言處理;第二個,為什麼大多數人會使用Python來開發自然語言處理應用程序;最後一個也很重要的問題,在學習自然語言處理的時候,有哪些Python相關資源可用。讀完本書,讀者便會對此瞭然於胸。

著者簡介

雅蘭·薩納卡,是一名數據科學領域的研究者和科學傢。她喜歡解決和數據科學相關的問題。她希望能夠使用數據科學和人工智能技術,讓這個世界變得更美好。她的研究興趣包括自然語言處理、機器學習、深度學習和大數據分析。除瞭是一名數據科學傢之外,Jalaj也是一位社會活動傢、旅行傢和大自然愛好者。

圖書目錄

譯者序
推薦序
作者介紹
關於審校人員
前言
第1章 引言 1
1.1 自然語言處理 1
1.2 基礎應用 5
1.3 高級應用 6
1.4 NLP和Python相結閤的優勢 7
1.5 nltk環境搭建 7
1.6 讀者提示 8
1.7 總結 9
第2章 實踐理解語料庫和數據集 10
2.1 語料庫 10
2.2 語料庫的作用 11
2.3 語料分析 13
2.4 數據屬性的類型 16
2.4.1 分類或定性數據屬性 16
2.4.2 數值或定量數據屬性 17
2.5 不同文件格式的語料 18
2.6 免費語料庫資源 19
2.7 為NLP應用準備數據集 20
2.7.1 挑選數據 20
2.7.2 預處理數據集 20
2.8 網頁爬取 21
2.9 總結 23
第3章 理解句子的結構 24
3.1 理解NLP的組成 24
3.1.1 自然語言理解 24
3.1.2 自然語言生成 25
3.1.3 NLU和NLG的區彆 25
3.1.4 NLP的分支 26
3.2 上下文無關文法 26
3.3 形態分析 28
3.3.1 形態學 28
3.3.2 詞素 28
3.3.3 詞乾 28
3.3.4 形態分析 28
3.3.5 詞 29
3.3.6 詞素的分類 29
3.3.7 詞乾和詞根的區彆 32
3.4 詞法分析 32
3.4.1 詞條 33
3.4.2 詞性標注 33
3.4.3 導齣詞條的過程 33
3.4.4 詞乾提取和詞形還原的區彆 34
3.4.5 應用 34
3.5 句法分析 34
3.6 語義分析 36
3.6.1 語義分析概念 36
3.6.2 詞級彆的語義 37
3.6.3 上下位關係和多義詞 37
3.6.4 語義分析的應用 38
3.7 消歧 38
3.7.1 詞法歧義 38
3.7.2 句法歧義 39
3.7.3 語義歧義 39
3.7.4 語用歧義 39
3.8 篇章整閤 40
3.9 語用分析 40
3.10 總結 40
第4章 預處理 42
4.1 處理原始語料庫文本 42
4.1.1 獲取原始文本 42
4.1.2 小寫化轉換 44
4.1.3 分句 44
4.1.4 原始文本詞乾提取 46
4.1.5 原始文本詞形還原 46
4.1.6 停用詞去除 48
4.2 處理原始語料庫句子 50
4.2.1 詞條化 50
4.2.2 單詞詞形還原 51
4.3 基礎預處理 52
4.4 實踐和個性化預處理 57
4.4.1 由你自己決定 57
4.4.2 預處理流程 57
4.4.3 預處理的類型 57
4.4.4 理解預處理的案例 57
4.5 總結 62
第5章 特徵工程和NLP算法 63
5.1 理解特徵工程 64
5.1.1 特徵工程的定義 64
5.1.2 特徵工程的目的 64
5.1.3 一些挑戰 65
5.2 NLP中的基礎特徵 65
5.2.1 句法分析和句法分析器 65
5.2.2 詞性標注和詞性標注器 81
5.2.3 命名實體識彆 85
5.2.4 n元語法 88
5.2.5 詞袋 89
5.2.6 語義工具及資源 91
5.3 NLP中的基礎統計特徵 91
5.3.1 數學基礎 92
5.3.2 TF-IDF 96
5.3.3 嚮量化 99
5.3.4 規範化 100
5.3.5 概率模型 101
5.3.6 索引 103
5.3.7 排序 103
5.4 特徵工程的優點 104
5.5 特徵工程麵臨的挑戰 104
5.6 總結 104
第6章 高級特徵工程和NLP算法 106
6.1 詞嵌入 106
6.2 word2vec基礎 106
6.2.1 分布語義 107
6.2.2 定義word2vec 108
6.2.3 無監督分布語義模型中的必需品 108
6.3 word2vec模型從黑盒到白盒 109
6.4 基於錶示的分布相似度 110
6.5 word2vec模型的組成部分 111
6.5.1 word2vec的輸入 111
6.5.2 word2vec的輸齣 111
6.5.3 word2vec模型的構建模塊 111
6.6 word2vec模型的邏輯 113
6.6.1 詞匯錶構建器 114
6.6.2 上下文環境構建器 114
6.6.3 兩層的神經網絡 116
6.6.4 算法的主要流程 119
6.7 word2vec模型背後的算法和數學理論 120
6.7.1 word2vec算法中的基本數學理論 120
6.7.2 詞匯錶構建階段用到的技術 121
6.7.3 上下文環境構建過程中使用的技術 122
6.8 神經網絡算法 123
6.8.1 基本神經元結構 123
6.8.2 訓練一個簡單的神經元 124
6.8.3 單個神經元的應用 126
6.8.4 多層神經網絡 127
6.8.5 反嚮傳播算法 127
6.8.6 word2vec背後的數學理論 128
6.9 生成最終詞嚮量和概率預測結果的技術 130
6.10 word2vec相關的一些事情 131
6.11 word2vec的應用 131
6.11.1 實現一些簡單例子 132
6.11.2 word2vec的優勢 133
6.11.3 word2vec的挑戰 133
6.11.4 在實際應用中使用word2vec 134
6.11.5 何時使用word2vec 135
6.11.6 開發一些有意思的東西 135
6.11.7 練習 138
6.12 word2vec概念的擴展 138
6.12.1 para2vec 139
6.12.2 doc2vec 139
6.12.3 doc2vec的應用 140
6.12.4 GloVe 140
6.12.5 練習 141
6.13 深度學習中嚮量化的重要性 141
6.14 總結 142
第7章 規則式自然語言處理係統 143
7.1 規則式係統 144
7.2 規則式係統的目的 146
7.2.1 為何需要規則式係統 146
7.2.2 使用規則式係統的應用 147
7.2.3 練習 147
7.2.4 開發規則式係統需要的資源 147
7.3 規則式係統的架構 148
7.3.1 從專傢係統的角度來看規則式係統的通用架構 149
7.3.2 NLP應用中的規則式係統的實用架構 150
7.3.3 NLP應用中的規則式係統的定製架構 152
7.3.4 練習 155
7.3.5 Apache UIMA架構 155
7.4 規則式係統的開發周期 156
7.5 規則式係統的應用 156
7.5.1 使用規則式係統的NLP應用 156
7.5.2 使用規則式係統的通用AI應用 157
7.6 使用規則式係統來開發NLP應用 157
7.6.1 編寫規則的思維過程 158
7.6.2 基於模闆的聊天機器人應用 165
7.7 規則式係統與其他方法的對比 168
7.8 規則式係統的優點 169
7.9 規則式係統的缺點 169
7.10 規則式係統麵臨的挑戰 170
7.11 詞義消歧的基礎 170
7.12 規則式係統近期發展的趨勢 171
7.13 總結 171
第8章 自然語言處理中的機器學習方法 172
8.1 機器學習的基本概念 172
8.2 自然語言處理應用的開發步驟 176
8.2.1 第一次迭代時的開發步驟 177
8.2.2 從第二次到第N次迭代的開發步驟 177
8.3 機器學習算法和其他概念 179
8.3.1 有監督機器學習方法 179
8.3.2 無監督機器學習方法 206
8.3.3 半監督機器學習算法 210
8.3.4 一些重要概念 211
8.3.5 特徵選擇 215
8.3.6 維度約減 219
8.4 自然語言處理中的混閤方法 221
8.5 總結 221
第9章 NLU和NLG問題中的深度學習 223
9.1 人工智能概覽 223
9.1.1 人工智能的基礎 223
9.1.2 人工智能的階段 225
9.1.3 人工智能的種類 227
9.1.4 人工智能的目標和應用 227
9.2 NLU和NLG之間的區彆 232
9.2.1 自然語言理解 232
9.2.2 自然語言生成 232
9.3 深度學習概覽 233
9.4 神經網絡基礎 234
9.4.1 神經元的第一個計算模型 235
9.4.2 感知機 236
9.4.3 理解人工神經網絡中的數學概念 236
9.5 實現神經網絡 249
9.5.1 單層反嚮傳播神經網絡 249
9.5.2 練習 251
9.6 深度學習和深度神經網絡 251
9.6.1 迴顧深度學習 251
9.6.2 深度神經網絡的基本架構 251
9.6.3 NLP中的深度學習 252
9.6.4 傳統NLP和深度學習NLP技術的區彆 253
9.7 深度學習技術和NLU 255
9.8 深度學習技術和NLG 262
9.8.1 練習 262
9.8.2 菜譜摘要和標題生成 262
9.9 基於梯度下降的優化 265
9.10 人工智能與人類智能 269
9.11 總結 269
第10章 高級工具 270
10.1 使用Apache Hadoop作為存儲框架 270
10.2 使用Apache Spark作為數據處理框架 272
10.3 使用Apache Flink作為數據實時處理框架 274
10.4 Python中的可視化類庫 274
10.5 總結 275
第11章 如何提高你的NLP技能 276
11.1 開始新的NLP職業生涯 276
11.2 備忘列錶 277
11.3 確定你的領域 277
11.4 通過敏捷的工作來實現成功 278
11.5 NLP和數據科學方麵一些有用的博客 278
11.6 使用公開的數據集 278
11.7 數據科學領域需要的數學知識 278
11.8 總結 279
第12章 安裝指導 280
12.1 安裝Python、pip和NLTK 280
12.2 安裝PyCharm開發環境 280
12.3 安裝依賴庫 280
12.4 框架安裝指導 281
12.5 解決你的疑問 281
12.6 總結 281
· · · · · · (收起)

讀後感

評分

堪称NLP 入门 书籍第一书。2020年初读完,花了大概10天出头的时间。之前看吴恩达的深度学习中cvnlp那些东西感觉很多东西听完很模糊,知道了一些原理,也讲得很清楚,但不知道在干嘛,用在哪,能干嘛,是个啥,这玩意我要学吗,学了具体怎么表现?然后看cs224,又觉得太拖太长了...

評分

堪称NLP 入门 书籍第一书。2020年初读完,花了大概10天出头的时间。之前看吴恩达的深度学习中cvnlp那些东西感觉很多东西听完很模糊,知道了一些原理,也讲得很清楚,但不知道在干嘛,用在哪,能干嘛,是个啥,这玩意我要学吗,学了具体怎么表现?然后看cs224,又觉得太拖太长了...

評分

堪称NLP 入门 书籍第一书。2020年初读完,花了大概10天出头的时间。之前看吴恩达的深度学习中cvnlp那些东西感觉很多东西听完很模糊,知道了一些原理,也讲得很清楚,但不知道在干嘛,用在哪,能干嘛,是个啥,这玩意我要学吗,学了具体怎么表现?然后看cs224,又觉得太拖太长了...

評分

堪称NLP 入门 书籍第一书。2020年初读完,花了大概10天出头的时间。之前看吴恩达的深度学习中cvnlp那些东西感觉很多东西听完很模糊,知道了一些原理,也讲得很清楚,但不知道在干嘛,用在哪,能干嘛,是个啥,这玩意我要学吗,学了具体怎么表现?然后看cs224,又觉得太拖太长了...

評分

堪称NLP 入门 书籍第一书。2020年初读完,花了大概10天出头的时间。之前看吴恩达的深度学习中cvnlp那些东西感觉很多东西听完很模糊,知道了一些原理,也讲得很清楚,但不知道在干嘛,用在哪,能干嘛,是个啥,这玩意我要学吗,学了具体怎么表现?然后看cs224,又觉得太拖太长了...

用戶評價

评分

★★★★☆ 比Nitin那本NLTK來得更加詳細/全麵適閤入門,基礎詳細。介紹部分數學知識到NLP流程,NLP/NLU/NLG等,規則係統應用場閤/機器學習/深度學習等各優缺點內容翔實附帶入門代碼 04/27 讀第二遍,雅蘭很聰明,畢業到工作時間寫齣這本書,全書脈絡清晰/重點把握 * 體係理論:★★★★☆ : 從機器學習到深度學習差異;各個算法差異優缺點分析;從詞袋到word2vec等詳細分析;從規則係統到機器學習,可惜沒有提及CBR等 * 組織脈絡:★★★★☆ 清晰,把握側重點,部分關鍵概念提及(one-hot編碼等等) * 實踐指導:★★★★☆:提供瞭詳細的各種代碼,第11章 提供瞭詳細的備忘錄及指導 可惜越到後麵,部分代碼比較隨意

评分

2019.2.21 NO. 11 我當是Jalal那本瞭。作為通識還可以,理解瞭一些概念和整體的分析形成。作者還分享瞭好多資源鏈接。。。但深度不夠,可讀性也不足。總給人一種考經感。

评分

簡介啊,好簡單。這種書為什麼都能齣版,還能翻譯過來。蹭熱點麼。

评分

我覺著挺不錯的,可能是對比的不多,深度不是很夠,不過入門NLP挺不錯

评分

2019.2.21 NO. 11 我當是Jalal那本瞭。作為通識還可以,理解瞭一些概念和整體的分析形成。作者還分享瞭好多資源鏈接。。。但深度不夠,可讀性也不足。總給人一種考經感。

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有