麵嚮機器學習的自然語言標注

麵嚮機器學習的自然語言標注 pdf epub mobi txt 電子書 下載2025

出版者:機械工業齣版社
作者:[美] 普斯特若夫斯基(James Pustejovsky),
出品人:華章IT
頁數:293
译者:邱立坤
出版時間:2017-2-1
價格:79
裝幀:平裝
isbn號碼:9787111555155
叢書系列:
圖書標籤:
  • 自然語言處理
  • 機器學習
  • nlp
  • 計算機
  • 人工智能
  • Linguistics
  • NLP
  • 想讀的書
  • 機器學習
  • 自然語言處理
  • 文本標注
  • 人工智能
  • 數據標注
  • 深度學習
  • 語義分析
  • 語言模型
  • 標注規範
  • 自然語言理解
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

自然語言理解是人工智能的一個重要分支,主要研究如何利用計算機來理解和生成自然語言。本書重點介紹瞭自然語言理解所涉及的各個方麵,包括語法分析、語義分析、概念分析、語料庫語言學、詞匯語義驅動、中間語言、WordNet、詞匯樹鄰接文法、鏈接文法、基於語段的機器翻譯方法、內識彆與文本過濾、機器翻譯的評測等,既有對基礎知識的介紹,又有對新研究進展的綜述,同時還結閤瞭作者(JamesPustejovsky,生成詞庫理論的創始人)多年的研究成果。本書內容全麵、詳略得當,結閤實例講解,使讀者更易理解。

著者簡介

James Pustejovsky教授是美國布蘭代斯(Brandeis University)大學計算機科學係和Volen國傢綜閤係統中心教授。先後在美國麻省理工學院和馬薩諸塞大學獲得學士學位和博士學位。Pustejovsky教授主要從事自然語言的理論和計算研究。研究領域包括:計算語言學、詞匯語義學、知識錶徵、話語語義學、時間推理和抽取等。已經齣版多部專著。

圖書目錄

前言1
第1章基礎知識7
1.1語言標注的重要性7
1.1.1語言學描述的層次8
1.1.2什麼是自然語言處理9
1.2語料庫語言學簡史10
1.2.1什麼是語料庫13
1.2.2語料庫的早期應用15
1.2.3當今的語料庫17
1.2.4標注類型18
1.3語言數據和機器學習24
1.3.1分類25
1.3.2聚類25
1.3.3結構化模式歸納26
1.4標注開發循環26
1.4.1現象建模27
1.4.2按照規格說明進行標注30
1.4.3在語料庫上訓練和測試算法31
1.4.4對結果進行評價32
1.4.5修改模型和算法33
總結34
第2章確定目標與選擇數據36
2.1定義目標36
2.1.1目標陳述37
2.1.2提煉目標:信息量與正確性38
2.2背景研究43
2.2.1語言資源44
2.2.2機構與會議44
2.2.3自然語言處理競賽45
2.3整閤數據集46
2.3.1理想的語料庫:代錶性與平衡性47
2.3.2從因特網上收集數據47
2.3.3從人群中獲取數據48
2.4語料庫的規模49
2.4.1現有語料庫50
2.4.2語料庫內部的分布51
總結53
第3章語料庫分析54
3.1語料庫分析中的基本概率知識55
3.1.1聯閤概率分布56
3.1.2貝葉斯定理58
3.2計算齣現次數58
3.2.1齊普夫定律(Zip'sLaw)61
3.2.2n元語法62
3.3語言模型63
總結65
第4章建立模型與規格說明66
4.1模型和規格說明示例66
4.1.1電影題材分類69
4.1.2添加命名實體70
4.1.3語義角色71
4.2采用(或不采用)現有模型73
4.2.1創建模型和規格說明:一般性與特殊性74
4.2.2使用現有模型和規格說明76
4.2.3使用沒有規格說明的模型78
4.3各種標準78
4.3.1ISO標準78
4.3.2社區驅動型標準81
4.3.3影響標注的其他標準81
總結82
第5章選擇並應用標注標準84
5.1元數據標注:文檔分類85
5.1.1單標簽標注:電影評論85
5.1.2多標簽標注:電影題材87
5.2文本範圍標注:命名實體90
5.2.1內嵌式標注90
5.2.2基於詞例的分離式標注92
5.2.3基於字符位置的分離式標注95
5.3鏈接範圍標注:語義角色96
5.4ISO標準和你97
總結97
第6章標注與審核99
6.1標注項目的基本結構99
6.2標注規格說明與標注指南101
6.3準備修改102
6.4準備用於標注的數據103
6.4.1元數據103
6.4.2數據預處理104
6.4.3為標注工作分割文件104
6.5撰寫標注指南105
6.5.1例1:單標簽標注——電影評論106
6.5.2例2:多標簽標注——電影題材108
6.5.3例3:範圍標注——命名實體111
6.5.4例4:鏈接範圍標注——語義角色112
6.6標注人員114
6.7選擇標注環境116
6.8評價標注結果117
6.8.1Cohen的Kappa(κ)算法118
6.8.2Fleiss的Kappa(κ)算法119
6.8.3解釋Kappa係數122
6.8.4在其他上下文中計算κ值123
6.9創建黃金標準(審核)125
總結126
第7章訓練:機器學習129
7.1何謂學習130
7.2定義學習任務132
7.3分類算法133
7.3.1決策樹學習135
7.3.2樸素貝葉斯學習140
7.3.3最大熵分類器145
7.3.4其他需要瞭解的分類器147
7.4序列歸納算法148
7.5聚類和無監督學習150
7.6半監督學習150
7.7匹配標注與算法153
總結154
第8章測試與評價156
8.1測試算法157
8.2評價算法157
8.2.1混淆矩陣157
8.2.2計算評價得分159
8.2.3解釋評價得分163
8.3可能影響算法評價的問題164
8.3.1數據集太小164
8.3.2算法過於適閤開發數據166
8.3.3標注中的信息過多166
8.4最後測試得分167
總結167
……
第9章修改與報告169
第10章標注:TimeML179
第11章自動標注:生成TimeML199
第12章後記:標注的未來發展趨勢217
附錄A可利用的語料庫與標注規格說明列錶227
附錄B軟件資源列錶249
附錄CMAE用戶指南269
附錄DMAI用戶指南276
附錄E參考文獻282
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

簡直是AI生成的書,仿佛說瞭很多,卻一點用都沒有。附錄的數據集還可以。

评分

粗疏

评分

粗疏

评分

對語料庫構建方法和標注過程均有較詳細的介紹,並貫穿以例子幫助讀者理解其中概念,可以為初涉自然語言處理領域研究者提供參考。另,Pustejovsky的學生Sauri的博士論文與這本書也有些關係。

评分

這本書主要是供開拓眼界用的,匯集瞭許多資源列錶,講解瞭很多背景知識,中英文術語對照做的挺好。對各種標注方法的優劣做瞭比較,印象較深的是內嵌式標注和分離式標注的優劣。

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有