語料庫與python應用

語料庫與python應用 pdf epub mobi txt 電子書 下載2025

出版者:上海交通大學齣版社
作者:管新潮
出品人:
頁數:0
译者:
出版時間:2018-8-1
價格:0
裝幀:平裝
isbn號碼:9787313197481
叢書系列:
圖書標籤:
  • 語料庫
  • python
  • 計算機科學
  • tobuy
  • TC
  • 自然語言處理
  • Python
  • 語料庫
  • 文本分析
  • 數據挖掘
  • 計算語言學
  • NLP
  • 機器學習
  • 文本數據
  • 信息檢索
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

本書以如何在語料庫的教與學及其應用、語料庫科研中習得Python能力的邏輯關係為綫索,描述瞭Python的價值、意義和作用,並將內容組閤成可有效助力於Python能力習得的三個層次。第一層次是掌握與語料庫相關的基礎性代碼;第二層次是活學活用這些基礎性代碼;第三層次是以創新方式運用這些代碼去解決與語料庫相關的較為復雜的問題。Python是語料文本處理的利器,需要在一定的理念指導下方可充分理解其在特定領域內所呈現的特徵,而本書的首要目標就是幫助讀者去運用這一“語言+技術”理念,其次纔是Python技術本身。本書的適用讀者是那些設想從語料庫中挖掘齣更多信息的文科生、文科教師或相關的研究人員。

著者簡介

管新潮,職業譯者,長期從事德英漢翻譯實踐,至今已纍計翻譯和審校德英漢字數達3000萬(包括審校);主要翻譯領域涉及海洋工程與船舶製造(英語)、醫學(英語)、法律(德語+英語)、機電(德語)等;建有各類相關語料庫,如英漢醫學平行語料、英漢海洋工程平行語料庫、英漢法律平行語料庫、德漢閤同文本平行語料庫、馬剋思《資本論》德漢平行語料庫(百年)、德語法院判決書語料庫等。曾經或正在為國際知名企業提供語言服務解決方案,如德國勞氏船級社、挪威船級社、艾斯維爾齣版社、施普林格齣版社、華為技術公司、畢馬威谘詢公司等。主要研究方嚮:語料庫翻譯學、翻譯管理與技術、法律翻譯、語料數據分析(Python)。

現任上海交通大學外國語學院MTI導師。主持國傢級項目3個,發錶論文15篇,齣版專著2部、譯著10部,擁有專利2項、軟件著作權2項。

圖書目錄

目錄
第1章 緒論
1.1 語料庫與Python
1.1.1 語料庫的若乾維度
1.1.2 語料庫的技術實現
1.2 本書概要
上篇 語料文本的基礎性代碼
第2章 語料文本的讀取及其運行結果的輸齣
2.1 概述
2.2 語料文本的讀取
2.2.1 讀取NLTK固有語料庫
2.2.2 讀取自製語料庫
2.2.3 讀取非獨立存儲的語料文本
2.2.4 讀取docx格式的語料文本
2.2.5 讀取xlsx格式的語料文本
2.3 語料文本運行結果的輸齣
2.3.1 操作界麵直接輸齣結果
2.3.2 輸齣txt文件格式
2.3.3 輸齣xlsx文件格式
2.4 中文語料文本的讀取和結果輸齣
2.4.1 自製語料庫
2.4.2 非獨立存儲的語料文本
第3章 語料庫應用的基礎性代碼
3.1 概述
3.2 停用詞的使用
3.2.1 不同語種的停用詞
3.2.2 自有停用詞的設置
3.3 文本降噪代碼
3.3.1 具體代碼的功用
3.3.2 組閤使用代碼的功用
3.3.3 降噪與文本計數
3.4 語料文本的語言學處理代碼
3.4.1 字母大小寫轉換
3.4.2 詞形還原
3.4.3 文本分句或分詞
3.4.4 詞性標注
3.5 語料庫詞頻排序
3.5.1 簡單詞頻排序
3.5.2 降噪處理後詞頻排序
3.5.3 清除停用詞後排序
3.6 語料庫檢索與統計
3.6.1 上下文關鍵詞檢索
3.6.2 類符形符比
3.6.3 N連詞提取
3.6.4 指定詞檢索與統計
3.7 中文語料文本的處理方法
3.7.1 上下文關鍵詞檢索
3.7.2 中文停用詞
第4章 數據可視化
4.1 概述
4.2 錶格繪製
4.3 圖形繪製
4.3.1 詞頻圖形繪製
4.3.2 柱狀圖和點狀圖繪製
4.4 詞雲圖繪製
4.4.1 英文文本詞雲圖
4.4.2 中文文本詞雲圖
第5章 代碼運行錯誤分析
5.1 概述
5.2 錯誤分析案例
5.2.1 輸入輸齣錯誤(IOError)
5.2.2 對象屬性錯誤(AttributeError)
5.2.3 數據類型錯誤(TypeError)
5.2.4 變量名稱錯誤(NameError)
5.2.5 索引錯誤(IndexError)
5.2.6 縮進錯誤(Indentati)
5.2.7 參數類型錯誤(ValueError)
5.2.8 語法錯誤(SyntaxError)
5.2.9 Unicode解碼錯誤(UnicodeDecodeError)
5.2.10 關鍵字錯誤(KeyError)
中篇 基礎性代碼的組閤使用
第6章 算法、代碼與編程
6.1 篇章結構
6.2 算法和代碼
6.2.1 算法
6.2.2 代碼
6.3 選擇不同代碼的影響
6.3.1 分詞處理方式對後續文本分析的影響
6.3.2 不同的降噪效果
6.3.3 鏈錶、字符串、元組和字典對比
6.3.4 停用詞的功用
6.4 Python與既有語料庫工具的關係
第7章 基礎性代碼的語料庫組閤應用
7.1 以Excel文件格式輸齣術語(類符)
7.1.1 簡單輸齣術語
7.1.2 按詞頻輸齣術語
7.2 以Excel文件格式輸齣錶格
7.3 語篇詞匯密度的計算
7.4 語篇詞匯復雜性的計算
7.5 語篇詞長分布的計算
7.6 NLTK固有語料庫
7.6.1 總統就職演說語料庫
7.6.2 華爾街雜誌語料庫
7.6.3 其他相關語料庫介紹
下篇 Python探索路徑
第8章 Python的語料庫拓展應用
8.1 概述
8.2 單語語料導入Excel工作簿
8.3 KWIC檢索功能的拓展
8.4 語篇詞形還原
8.5 術語提取效果的改進
8.6 語篇段落對齊
8.7 應用語言學文獻計量研究的數據提取
8.8 專業通用詞的提取路徑探索
附錄1 與本書相關的加載模塊與函數命令對應錶
附錄2 Python2 和Python3部分代碼對比
附錄3 部分NLTK固有語料庫
附錄4 漢英對照術語錶
索引
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

填補瞭這類書中文版的空缺,對文科生和第一次接觸代碼的人還是很友好的,因為復製代碼就能用…實際上就是挑瞭點兒NLTK的功能講瞭講,既然做語料庫,英語能力過關,直接看NLTK的相關書籍或者文檔更好。此外python2太老舊瞭,雖然列錶給齣瞭2&3的部分語法差異。第六章過於簡略,不過重點不在此,可以理解,給三星是依舊存在各種各樣的不足,百度google一定程度上完全可以替代此書,不過總體上推薦給不知道從何處入門的初學者,如果有一點點python基礎就可以隨意按需翻閱瞭。

评分

填補瞭這類書中文版的空缺,對文科生和第一次接觸代碼的人還是很友好的,因為復製代碼就能用…實際上就是挑瞭點兒NLTK的功能講瞭講,既然做語料庫,英語能力過關,直接看NLTK的相關書籍或者文檔更好。此外python2太老舊瞭,雖然列錶給齣瞭2&3的部分語法差異。第六章過於簡略,不過重點不在此,可以理解,給三星是依舊存在各種各樣的不足,百度google一定程度上完全可以替代此書,不過總體上推薦給不知道從何處入門的初學者,如果有一點點python基礎就可以隨意按需翻閱瞭。

评分

填補瞭這類書中文版的空缺,對文科生和第一次接觸代碼的人還是很友好的,因為復製代碼就能用…實際上就是挑瞭點兒NLTK的功能講瞭講,既然做語料庫,英語能力過關,直接看NLTK的相關書籍或者文檔更好。此外python2太老舊瞭,雖然列錶給齣瞭2&3的部分語法差異。第六章過於簡略,不過重點不在此,可以理解,給三星是依舊存在各種各樣的不足,百度google一定程度上完全可以替代此書,不過總體上推薦給不知道從何處入門的初學者,如果有一點點python基礎就可以隨意按需翻閱瞭。

评分

填補瞭這類書中文版的空缺,對文科生和第一次接觸代碼的人還是很友好的,因為復製代碼就能用…實際上就是挑瞭點兒NLTK的功能講瞭講,既然做語料庫,英語能力過關,直接看NLTK的相關書籍或者文檔更好。此外python2太老舊瞭,雖然列錶給齣瞭2&3的部分語法差異。第六章過於簡略,不過重點不在此,可以理解,給三星是依舊存在各種各樣的不足,百度google一定程度上完全可以替代此書,不過總體上推薦給不知道從何處入門的初學者,如果有一點點python基礎就可以隨意按需翻閱瞭。

评分

填補瞭這類書中文版的空缺,對文科生和第一次接觸代碼的人還是很友好的,因為復製代碼就能用…實際上就是挑瞭點兒NLTK的功能講瞭講,既然做語料庫,英語能力過關,直接看NLTK的相關書籍或者文檔更好。此外python2太老舊瞭,雖然列錶給齣瞭2&3的部分語法差異。第六章過於簡略,不過重點不在此,可以理解,給三星是依舊存在各種各樣的不足,百度google一定程度上完全可以替代此書,不過總體上推薦給不知道從何處入門的初學者,如果有一點點python基礎就可以隨意按需翻閱瞭。

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有