圖書標籤: 語言學 音韻學 漢語 工具書 古文字 idioms
发表于2024-11-13
基於動態流通語料庫的漢語熟語單位研究 pdf epub mobi txt 電子書 下載 2024
《基於動態流通語料庫的漢語熟語單位研究》基於漢語詞典學界和中文信息處理界重“詞”輕“語”的現象,對詞組研究、熟語研究進行瞭反思,提齣“熟語單位”(IdiomUnit,IU)的概念。所謂“熟語單位”,就是“結閤緊密,使用穩定”、功能相當於熟語的結構單位,是符閤人的認知規律並被人們經常當做一個詞來使用的定型化瞭的固定短語或凝固錶達式。我們判彆IU的三條原則為:是否“結閤緊密,使用穩定”;是否符閤人們的認知規律(IU的長度一般為7±2);流通度是否達到一定的閾值。IU理論上包括一切具有熟語性的詞語組閤單位。《基於動態流通語料庫的漢語熟語單位研究》討論的IU範圍包括三字格中的慣用語和像“差不多、靠不住、來不及”這樣介於詞和短語之間的結構串,四字格中的成語和新固定短語,簡稱略語、插入語和字母詞語等。
本研究選用的是《人民日報》2001-2003年三年的文本,約8000萬字。文章以動態語言知識更新理論為指導,以流通度理論為基礎,以年平均流通度閾值(0.5)作為主要篩選依據,運用規則和統計相結閤的方法對“熟語單位”(IU)進行瞭初步的提取研究,並對部分提取結果的噪聲環境作瞭定量與定性分析。
對於IU的提取,我們采取的策略和基本步驟是:
(1)利用點號和“的、是、在、和、瞭、有”等高頻詞(字)將文本化短;自動提取時犧牲包含切分點的字符串,該部分字符串另行補救。
(2)數據格式轉換。將切分得到的形式上“完整”的2-8字串轉為數據庫格式。
(3)統計3-5字串的頻度、散布度和流通度。
(4)用字符串全年的平均流通度閾值進行篩選。
(5)對五音節(含)以上字串進行分詞並加以詞性標注,對其中的3字串、4字串和符閤“N+N”、“N+V”、“V+N”、“V+V”等語法組閤規則的相鄰字符串(二元組)進行抽取;再對抽取的字符串重復上麵的第(3)和第(4)步。
(6)對篩選得到的字符串進行噪聲剔除,全部進行重新切分並加以詞性標注,然後運用靜態規則模闆(共30條規則)再次過濾。
(7)藉助輔助手段對熟語單位進行直接抽取。
(8)得到三至五字格熟語單位錶(約13500條)。
《基於動態流通語料庫的漢語熟語單位研究》還對提取齣來的2001年的5500個三字格、2002年的6500個四字格作瞭簡單的分類和例示性的分析說明,重點考察瞭具有熟語性的短語。
三字格中我們重點探討瞭音節為“1+2”式、結構為“V+N/NP”式和音節為“2+1”式、結構為“V/VP+N”式的兩類,驗證瞭馮勝利有關三音節組閤的論斷:音節為“1+2”式的是短語,音節為“2+1”式的是韻律詞。
四字格中我們重點探討瞭“N+V”式和“V+N”式。N和V之間存在復雜的語法、語義以及音節製約關係。關於“N+V”式,通過考察,我們發現:定中關係的“N+V”式四字格熟語性最強,數量也最多;狀中關係次之,主謂關係的四字格熟語性最弱,且N與V之間存在離散性。關於“V+N”式,我們發現:第一,“V+N”式四字格如果錶示通名,它往往是或者容易成為一個NP習慣性搭配。第二,“V+N”式四字格中的N如果是比較抽象的雙音節名詞,則這類四字格構成的NP其熟語性相對較強。第三,“V+N”式四字格中的V如果是雙音節述賓式動詞,那麼這種“雙音節述賓式動詞+賓語”形成的NP熟語性很強。
《基於動態流通語料庫的漢語熟語單位研究》還從應用的角度對流行語、字母詞語和插入語進行瞭考察研究,對流行語的科學評定和字母詞語的規範發錶瞭意見。
《基於動態流通語料庫的漢語熟語單位研究》對簡稱略語的研究主要以《現代漢語詞典》(2002年增補本)所收的134個簡稱和報紙語料中的約350個簡稱為考察對象,將簡稱分為固定簡稱和臨時簡稱兩種,少數臨時簡稱隨著使用次數的增加、使用範圍的擴寬,可以成為固定簡稱。我們對兩種簡稱的構成及固定簡稱的成因進行瞭初步探討,重點考察瞭簡稱在真實文本中的使用情況。
《基於動態流通語料庫的漢語熟語單位研究》主要有以下三方麵的創新:
(1)依據熟語性定義瞭“熟語單位”(IU)。IU是基於大眾語感的認知結構單位,它使得固定短語的範圍適當擴大,更加有利於中文信息處理、語言教學和漢外翻譯等。
(2)第一次基於動態流通語料庫(DCC),從大規模真實文本中提取通用的報紙固定短語,而且是采用相似於公眾共同語感的流通度來由計算機自動提取。
(3)提齣按照文體集閤對應語體原則構建報紙分類語料庫的短語提取策略,減少係統處理開銷,提高短語識彆的召迴率(recallrate)和準確率(precisionrate)。
評分
評分
評分
評分
基於動態流通語料庫的漢語熟語單位研究 pdf epub mobi txt 電子書 下載 2024