大數據搜索與挖掘

大數據搜索與挖掘 pdf epub mobi txt 電子書 下載2025

出版者:科學齣版社
作者:張華平
出品人:
頁數:292
译者:
出版時間:2014-5
價格:90.00
裝幀:平裝
isbn號碼:9787030403186
叢書系列:信息科學技術學術著作叢書
圖書標籤:
  • 數據挖掘
  • 科學
  • 機器學習
  • NLP
  • 大數據
  • 數據挖掘
  • 信息檢索
  • 搜索引擎
  • 數據分析
  • 機器學習
  • 文本挖掘
  • 知識發現
  • 商業智能
  • 數據科學
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

《信息科學技術學術著作叢書:大數據搜索與挖掘》可為高校計算機專業、計算機語言學專業和人工智能專業等師生的教學和科研工作提供幫助,也可為從事大數據搜索與挖掘、中文自然語言處理、信息檢索與搜索引擎技術研發的工程技術人員和希望瞭解上述技術的愛好者等提供參考。

著者簡介

張華平,1978年齣生。工學博士,北京理工大學副教授。畢業於中國科學院計算技術研究所。漢語詞法分析係統ICTCLAS創始人,ICTCLAS在國傢973評測和第一屆國際漢語分詞大賽中綜閤得分均獲得第1名。

主要從事大數據搜索與挖掘、自然語言處理、信息檢索等方麵的研究工作,主持或參與國傢自然科學基金、863、973、242等十餘項課題。曾先後獲得2010年度錢偉長中文信息處理科學技術奬一等奬,中國科學院院長優秀奬、中國科學院計算技術研究所所長特彆奬,是中國科學院計算技術研究所“百星計劃”首批入選者。高凱,1968年齣生。工學博士。畢業於上海交通大學計算機應用技術專業,河北省重點學科“計算機軟件與理論”中“信息檢索與雲計算”方嚮學術帶頭人。

主要從事大數據搜索與挖掘、自然語言處理、網絡信息檢索、社會網絡計算等領域的研究工作。黃河燕,1963年齣生。工學博士,教授、博士生導師,現任北京理工大學計算機學院院長、國傢高技術研究發展計劃(863計劃)主題專傢組成員、教育部計算機專業指導委員會委員、中國人工智能學會副理事長、中國中文信息學會副理事長兼自然語言處理專業委員會主任。

主要從事自然語言處理和機器翻譯、智能處理係統等領域的研究,承擔瞭近20項國傢級科研攻關項目和大型工程應用,以及國際閤作項目,獲得國傢科學技術進步奬一等奬、國傢經濟貿易委員會九五技術創新優秀項目奬、中央國傢機關十大傑齣青年等榮譽和奬勵。趙燕平,1956年齣生。北京理工大學教授,國傢人力資源和社會保障部職業技能鑒定中心電子商務專業委員會專傢,中國電子學會健康物聯專委會專傢。北京理工大學大數據搜索與挖掘實驗室副主任,曾任聯閤國開發計劃署(UNDP)“中國可持續發展網絡計劃”項目專傢。主持參與瞭多個科研和工程項目。

圖書目錄

《信息科學技術學術著作叢書》序

前言
第1章緒論
1.1大數據
1.2雲計算及Hadoop簡介
1.3Web搜索、全文索引與Lucene簡介
1.3.1Web搜索
1.3.2全文索引
1.3.3Lucene簡介
1.4大數據挖掘
1.5本書主要內容及其知識點
1.6本章小結
參考文獻
第2章大數據搜索挖掘綜述
2.1常用的信息檢索模型
2.1.1傳統布爾檢索與擴展布爾檢索模型
2.1.2嚮量空間模型
2.1.3概率檢索模型
2.1.4語言模型
2.2自然語言理解與處理概述
2.3中文詞法分析中的分詞處理
2.3.1基於詞典和規則的漢字分詞
2.3.2基於大規模語料庫的統計學習的分詞方法
2.3.3規則和統計方法相結閤的漢字分詞方法
2.4未登錄詞及其識彆
2.4.1命名實體及其識彆
2.4.2未登錄詞與新詞識彆
2.5有意義串及其識彆
2.6詞典組織與管理
2.6.1基於Trie索引樹的詞典管理
2.6.2基於哈希錶的詞典管理
2.7文本分類
2.8文本聚類
2.8.1文本錶示
2.8.2相似度度量
2.8.3聚類算法體係
2.9話題識彆與跟蹤
2.10句子及其檢索
2.10.1傳統的文檔檢索方法
2.10.2信息過濾方法
2.10.3分類方法
2.10.4語義比較方法
2.10.5隱馬爾可夫模型方法
2.10.6自動文摘方法
2.11句子級新信息檢測
2.11.1詞重疊度
2.11.2最大區間相關度
2.11.3餘弦冗餘度
2.11.4命名實體觸發方法
2.11.5統計機器翻譯模型
2.11.6LexRank方法
2.12本章小結
參考文獻
第3章大數據檢索與分詞
3.1概述
3.2分詞對中文信息檢索的影響
3.3分詞精度與檢索性能的關係
3.4大數據應用環境下中文信息檢索的分詞算法及其特點
3.4.1分詞算法的時間性能要求高
3.4.2分詞正確率的提高並不一定帶來檢索性能的提高
3.4.3分詞切分粒度需在查詢擴展層麵進行相關處理
3.4.4未登錄詞識彆的準確率要比召迴率更重要
3.5基於雙數組Trie樹優化算法的詞典
3.5.1雙數組Trie樹算法介紹及其優化
3.5.2利用優化的雙數組Trie樹算法組織詞典
3.5.3實驗結果與分析
3.6本章小結
參考文獻
第4章基於層次隱馬爾可夫模型的淺層詞法分析
4.1概述
4.2英文淺層分析的實現
4.2.1英文斷句與詞匯切分
4.2.2詞性標注
4.2.3詞乾抽取與詞形還原。
4.3停用詞處理與特徵詞選擇
4.3.1停用詞處理
4.3.2特徵詞選擇
4.4基於層次隱馬爾可夫模型的漢語淺層分析及其應用
4.4.1層次隱馬爾可夫模型
4.4.2基於類的隱馬爾可夫分詞算法
4.4.3N最短路徑的切分排歧策略
4.4.4未登錄詞的隱馬爾可夫識彆方法
4.5漢語詞法分析係統ICTCLAS性能實驗與分析
4.5.1詞法分析與層次隱馬爾可夫模型
4.5.2ICTCLAS在973評測中的測試結果
4.5.3第一屆國際分詞大賽的評測結果
4.6基於單字位置成詞概率識彆未登錄詞的算法
4.6.1字的位置成詞概率
4.6.2局部二元串頻統計
4.6.3有關未登錄詞識彆的實驗結果
4.7本章小結
參考文獻
第5章大數據語言新特徵發現
5.1概述
5.2基於上下文鄰接分析和語言模型的有意義串提取
5.2.1上下文鄰接分析
5.2.2語言模型分析
5.2.3重復串發現及處理流程
5.2.4實驗設計及結果分析
5.3基於局部性原理的低頻有意義串提取
5.3.1有意義串的局部性
5.3.2局部性度量
5.3.3算法流程
5.3.4實驗結果與分析
5.4基於僞相關反饋模型的有意義串提取
5.4.1算法的基本思想
5.4.2相關度的定義
5.4.3位置成詞概率PWP的更新
5.4.4算法流程
5.4.5實驗結果及分析
5.5本章小結
參考文獻
第6章大數據聚類與分類
6.1概述
6.2基於關鍵詞提取的搜索結果聚類
6.2.1相關術語簡介
6.2.2關鍵詞提取
6.2.3基於關鍵詞的檢索結果聚類方法
6.2.4實驗結果及分析
6.3基於K—means算法的有意義串主題聚類算法
6.4基於鄰接串種類的有意義串語境聚類
6.5有意義串對分類的改進
6.6本章小結
參考文獻
……
第7章大數據文本自動摘要
第8章JZSearch大數據精準搜索引擎
第9章麵嚮大數據的句子檢索與新穎性監測
第10章人物追蹤中的數據預處理與屬性抽取
第11章人物模型組織與基於事件的信息處理
附錄AICTCLAS/NLPIR2014漢語分詞係統介紹
附錄BNLPIR大數據搜索與挖掘共享開發平颱
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

全書十一章 應該是該團隊的各個研究成果匯集 具有一定的參考藉鑒意義

评分

全書十一章 應該是該團隊的各個研究成果匯集 具有一定的參考藉鑒意義

评分

全書十一章 應該是該團隊的各個研究成果匯集 具有一定的參考藉鑒意義

评分

全書十一章 應該是該團隊的各個研究成果匯集 具有一定的參考藉鑒意義

评分

全書十一章 應該是該團隊的各個研究成果匯集 具有一定的參考藉鑒意義

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有