Python爬蟲大數據采集與挖掘-微課視頻版(大數據與人工智能技術叢書)

Python爬蟲大數據采集與挖掘-微課視頻版(大數據與人工智能技術叢書) pdf epub mobi txt 電子書 下載2025

出版者:清華大學齣版社
作者:曾劍平
出品人:
頁數:296
译者:
出版時間:2020-3-4
價格:0
裝幀:平裝
isbn號碼:9787302540540
叢書系列:
圖書標籤:
  • 爬蟲
  • 數據挖掘
  • Python
  • Python爬蟲
  • 大數據
  • 數據采集
  • 數據挖掘
  • 人工智能
  • 微課
  • 視頻教程
  • 網絡爬蟲
  • 數據分析
  • 實戰
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

本書圍繞大數據采集,對采集技術的相關基礎、技術原理、Python實現技術、大數據挖掘與應用方法進行瞭係統介紹。書中全麵完整地覆蓋瞭各種類型的網絡爬蟲及相關的信息處理挖掘技術,並提供瞭27個與爬蟲相關技術和應用相關的Python程序。本書可以作為高等院校大數據、計算機、信息以及經管、金融等人文社科相關專業研究生和高年級本科生的教材,也可以作為大數據、計算機、信息以及經管、金融等人文社科領域研究人員和專業技術人員的參考書。

著者簡介

圖書目錄

目錄
源碼下載
第一部分概述
第1章大數據采集概述
1.1互聯網大數據與采集
1.1.1互聯網大數據來源
1.1.2互聯網大數據的特徵
1.2Python爬蟲大數據采集技術的重要性
1.3爬蟲技術研究及應用現狀
1.4爬蟲技術的應用場景
1.5爬蟲大數據采集的技術體係
1.5.1技術體係構成
1.5.2相關技術
1.5.3技術評價方法
1.6爬蟲大數據采集與挖掘的閤規性
1.7爬蟲大數據采集技術的展望
思考題
第二部分基礎篇
第2章Web頁麵及相關技術
2.1HTML語言規範
2.1.1HTML標簽
2.1.2HTML整體結構
2.1.3CSS簡述
2.1.4常用標簽
2.1.5HTML語言的版本進化
2.2編碼體係與規範
2.2.1ASCII
2.2.2gb2312/gbk
2.2.3unicode
2.2.4utf8
2.2.5網頁中的編碼和Python處理
2.3Python正則錶達式
思考題
第3章Web應用架構與協議
3.1常用的Web服務器軟件
3.1.1流行的Web服務器軟件
3.1.2在Python中配置Web服務器
3.2Web服務器的應用架構
3.2.1典型的應用架構
3.2.2Web頁麵的類型
3.2.3頁麵文件的組織方式
3.3Robots協議
3.3.1Robots協議的來曆
3.3.2Robots協議的規範與實現
3.4HTTP協議
3.4.1HTTP版本的技術特性
3.4.2HTTP報文
3.4.3HTTP頭部
3.4.4HTTP狀態碼
3.4.5HTTPS
3.5狀態保持技術
3.5.1Cookie
3.5.2Session
思考題
第三部分技術與實現篇
第4章普通爬蟲頁麵采集技術與Python實現
4.1普通爬蟲的體係架構
4.2Web服務器連接器
4.2.1整體處理過程
4.2.2DNS緩存
4.2.3requests/response的使用方法
4.2.4錯誤和異常的處理
4.3超鏈接及域名提取與過濾
4.3.1超鏈接的類型
4.3.2提取方法
4.3.3遵守Robots協議的友好爬蟲
4.4爬行策略與實現
4.4.1爬行策略及設計方法
4.4.2寬度優先和深度優先策略
4.4.3基於PageRank的重要性排序
4.4.4其他策略
4.4.5爬行策略設計的綜閤考慮
思考題
第5章動態頁麵采集技術與Python實現
5.1動態頁麵內容的生成與交互
5.1.1頁麵內容的生成方式
5.1.2動態頁麵交互的實現
5.2動態頁麵采集技術
5.3使用帶參數的URL
5.4利用Cookie和Session
5.5使用Ajax: 以評論型頁麵為例
5.5.1獲取URL地址
5.5.2獲取動態請求參數
5.6模擬瀏覽器——以自動登錄郵箱為例
思考題
第6章Web信息提取與Python實現
6.1Web信息提取任務及要求
6.2Web頁麵內容提取的思路
6.2.1DOM樹
6.2.2提取方法
6.3基於HTML結構的內容提取方法
6.3.1html.parser
6.3.2lxml
6.3.3html5lib
6.3.4BeautifulSoup
6.3.5PyQuery
6.4基於統計的Web內容抽取方法
思考題
第7章主題爬蟲頁麵采集技術與Python實現
7.1主題爬蟲的使用場景
7.2主題爬蟲技術框架
7.3主題及其錶示
7.4相關度計算
7.4.1主題相關度的計算
7.4.2鏈接相關度估算
7.4.3頁麵內容相關度計算
7.5特定新聞主題采集
思考題
第8章Deep Web爬蟲與Python實現
8.1相關概念
8.2Deep Web的特徵和采集要求
8.3深度網頁內容獲取技術架構
8.3.1領域本體知識庫
8.3.2尋找錶單
8.3.3錶單處理
8.3.4結果處理
8.4圖書信息采集
思考題
第9章微博信息采集與Python實現
9.1微博信息采集方法概述
9.2微博開放平颱授權與測試
9.3在Python中調用微博API采集數據
9.3.1流程介紹
9.3.2微博API及使用方法
9.3.3采集微博用戶個人信息
9.3.4采集微博博文
9.3.5微博API的限製
9.4通過爬蟲采集微博信息
思考題
第10章反爬蟲技術與反反爬蟲技術
10.1兩種技術的概述
10.2反爬蟲技術
10.2.1爬蟲檢測技術
10.2.2爬蟲阻斷技術
10.3反反爬蟲技術
思考題
第四部分大數據挖掘與應用篇
第11章文本信息處理與挖掘技術
11.1文本預處理
11.1.1詞匯切分
11.1.2停用詞過濾
11.1.3詞形規範化
11.1.4Python開源庫jieba的使用
11.2文本的嚮量空間模型
11.2.1特徵選擇
11.2.2模型錶示
11.2.3使用Python構建嚮量空間錶示
11.3文本分類及實現技術
11.3.1分類技術概要
11.3.2分類器技術
11.3.3新聞分類的Python實現
11.4主題及其實現技術
11.4.1主題的定義
11.4.2基於嚮量空間的主題構建
11.4.3LDA主題模型
11.4.4LDA模型的Python實現
11.5大數據可視化技術
11.5.1大數據可視化方法概述
11.5.2Python開源庫的使用
思考題
第12章互聯網大數據獲取技術的應用
12.1常見應用模式
12.2新聞閱讀器采集與分析
12.2.1目標任務
12.2.2總體思路
12.2.3新聞內容采集與提取
12.2.4新聞分析
12.3爬蟲用於Web網站SQL注入檢測
12.3.1目標任務
12.3.2總體思路
12.3.3Python程序設計
思考題
附錄A代碼與數據
附錄B相關包索引
附錄C爬蟲框架
附錄D書中視頻對應二維碼匯總錶
參考文獻
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

會處理數據是現在IT從業人的一項重要技能,能玩的溜數據基本是高薪就業的一個重大敲門磚。本書對於想從基礎爬蟲和網絡基礎知識到實戰的小白來說很友好,稍微瞭解前端知識可以更有利於入手爬蟲基礎到高級,whatever,不懂也沒關係,跟著書裏的的內容,從基礎到處理網頁不同部件的詳細處理方式都有。反爬蟲的地方還挺有意思,擴充視野。 主要還可以跟著書籍配套視頻學也是沒問題的,感受一下老師風趣的講課風格。

评分

會處理數據是現在IT從業人的一項重要技能,能玩的溜數據基本是高薪就業的一個重大敲門磚。本書對於想從基礎爬蟲和網絡基礎知識到實戰的小白來說很友好,稍微瞭解前端知識可以更有利於入手爬蟲基礎到高級,whatever,不懂也沒關係,跟著書裏的的內容,從基礎到處理網頁不同部件的詳細處理方式都有。反爬蟲的地方還挺有意思,擴充視野。 主要還可以跟著書籍配套視頻學也是沒問題的,感受一下老師風趣的講課風格。

评分

會處理數據是現在IT從業人的一項重要技能,能玩的溜數據基本是高薪就業的一個重大敲門磚。本書對於想從基礎爬蟲和網絡基礎知識到實戰的小白來說很友好,稍微瞭解前端知識可以更有利於入手爬蟲基礎到高級,whatever,不懂也沒關係,跟著書裏的的內容,從基礎到處理網頁不同部件的詳細處理方式都有。反爬蟲的地方還挺有意思,擴充視野。 主要還可以跟著書籍配套視頻學也是沒問題的,感受一下老師風趣的講課風格。

评分

會處理數據是現在IT從業人的一項重要技能,能玩的溜數據基本是高薪就業的一個重大敲門磚。本書對於想從基礎爬蟲和網絡基礎知識到實戰的小白來說很友好,稍微瞭解前端知識可以更有利於入手爬蟲基礎到高級,whatever,不懂也沒關係,跟著書裏的的內容,從基礎到處理網頁不同部件的詳細處理方式都有。反爬蟲的地方還挺有意思,擴充視野。 主要還可以跟著書籍配套視頻學也是沒問題的,感受一下老師風趣的講課風格。

评分

會處理數據是現在IT從業人的一項重要技能,能玩的溜數據基本是高薪就業的一個重大敲門磚。本書對於想從基礎爬蟲和網絡基礎知識到實戰的小白來說很友好,稍微瞭解前端知識可以更有利於入手爬蟲基礎到高級,whatever,不懂也沒關係,跟著書裏的的內容,從基礎到處理網頁不同部件的詳細處理方式都有。反爬蟲的地方還挺有意思,擴充視野。 主要還可以跟著書籍配套視頻學也是沒問題的,感受一下老師風趣的講課風格。

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有