Python網絡爬蟲權威指南(第2版)

Python網絡爬蟲權威指南(第2版) pdf epub mobi txt 電子書 下載2025

出版者:人民郵電齣版社
作者:[美] 瑞安 • 米切爾
出品人:
頁數:260
译者:神煩小寶
出版時間:2019-4
價格:79.00元
裝幀:平裝
isbn號碼:9787115509260
叢書系列:圖靈程序設計叢書·Python係列
圖書標籤:
  • 爬蟲
  • Python
  • 編程
  • python
  • 計算機
  • 再版
  • 6産品·開發
  • 計算機
  • Python
  • 網絡爬蟲
  • 編程
  • 數據采集
  • Web自動化
  • 爬蟲技術
  • 網絡編程
  • 實戰指南
  • 第2版
  • 人工智能
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

本書采用簡潔強大的Python語言,全麵介紹網頁抓取技術,解答諸多常見問題,是掌握從數據爬取到數據清洗全流程的係統實踐指南。書中內容分為兩部分。第一部分深入講解網頁抓取的基礎知識,重點介紹BeautifulSoup、Scrapy等Python庫的應用。第二部分介紹網絡爬蟲編寫相關的主題,以及各種數據抓取工具和應用程序,幫你深入互聯網的每個角落,分析原始數據,獲取數據背後的故事,輕鬆解決遇到的各類網頁抓取問題。第2版全麵更新,新增網絡爬蟲模型、Scrapy和並行網頁抓取相關章節。

- 解析復雜的HTML頁麵

- 使用Scrapy框架開發爬蟲

- 學習存儲數據的方法

- 從文檔中讀取和提取數據

- 清洗格式糟糕的數據

- 自然語言處理

- 通過錶單和登錄窗口抓取數據

- 抓取JavaScript及利用API抓取數據

- 圖像識彆與文字處理

- 避免抓取陷阱和反爬蟲策略

- 使用爬蟲測試網站

著者簡介

瑞安·米切爾(Ryan Mitchell)

數據科學傢、軟件工程師,有豐富的網絡爬蟲和數據分析實戰經驗,目前就職於美國格理集團,經常為網頁數據采集項目提供谘詢服務,並在美國東北大學和美國歐林工程學院任教。

圖書目錄

前言  xi
第一部分 創建爬蟲
第1章 初見網絡爬蟲  3
1.1 網絡連接  3
1.2 BeautifulSoup 簡介  5
1.2.1 安裝BeautifulSoup  6
1.2.2 運行BeautifulSoup  8
1.2.3 可靠的網絡連接以及異常的處理  9
第2章 復雜HTML 解析  13
2.1 不是一直都要用錘子  13
2.2 再端一碗BeautifulSoup  14
2.2.1 BeautifulSoup 的find() 和find_all()  16
2.2.2 其他BeautifulSoup 對象  18
2.2.3 導航樹  18
2.3 正則錶達式  22
2.4 正則錶達式和BeautifulSoup  25
2.5 獲取屬性  26
2.6 Lambda 錶達式  26
第3章 編寫網絡爬蟲  28
3.1 遍曆單個域名  28
3.2 抓取整個網站  32
3.3 在互聯網上抓取  36
第4章 網絡爬蟲模型  41
4.1 規劃和定義對象  41
4.2 處理不同的網站布局  45
4.3 結構化爬蟲  49
4.3.1 通過搜索抓取網站  49
4.3.2 通過鏈接抓取網站  52
4.3.3 抓取多種類型的頁麵  54
4.4 關於網絡爬蟲模型的思考  55
第5章 Scrapy  57
5.1 安裝Scrapy  57
5.2 創建一個簡易爬蟲  59
5.3 帶規則的抓取  60
5.4 創建item  64
5.5 輸齣item  66
5.6 item 管綫組件  66
5.7 Scrapy 日誌管理  69
5.8 更多資源  70
第6章 存儲數據  71
6.1 媒體文件  71
6.2 把數據存儲到CSV  74
6.3 MySQL  75
6.3.1 安裝MySQL  76
6.3.2 基本命令  78
6.3.3 與Python 整閤  81
6.3.4 數據庫技術與最佳實踐  84
6.3.5 MySQL 裏的“六度空間遊戲”  86
6.4 Email  88
第二部分 高級網頁抓取
第7章 讀取文檔  93
7.1 文檔編碼  93
7.2 純文本  94
7.3 CSV  98
7.4 PDF  100
7.5 微軟Word 和.docx  102
第8章 數據清洗  106
8.1 編寫代碼清洗數據  106
8.2 數據存儲後再清洗   111
第9章 自然語言處理  115
9.1 概括數據  116
9.2 馬爾可夫模型  119
9.3 自然語言工具包  124
9.3.1 安裝與設置  125
9.3.2 用NLTK 做統計分析  126
9.3.3 用NLTK 做詞性分析  128
9.4 其他資源  131
第10章 穿越網頁錶單與登錄窗口進行抓取  132
10.1 Python Requests 庫  132
10.2 提交一個基本錶單  133
10.3 單選按鈕、復選框和其他輸入  134
10.4 提交文件和圖像  136
10.5 處理登錄和cookie  136
10.6 其他錶單問題  139
第11章 抓取JavaScript  140
11.1 JavaScript 簡介  140
11.2 Ajax 和動態HTML  143
11.2.1 在Python 中用Selenium 執行JavaScript  144
11.2.2 Selenium 的其他webdriver  149
11.3 處理重定嚮  150
11.4 關於JavaScript 的最後提醒  151
第12章 利用API 抓取數據  152
12.1 API 概述  152
12.1.1 HTTP 方法和API  154
12.1.2 更多關於API 響應的介紹  155
12.2 解析JSON 數據  156
12.3 無文檔的API  157
12.3.1 查找無文檔的API  159
12.3.2 記錄未被記錄的API  160
12.3.3 自動查找和記錄API  160
12.4 API 與其他數據源結閤  163
12.5 再說一點API  165
第13章 圖像識彆與文字處理  167
13.1 OCR 庫概述  168
13.1.1 Pillow  168
13.1.2 Tesseract  168
13.1.3 NumPy  170
13.2 處理格式規範的文字  171
13.2.1 自動調整圖像  173
13.2.2 從網站圖片中抓取文字  176
13.3 讀取驗證碼與訓練Tesseract  178
13.4 獲取驗證碼並提交答案  183
第14章 避開抓取陷阱  186
14.1 道德規範  186
14.2 讓網絡機器人看著像人類用戶  187
14.2.1 修改請求頭  187
14.2.2 用JavaScript 處理cookie  189
14.2.3 時間就是一切  191
14.3 常見錶單安全措施  191
14.3.1 隱含輸入字段值  192
14.3.2 避免蜜罐  192
14.4 問題檢查錶  194
第15章 用爬蟲測試網站  196
15.1 測試簡介  196
15.2 Python 單元測試  197
15.3 Selenium 單元測試  201
15.4 單元測試與Selenium 單元測試的選擇  205
第16章 並行網頁抓取  206
16.1 進程與綫程  206
16.2 多綫程抓取  207
16.2.1 競爭條件與隊列  209
16.2.2 threading 模塊  212
16.3 多進程抓取  214
16.3.1 多進程抓取  216
16.3.2 進程間通信  217
16.4 多進程抓取的另一種方法  219
第17章 遠程抓取  221
17.1 為什麼要用遠程服務器  221
17.1.1 避免IP 地址被封殺  221
17.1.2 移植性與擴展性  222
17.2 Tor 代理服務器  223
17.3 遠程主機  224
17.3.1 從網站主機運行  225
17.3.2 從雲主機運行  225
17.4 其他資源  227
第18章 網頁抓取的法律與道德約束  228
18.1 商標、版權、專利  228
18.2 侵害動産  230
18.3 計算機欺詐與濫用法  232
18.4 robots.txt 和服務協議  233
18.5 3 個網絡爬蟲  236
18.5.1 eBay 起訴Bidder’s Edge 侵害其動産  236
18.5.2 美國政府起訴Auernheimer 與《計算機欺詐與濫用法》  237
18.5.3 Field 起訴Google:版權和robots.txt  239
18.6 勇往直前  239
關於作者  241
關於封麵  241
· · · · · · (收起)

讀後感

評分

我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看...

評分

第177页的代码从逻辑上就不对啊,import的pytesseract就没用,而是通过subprocess调用,这应该是第一版的思路,不过我也搞不清这是作者还是译者的锅,把代码改成如下更合理 import time from urllib.request import urlretrieve from PIL import Image import pytesseract from...  

評分

第三章有好几个地方出现“分号”,但又实在不明白哪里有分号,只好查了原文。 原文是 colons,也就是冒号。 写在这里,给其他同学提个醒。 : 这是冒号 ; 这是分号 公平地说,原书中也有一些低级错误,比如第七章开始不久,有个函数里把 input 写成了content,中文版照抄了...  

評分

诚然,这本书里面提到的一些python库不一定是最好的,但是整个爬虫的思路,还是非常值得大家借鉴。 其实python的语法,以及爬虫的代码段,都不难,就是写爬虫的过程中,需要注意的事项和有可能踩到的坑,是我比较看中的。 书中提到了一点,就是修改浏览器的header,默认貌似...  

評分

1.可以尝试使用Google API 2.对于容易被封杀的站点使用tor来匿名 3.使用Tesseract识别验证码,可以训练特殊字体提高识别率 4.爬取整个网站的外链链接是件容易的事情 5.使用selenium作为测试网站的框架 6.注意cookie和request header的使用,努力让网站不把你当做爬虫对待  

用戶評價

评分

對於初學者跳躍有些大,而且涉及文本分詞那裏其實根本不會用到。 對於有基礎的人又有些簡單瞭。

评分

python版本更替原因,這本書有些案例代碼無法實現

评分

維基百科爬不瞭啊?!怎麼辦?

评分

急需爬蟲一隻,這隻是web爬蟲

评分

python版本更替原因,這本書有些案例代碼無法實現

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有