用Python寫網絡爬蟲

用Python寫網絡爬蟲 pdf epub mobi txt 電子書 下載2025

出版者:人民郵電齣版社
作者:[澳]理查德 勞森
出品人:
頁數:157
译者:李斌
出版時間:2016-8-1
價格:CNY 45.00
裝幀:平裝
isbn號碼:9787115431790
叢書系列:
圖書標籤:
  • Python
  • 爬蟲
  • python
  • 編程
  • 網絡爬蟲
  • 計算機
  • 數據分析
  • 計算機科學
  • Python
  • 網絡爬蟲
  • 編程
  • 數據分析
  • 自動化
  • 互聯網
  • 爬蟲技術
  • 數據采集
  • 人工智能
  • 機器學習
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

作為一種便捷地收集網上信息並從中抽取齣可用信息的方式,網絡爬蟲技術變得越來越有用。使用Python這樣的簡單編程語言,你可以使用少量編程技能就可以爬取復雜的網站。

《用Python寫網絡爬蟲》作為使用Python來爬取網絡數據的傑齣指南,講解瞭從靜態頁麵爬取數據的方法以及使用緩存來管理服務器負載的方法。此外,本書還介紹瞭如何使用AJAX URL和Firebug擴展來爬取數據,以及有關爬取技術的更多真相,比如使用瀏覽器渲染、管理cookie、通過提交錶單從受驗證碼保護的復雜網站中抽取數據等。本書使用Scrapy創建瞭一個高級網絡爬蟲,並對一些真實的網站進行瞭爬取。

《用Python寫網絡爬蟲》介紹瞭如下內容:

通過跟蹤鏈接來爬取網站;

使用lxml從頁麵中抽取數據;

構建綫程爬蟲來並行爬取頁麵;

將下載的內容進行緩存,以降低帶寬消耗;

解析依賴於JavaScript的網站;

與錶單和會話進行交互;

解決受保護頁麵的驗證碼問題;

對AJAX調用進行逆嚮工程;

使用Scrapy創建高級爬蟲。

本書讀者對象

本書是為想要構建可靠的數據爬取解決方案的開發人員寫作的,本書假定讀者具有一定的Python編程經驗。當然,具備其他編程語言開發經驗的讀者也可以閱讀本書,並理解書中涉及的概念和原理。

著者簡介

Richard Lawson來自澳大利亞,畢業於墨爾本大學計算機科學專業。畢業後,他創辦瞭一傢專注於網絡爬蟲的公司,為超過50個國傢的業務提供遠程工作。他精通於世界語,可以使用漢語和韓語對話,並且積極投身於開源軟件。他目前在牛津大學攻讀研究生學位,並利用業餘時間研發自主無人機。

圖書目錄

目錄
第1章 網絡爬蟲簡介 1
1.1 網絡爬蟲何時有用 1
1.2 網絡爬蟲是否閤法 2
1.3 背景調研 3
1.3.1 檢查robots.txt 3
1.3.2 檢查網站地圖 4
1.3.3 估算網站大小 5
1.3.4 識彆網站所用技術 7
1.3.5 尋找網站所有者 7
1.4 編寫第一個網絡爬蟲 8
1.4.1 下載網頁 9
1.4.2 網站地圖爬蟲 12
1.4.3 ID遍曆爬蟲 13
1.4.4 鏈接爬蟲 15
1.5 本章小結 22
第2章 數據抓取 23
2.1 分析網頁 23
2.2 三種網頁抓取方法 26
2.2.1 正則錶達式 26
2.2.2 Beautiful Soup 28
2.2.3 Lxml 30
2.2.4 性能對比 32
2.2.5 結論 35
2.2.6 為鏈接爬蟲添加抓取迴調 35
2.3 本章小結 38
第3章 下載緩存 39
3.1 為鏈接爬蟲添加緩存支持 39
3.2 磁盤緩存 42
3.2.1 實現 44
3.2.2 緩存測試 46
3.2.3 節省磁盤空間 46
3.2.4 清理過期數據 47
3.2.5 缺點 48
3.3 數據庫緩存 49
3.3.1 NoSQL是什麼 50
3.3.2 安裝MongoDB 50
3.3.3 MongoDB概述 50
3.3.4 MongoDB緩存實現 52
3.3.5 壓縮 54
3.3.6 緩存測試 54
3.4 本章小結 55
第4章 並發下載 57
4.1 100萬個網頁 57
4.2 串行爬蟲 60
4.3 多綫程爬蟲 60
4.3.1 綫程和進程如何工作 61
4.3.2 實現 61
4.3.3 多進程爬蟲 63
4.4 性能 67
4.5 本章小結 68
第5章 動態內容 69
5.1 動態網頁示例 69
5.2 對動態網頁進行逆嚮工程 72
5.3 渲染動態網頁 77
5.3.1 PyQt還是PySide 78
5.3.2 執行JavaScript 78
5.3.3 使用WebKit與網站交互 80
5.3.4 Selenium 85
5.4 本章小結 88
第6章 錶單交互 89
6.1 登錄錶單 90
6.2 支持內容更新的登錄腳本擴展 97
6.3 使用Mechanize模塊實現自動化錶單處理 100
6.4 本章小結 102
第7章 驗證碼處理 103
7.1 注冊賬號 103
7.2 光學字符識彆 106
7.3 處理復雜驗證碼 111
7.3.1 使用驗證碼處理服務 112
7.3.2 9kw入門 112
7.3.3 與注冊功能集成 119
7.4 本章小結 120
第8章 Scrapy 121
8.1 安裝 121
8.2 啓動項目 122
8.2.1 定義模型 123
8.2.2 創建爬蟲 124
8.2.3 使用shell命令抓取 128
8.2.4 檢查結果 129
8.2.5 中斷與恢復爬蟲 132
8.3 使用Portia編寫可視化爬蟲 133
8.3.1 安裝 133
8.3.2 標注 136
8.3.3 優化爬蟲 138
8.3.4 檢查結果 140
8.4 使用Scrapely實現自動化抓取 141
8.5 本章小結 142
第9章 總結 143
9.1 Google搜索引擎 143
9.2 Facebook 148
9.2.1 網站 148
9.2.2 API 150
9.3 Gap 151
9.4 寶馬 153
9.5 本章小結 157
· · · · · · (收起)

讀後感

評分

第二段为2018年5月31日补充 本书不适合绝对入门者,适合已经熟悉python且熟悉大多数模块的人。作者对爬虫的编写考虑较为全面,且有相关练习网页可以实操。但是相关模块方法解释基本没有,整本书就是让你对爬虫认识有一个“有这么回事” 的概念而不是 “就那么回事”。我刚入门...

評分

第二段为2018年5月31日补充 本书不适合绝对入门者,适合已经熟悉python且熟悉大多数模块的人。作者对爬虫的编写考虑较为全面,且有相关练习网页可以实操。但是相关模块方法解释基本没有,整本书就是让你对爬虫认识有一个“有这么回事” 的概念而不是 “就那么回事”。我刚入门...

評分

第二段为2018年5月31日补充 本书不适合绝对入门者,适合已经熟悉python且熟悉大多数模块的人。作者对爬虫的编写考虑较为全面,且有相关练习网页可以实操。但是相关模块方法解释基本没有,整本书就是让你对爬虫认识有一个“有这么回事” 的概念而不是 “就那么回事”。我刚入门...

評分

第二段为2018年5月31日补充 本书不适合绝对入门者,适合已经熟悉python且熟悉大多数模块的人。作者对爬虫的编写考虑较为全面,且有相关练习网页可以实操。但是相关模块方法解释基本没有,整本书就是让你对爬虫认识有一个“有这么回事” 的概念而不是 “就那么回事”。我刚入门...

評分

第二段为2018年5月31日补充 本书不适合绝对入门者,适合已经熟悉python且熟悉大多数模块的人。作者对爬虫的编写考虑较为全面,且有相关练习网页可以实操。但是相关模块方法解释基本没有,整本书就是让你对爬虫认识有一个“有这么回事” 的概念而不是 “就那么回事”。我刚入门...

用戶評價

评分

不咋地,彆買瞭,誰想看我送!

评分

故意占篇幅

评分

基礎覆蓋的挺全的,把寫一個爬蟲所需要的方方麵麵都滲透到瞭,很不錯。

评分

通俗易懂 170929

评分

15年齣的書,16年翻譯齣版,17年就已經看不瞭瞭。代碼都是python2.7版的,有點老。

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有