目 錄
第1章理解網絡爬蟲 1
1.1 爬蟲的定義 1
1.2 爬蟲的類型 2
1.3 爬蟲的原理 3
1.4 爬蟲的搜索策略 5
1.5 反爬蟲技術及解決方案 6
1.6 本章小結 8
第2章爬蟲開發基礎 9
2.1 HTTP與HTTPS 9
2.2 請求頭 11
2.3 Cookies 13
2.4 HTML 14
2.5 JavaScript 16
2.6 JSON 18
2.7 Ajax 19
2.8 本章小結 20
第3章Chrome分析網站 21
3.1 Chrome開發工具 21
3.2 Elements標簽 22
3.3 Network標簽 23
3.4 分析QQ音樂 27
3.5 本章小結 29
第4章Fiddler抓包工具 30
4.1 Fiddler介紹 30
4.2 Fiddler安裝配置 31
4.3 Fiddler抓取手機應用 33
4.4 Toolbar工具欄 36
4.5 Web Session列錶 37
4.6 View選項視圖 40
4.7 Quickexec命令行 41
4.8 本章小結 42
第5章Urllib數據抓取 43
5.1 Urllib簡介 43
5.2 發送請求 44
5.3 復雜的請求 46
5.4 代理IP 47
5.5 使用Cookies 48
5.6 證書驗證 50
5.7 數據處理 51
5.8 本章小結 52
第6章Requests數據抓取 54
6.1 Requests簡介及安裝 54
6.2 請求方式 55
6.3 復雜的請求方式 57
6.4 下載與上傳 60
6.5 本章小結 63
第7章驗證碼識彆 64
7.1 驗證碼類型 64
7.2 OCR技術 66
7.3 第三方平颱 69
7.4 本章小結 72
第8章數據清洗 74
8.1 字符串操作 74
8.2 正則錶達式 78
8.3 Beautiful Soup介紹及安裝 84
8.4 Beautiful Soup的使用 86
8.5 本章小結 90
第9章文檔數據存儲 92
9.1 CSV數據寫入和讀取 92
9.2 Excel數據寫入和讀取 94
9.3 Word數據寫入和讀取 99
9.4 本章小結 101
第10章ORM框架 104
10.1 SQLAlchemy介紹 104
10.2 安裝SQLAlchemy 105
10.3 連接數據庫 106
10.4 創建數據錶 108
10.5 添加數據 111
10.6 更新數據 112
10.7 查詢數據 114
10.8 本章小結 116
第11章MongoDB數據庫操作 118
11.1 MongoDB介紹 118
11.2 安裝及使用 120
11.2.1 MongoDB 120
11.2.2 MongoDB可視化工具 121
11.2.3 PyMongo 123
11.3 連接數據庫 123
11.4 添加文檔 125
11.5 更新文檔 126
11.6 查詢文檔 127
11.7 本章小結 130
第12章項目實戰:爬取淘寶商品信息 131
12.1 分析說明 131
12.2 功能實現 134
12.3 數據存儲 136
12.4 本章小結 138
第13章項目實戰:分布式爬蟲——QQ音樂 139
13.1 分析說明 139
13.2 歌麯下載 140
13.3 歌手和歌麯信息 145
13.4 分類歌手列錶 148
13.5 全站歌手列錶 150
13.6 數據存儲 152
13.7 分布式概念 154
13.7.1 GIL是什麼 154
13.7.2 為什麼會有GIL 154
13.8 並發庫concurrent.futures 155
13.9 分布式爬蟲 157
13.10 本章小結 159
第14章項目實戰:爬蟲軟件—— 淘寶商品信息 161
14.1 分析說明 161
14.2 GUI庫介紹 162
14.3 PyQt5安裝及環境搭建 162
14.4 軟件界麵開發 165
14.5 MVC——視圖 169
14.6 MVC——控製器 171
14.7 MVC——模型 172
14.8 擴展思路 173
14.9 本章小結 174
第15章項目實戰:12306搶票 176
15.1 分析說明 176
15.2 驗證碼驗證 177
15.3 用戶登錄與驗證 181
15.4 查詢車次 187
15.5 預訂車票 193
15.6 提交訂單 196
15.7 生成訂單 204
15.8 本章小結 209
第16章項目實戰:玩轉微博 219
16.1 分析說明 219
16.2 用戶登錄 220
16.3 用戶登錄(帶驗證碼) 232
16.4 關鍵字搜索熱門微博 240
16.5 發布微博 247
16.6 關注用戶 253
16.7 點贊和轉發評論 257
16.8 本章小結 263
第17章Scrapy爬蟲框架 265
17.1 爬蟲框架 265
17.2 Scrapy的運行機製 267
17.3 安裝Scrapy 268
17.4 爬蟲開發快速入門 270
17.5 Spiders介紹 277
17.6 Spider的編寫 278
17.7 Items的編寫 282
17.8 Item Pipeline的編寫 284
17.9 Selectors的編寫 288
17.10 文件下載 291
17.11 本章小結 296
第18章項目實戰:Scrapy爬取QQ音樂 298
18.1 分析說明 298
18.2 創建項目 299
18.3 編寫setting 300
18.4 編寫Items 301
18.5 編寫Item Pipelines 302
18.6 編寫Spider 305
18.7 本章小結 310
· · · · · · (
收起)