數據科學實戰之網絡爬取

數據科學實戰之網絡爬取 pdf epub mobi txt 電子書 下載2025

出版者:機械工業齣版社
作者:希普·萬登·布魯剋
出品人:
頁數:220
译者:
出版時間:2018-12
價格:69
裝幀:
isbn號碼:9787111614043
叢書系列:數據科學與工程技術叢書
圖書標籤:
  • python
  • 爬蟲
  • web抓取
  • 數據科學
  • 學習
  • 數據科學
  • 網絡爬蟲
  • Python
  • 數據分析
  • 實戰
  • 數據獲取
  • 爬取
  • 信息提取
  • 網絡數據
  • 編程
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

本書提供瞭一個完整的、現代的Web抓取指南,使用Python作為編程語言,專為數據科學的讀者編寫,探討瞭Web抓取和以及其背後的大量Web技術。書中首先簡要概述抓取和現實生活中的用例,解釋瞭HTTP、HTML和CSS的核心概念作為基礎。最後總結瞭一些最佳實踐和一係列的例子,這些數據科學用例匯集瞭你學到的所有知識。讀者將學習到如何利用已建立的最佳實踐和常用的Python包,處理包括JavaScript、Cookie和常見的web抓取技術。

著者簡介

希普·萬登·布魯剋(Seppe vanden Broucke),巴特·巴森斯(Bart Baesens) 著:Seppe vanden Broucke是比利時魯汶大學經濟與商務學院數據科學方麵的助理教授。他的研究興趣包括商務數據挖掘和分析、機器學習、流程管理和流程挖掘,相關論文發錶在知名國際期刊和頂級會議上。 Seppe從事包括高級分析、大數據和信息管理課程方麵的教學工作,也經常提供工業和商業用戶的培訓。除瞭工作,Seppe喜歡旅行、閱讀(從Murakami到Bukowski到Asimov)、聽音樂(從Booka Shade到Miles Davis到Claude Debussy)、看電影和連續劇(由於沒時間現在看得少多瞭)、玩遊戲和關注新聞事件。

Bart Baesens是比利時魯汶大學大數據和數據分析方麵的教授,也是英國南安普頓大學的講師。他對大數據及分析、信用風險建模、欺詐檢測和營銷分析進行瞭廣泛的研究。Bart撰寫瞭200多篇學術論文和若乾本書。除瞭與傢人共度時光外,他還是一名布魯日足球俱樂部的鐵杆球迷。Bart是美食傢和業餘廚師,他喜歡在他的酒窖裏或者在花園裏俯瞰紅色英式電話亭時喝一杯好酒(他最喜歡的是白維歐尼或紅赤霞珠)。Bart熱愛旅行,對第一次世界大戰著迷,並閱讀瞭很多關於這個主題的書籍。

圖書目錄

譯者序
作者簡介
技術審校者簡介
前言
第一部分 網絡爬取基礎
第1章 簡介2
1.1 什麼是網絡爬取2
1.1.1 網絡爬取為什麼用於數據科學2
1.1.2 誰在使用網絡爬取4
1.2 準備工作6
1.2.1 設置6
1.2.2 Python 快速入門7
第2章 網絡傳輸協議HTTP18
2.1 網絡的魔力18
2.2 超文本傳輸協議20
2.3 Python中的HTTP—Requests庫25
2.4 帶參數的URL查詢字符串28
第3章 HTML和CSS36
3.1 超文本標記語言HTML36
3.2 將瀏覽器用作開發工具38
3.3 層疊樣式錶CSS42
3.4 Beautiful Soup庫45
3.5 有關Beautiful Soup的更多內容53
第二部分 高級網絡爬取
第4章 深入挖掘HTTP60
4.1 使用錶單和POST請求60
4.2 其他HTTP請求方法71
4.3 關於頭的更多信息73
4.4 使用Cookie79
4.5 requests庫的session對象87
4.6 二進製、JSON和其他形式的內容89
第5章 處理JavaScript93
5.1 什麼是JavaScript93
5.2 爬取JavaScript94
5.3 使用Selenium爬取網頁98
5.4 Selenium的更多信息109
第6章 從網絡爬取到網絡爬蟲115
6.1 什麼是網絡爬蟲115
6.2 使用Python實現網絡爬蟲117
6.3 數據庫存儲120
第三部分 相關管理問題及最佳實踐
第7章 網絡爬取涉及的管理和法律問題130
7.1 數據科學過程130
7.2 網絡爬取適閤用於哪裏133
7.3 法律問題134
第8章 結語139
8.1 其他工具139
8.1.1 其他Python庫139
8.1.2 Scrapy庫140
8.1.3 緩存140
8.1.4 代理服務器141
8.1.5 基於其他編程語言的爬取141
8.1.6 命令行工具142
8.1.7 圖形化的爬取工具142
8.2 最佳實踐和技巧143
第9章 示例147
9.1 爬取Hacker News網頁148
9.2 使用Hacker News API150
9.3 爬取引用信息 150
9.4 爬取書籍信息154
9.5 爬取GitHub上項目被收藏的次數156
9.6 爬取抵押貸款利率160
9.7 爬取和可視化IMDB評級165
9.8 爬取IATA航空公司信息166
9.9 爬取和分析網絡論壇的互動171
9.10 收集和聚類時尚數據集177
9.11 Amazon評論的情感分析180
9.12 爬取和分析維基百科關聯圖188
9.13 爬取和可視化董事會成員圖194
9.14 使用深度學習破解驗證碼圖片197
· · · · · · (收起)

讀後感

評分

評分

評分

評分

評分

用戶評價

评分

web抓取

评分

非常適閤外行

评分

非常適閤外行

评分

非常適閤外行

评分

web抓取

相關圖書

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有