Web Scraping with Python

Web Scraping with Python pdf epub mobi txt 電子書 下載2025

出版者:O'Reilly Media
作者:Ryan Mitchell
出品人:
頁數:256
译者:
出版時間:2015-7-24
價格:USD 31.99
裝幀:Paperback
isbn號碼:9781491910290
叢書系列:
圖書標籤:
  • Python
  • 爬蟲
  • scraping
  • 數據挖掘
  • 計算機
  • 編程
  • Programming
  • 數據處理
  • Python
  • Web Scraping
  • Data Extraction
  • Beautiful Soup
  • Scrapy
  • HTTP Requests
  • Data Analysis
  • Automation
  • Programming
  • Web Development
想要找書就要到 小美書屋
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!

具體描述

著者簡介

Ryan Mitchell

數據科學傢、軟件工程師,目前在波士頓LinkeDrive公司負責開發公司的API和數據分析工具。此前,曾在Abine公司構建網絡爬蟲和網絡機器人。她經常做網絡數據采集項目的谘詢工作,主要麵嚮金融和零售業。另著有Instant Web Scraping with Java。

圖書目錄

讀後感

評分

作者显然是此行达人,踩坑踩多了都是直接上经验。 书里的代码很优美、正规并且很简洁,运用了大量的递归算法和正则表达式。但是有些地方译者翻译的有误,比如第31页,倒数第六行冒号翻译成了分号,显然运行了源码并且对比了wiki网站才会知道这是误翻译。 另外,作者源码也有错...  

評分

我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看过了 我看...

評分

作者显然是此行达人,踩坑踩多了都是直接上经验。 书里的代码很优美、正规并且很简洁,运用了大量的递归算法和正则表达式。但是有些地方译者翻译的有误,比如第31页,倒数第六行冒号翻译成了分号,显然运行了源码并且对比了wiki网站才会知道这是误翻译。 另外,作者源码也有错...  

評分

第177页的代码从逻辑上就不对啊,import的pytesseract就没用,而是通过subprocess调用,这应该是第一版的思路,不过我也搞不清这是作者还是译者的锅,把代码改成如下更合理 import time from urllib.request import urlretrieve from PIL import Image import pytesseract from...  

評分

第三章有好几个地方出现“分号”,但又实在不明白哪里有分号,只好查了原文。 原文是 colons,也就是冒号。 写在这里,给其他同学提个醒。 : 这是冒号 ; 这是分号 公平地说,原书中也有一些低级错误,比如第七章开始不久,有个函数里把 input 写成了content,中文版照抄了...  

用戶評價

评分

近期唯一認真讀的書 但是書就是比較淺(。自己可能已經是文盲瞭

评分

入門超棒

评分

無力吐槽,書中代碼有不少錯誤,建議對照一下GitHub以及網站上的errata

评分

從入門到進階的寫爬蟲,其中CATCHA的識彆/文本分析/反防爬蟲策略/登錄/JS和Cookies的處理,都是乾貨。書頁數不多,但能解決這一領域的問題,實屬乾貨。

评分

非常全麵,web信息獲取的很多方麵都提到瞭:基本的網頁html解析(beautifulsoup),站點鏈接,全網鏈接,利用api,基本的數據清理,自然語言的處理(NLTK),錶單登錄處理(requests),js解析(selenium),圖片文本識彆(tesseract)。這麼全麵,當然不算深入,對於入門瞭解整體方麵非常不錯。

本站所有內容均為互聯網搜索引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美書屋 版权所有