Python网络数据采集

Python网络数据采集 pdf epub mobi txt 电子书 下载 2025

Ryan Mitchell

数据科学家、软件工程师,目前在波士顿LinkeDrive公司负责开发公司的API和数据分析工具。此前,曾在Abine公司构建网络爬虫和网络机器人。她经常做网络数据采集项目的咨询工作,主要面向金融和零售业。另著有Instant Web Scraping with Java。

出版者:人民邮电出版社
作者:[美] 米切尔
出品人:
页数:200
译者:陶俊杰
出版时间:2016-3-1
价格:CNY 59.00
装帧:平装
isbn号码:9787115416292
丛书系列:图灵程序设计丛书·Python系列
图书标签:
  • 爬虫 
  • python 
  • Python 
  • 数据挖掘 
  • 数据抓取 
  • 编程 
  • 计算机 
  • 数据分析 
  •  
想要找书就要到 小美书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

本书采用简洁强大的Python语言,介绍了网络数据采集,并为采集新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网络数据采集的基本原理:如何用Python从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。

具体描述

读后感

评分

1.可以尝试使用Google API 2.对于容易被封杀的站点使用tor来匿名 3.使用Tesseract识别验证码,可以训练特殊字体提高识别率 4.爬取整个网站的外链链接是件容易的事情 5.使用selenium作为测试网站的框架 6.注意cookie和request header的使用,努力让网站不把你当做爬虫对待  

评分

最近刚学了python3,看了一些讲语法的书籍和练手的题目,感觉这本书是一个比较好的系统的利用python完成从数据爬取到数据清洗整个流程的实践过程。觉得自己很有必要实践一下。刚刚看了下试读章节,15年出的英文版,难得的用python3进行工程实践而不只是讲语法的书。  

评分

评分

评分

作者显然是此行达人,踩坑踩多了都是直接上经验。 书里的代码很优美、正规并且很简洁,运用了大量的递归算法和正则表达式。但是有些地方译者翻译的有误,比如第31页,倒数第六行冒号翻译成了分号,显然运行了源码并且对比了wiki网站才会知道这是误翻译。 另外,作者源码也有错...  

用户评价

评分

内容覆盖的比较全,但是具体操作及实用还有待考究,比如验证码识别的准确率,还有一些库的基本命令与对应功能并不很全

评分

爬虫入门推荐,内容不难,面面俱到,唯一遗憾的是没讲如何多线程和分布式爬取,篇幅有限可以理解。作者还分享了一些踩坑的细节,甚至跟爬虫看似没有直接关系的知识点也介绍了一下。代码不是很Pythonic,看起来作者应该主要是写Java的,不过代码质量可以,Python 3也好评。

评分

可以。

评分

适合入门,感觉是各种爬虫库文档的精简版

评分

提纲挈领的入门书,惊讶地发现好多东西我居然已经都自己摸索出来了……

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.quotespace.org All Rights Reserved. 小美书屋 版权所有