本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据。
作者简介:
Jacqueline Kazil
数据科学家,资深软件开发者。活跃于Python软件基金会、PyLadies等社区。曾参与美国总统创新伙伴项目,是美国政府技术组织18F的联合创始人。曾担任《华盛顿邮报》数据记者。
Katharine Jarmul
资深Python开发者,PyLadies联合创始人。喜欢数据分析和获取、网页抓取、教人学习Python以及Unix,期望通过教育和培训来促进Python和其他开源语言的多元化。
译者简介:
张亮(hysic)
毕业于北京大学物理学院,爱好机器学习和数据分析的核安全工程师。
吕家明
2016年毕业于哈尔滨工业大学,现就职于腾讯,从事搜索、Query分析等相关工作,熟悉大规模数据下的数据挖掘和机器学习实践。
都已经是2017的新书了,python官方也宣布于某年停更python2了,为什么这本书还要用python2来讲解?纳闷!urllib都合并为一个了,还在讲urllib2。找一本老外写的python3爬虫真的那么难吗?内容倒挺不错,讲解得很细!(我看的是试读版,只有前面的几十页)
评分都已经是2017的新书了,python官方也宣布于某年停更python2了,为什么这本书还要用python2来讲解?纳闷!urllib都合并为一个了,还在讲urllib2。找一本老外写的python3爬虫真的那么难吗?内容倒挺不错,讲解得很细!(我看的是试读版,只有前面的几十页)
评分都已经是2017的新书了,python官方也宣布于某年停更python2了,为什么这本书还要用python2来讲解?纳闷!urllib都合并为一个了,还在讲urllib2。找一本老外写的python3爬虫真的那么难吗?内容倒挺不错,讲解得很细!(我看的是试读版,只有前面的几十页)
评分都已经是2017的新书了,python官方也宣布于某年停更python2了,为什么这本书还要用python2来讲解?纳闷!urllib都合并为一个了,还在讲urllib2。找一本老外写的python3爬虫真的那么难吗?内容倒挺不错,讲解得很细!(我看的是试读版,只有前面的几十页)
评分都已经是2017的新书了,python官方也宣布于某年停更python2了,为什么这本书还要用python2来讲解?纳闷!urllib都合并为一个了,还在讲urllib2。找一本老外写的python3爬虫真的那么难吗?内容倒挺不错,讲解得很细!(我看的是试读版,只有前面的几十页)
阅读体验方面,这本书的排版简直是业界良心之作。行距、字号的设置都非常舒适,长时间阅读下来眼睛的疲劳感明显减轻。更重要的是,代码示例的展示方式极其清晰,通常是左侧是解释性的文字,右侧是完整的、可直接运行的代码块,并且关键部分的注释非常到位。这极大地减少了读者在对照理论和实践时来回切换的认知负荷。我期待看到更多针对现代数据架构的解决方案,比如如何结合分布式计算框架进行高效的数据聚合和转换。如果书中能针对不同复杂度的业务场景,提供一系列“最佳实践”的Checklist,那这本书的实用价值将得到质的飞跃。目前来看,这种对阅读细节的关注,已经为我接下来的学习打下了坚实的基础。
评分我花了相当长的时间浏览了这本书的引言和前几章的概览,发现作者在构建知识体系时,似乎采取了一种“由浅入深,循序渐进”的教学策略。这种安排对于我这种已经有一定编程基础,但希望系统性梳理数据处理知识体系的读者来说,无疑是高效的学习路径。尤其欣赏的是,它似乎并没有回避一些初学者可能会感到畏惧的底层原理的阐述,而是用非常清晰的比喻和图示来解释这些概念,这点非常难得。很多同类书籍要么过于理论化,让人望而却步,要么过于碎片化,缺乏整体的连贯性。这本书如果能保持这种平衡,持续深入讲解如何构建健壮的数据管道,那么它将成为我案头必备的工具书。我个人非常关注性能优化方面的内容,期待它能深入剖析不同算法在处理大规模数据时的效率差异及相应的优化技巧。
评分这本书的装帧设计非常吸引人,封面的配色和字体选择透露出一种专业与亲和力的完美结合。刚拿到手的时候,我就被它那种沉甸甸的质感所打动,这让我对里面的内容充满了期待。我通常选购技术书籍会非常注重其实用性和前沿性,而这本书从目录上看,似乎覆盖了数据处理领域中一些非常核心且实用的技术栈。我特别留意了关于数据清洗和可视化的章节,因为这正是我目前工作中最常遇到的瓶颈所在。如果书中的案例能够紧密结合实际生产环境中的复杂数据结构,而不是仅仅停留在教科书式的简单数据集上,那它无疑会是一本极具价值的参考资料。希望它能提供一些独到的见解,帮助我优化现有的数据流程,提升处理效率。总而言之,从初印象来看,这本书的硬件指标和初步内容布局都给我留下了非常积极的信号,让我迫不及待地想深入其中一探究竟,看看它在理论深度和实践指导上能达到何种水准。
评分从一个资深数据分析师的角度审视,我更关注的是这本书对于前沿工具链的兼容性和整合能力。现如今的数据生态系统变化极快,如果一本书的内容仅仅停留在几年前的主流工具上,那它的生命力会大打折扣。我希望看到它如何整合最新的云原生数据服务,以及如何处理非结构化数据的挑战。例如,书中是否有对现代流处理范式的深入探讨?或者,对于数据治理和元数据管理这些日益重要的环节,是否有给出切实可行的操作指南?如果它能提供跨平台、跨语言的数据集成方案,哪怕只是作为一个概览性的章节,也会让这本书的价值远超一般的入门指南,使其成为一个真正的“现代数据处理手册”。这本书的气质似乎指向了这一点,期待它能兑现这种雄心。
评分这本书的理论深度和广度似乎达到了一个很高的水准,但更让我感到惊喜的是,它在“错误处理与调试”这一块似乎给予了额外的篇幅。在真实的数据处理工作中,数据质量问题和异常流程远比编写第一个Hello World复杂得多。如果作者能够分享一些处理“脏数据”的实战经验,比如如何优雅地回滚失败的批处理作业,或者如何构建自愈合的数据管道,那这本书的实用价值将是无可替代的。我特别希望看到一些关于异常日志分析和预防性维护的章节。通常,技术书籍会把这些“不那么光鲜”但至关重要的部分一带而过,而这本书如果能扎实地覆盖这些内容,无疑将成为领域内一本里程碑式的著作,因为它真正触及了从开发到运维的完整生命周期。
评分很全面却过于走马观花。我也走马观花过了一遍,收获不多,适合新手
评分!!!
评分后面看,还是先听课吧
评分前几个月准备写爬虫时读过。20171230
评分本书立意相当的高,举例相对少。想知道不用pandas和numpy如何进行数据采集和数据预处理吗,那就是这本书了。但本书难度曲线在从某个地方开始突然很陡峭,还介绍了一些不常见的库,不适合入门。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2026 book.quotespace.org All Rights Reserved. 小美书屋 版权所有