数据分析实战

数据分析实战 pdf epub mobi txt 电子书 下载 2026

出版者:机械工业出版社
作者:纪贺元
出品人:
页数:224
译者:
出版时间:2017-6-1
价格:59
装帧:16开
isbn号码:9787111566670
丛书系列:数据分析与决策技术丛书
图书标签:
  • 数据分析
  • spss
  • excel
  • 工具
  • 豆瓣推荐
  • 纪贺元
  • 机械工业出版社
  • 产品经理
  • 数据分析
  • Python
  • 数据挖掘
  • 统计分析
  • 机器学习
  • 数据可视化
  • 商业分析
  • 数据处理
  • Pandas
  • NumPy
想要找书就要到 小美书屋
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

具体描述

本书是针对于非统计科班出身的企业人员讲述数据分析和挖掘的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实实践应用案例和场景的著作。全书分为三大部分:

第一部分是基础篇(第1章和第2章),主要介绍数据分析的概念、术语、方法、模型等,为后续的内容展开奠定基础。

第二部分是制表篇(第3章~第5章),介绍数据的采集原则、数据整理以及常用数据报表的制作方法和技巧。

第三部分是数据分析篇(第6章~第14章),这是本书的重点内容,囊括了从数据扫描、数据标注到异常值分析、回归等常用的、有代表性的功能,并以案例形式展示在数据分析过程中使用上述功能的思路、方法和技巧,指导读者进行实战操练。

作者简介

纪贺元,数据分析专家,从事数据分析与挖掘的培训和咨询多年,曾在通信行业长期从事数据分析与挖掘的建模分析工作。在EXCEL、SPSS、MODELER、EVIWS、VBA、SAS等方面有长期的使用经验,擅长分析模型和算法的优化工作。曾经主持过多个数据分析、数据报表、市场调查项目。

目录信息

前言
第1章 什么是数据分析1
1.1 一眼就看到结论还需要数据分析吗1
1.1.1 企业数据量2
1.1.2 数据复杂度2
1.1.3 数据颗粒度3
1.2 数据分析能给我们带来什么4
1.2.1 了解数据的整体状况4
1.2.2 快速查询数据5
1.2.3 数据之间关系的探索5
1.2.4 业务预测6
1.3 数据分析的几大抓手6
1.3.1 足够多的数据6
1.3.2 数据质量6
1.3.3 合适的工具7
1.3.4 分析结果的呈现7
1.4 数据分析的流程7
1.4.1 数据采集7
1.4.2 数据整理8
1.4.3 制表11
1.4.4 数据分析11
1.4.5 数据展示(呈现)12
1.5 如何成为数据分析高手12
1.5.1 “拳不离手,曲不离口”12
1.5.2 熟练掌握常用工具12
1.5.3 最好能编点程序13
1.5.4 一定要通晓业务14
第2章 数据分析的理论、工具、模型15
2.1 基本概念和术语15
2.1.1 基本概念15
2.1.2 术语22
2.2 选择称手的软件工具26
2.2.1 EXCEL27
2.2.2 VBA27
2.2.3 Access27
2.2.4 SPSS28
2.2.5 XLSTAT29
2.2.6 Modeler29
2.2.7 R语言30
2.3 在分析需求和模型之间搭起桥梁30
2.3.1 识别需求30
2.3.2 分解需求30
2.3.3 选择工具和模型31
第3章 数据采集与整理32
3.1 数据采集的几条重要原则32
3.1.1 要足够“复杂”32
3.1.2 要足够“细”33
3.1.3 要有“跨度”33
3.1.4 要有可行性34
3.2 用“逐步推进法”推测需要的数据34
3.3 耗时耗力的数据整理过程35
3.3.1 重复、空行、空列数据删除36
3.3.2 缺失值的填充和分析39
3.3.3 数据间逻辑的排查45
3.4 数据量太大了怎么办47
3.4.1 放到数据库中处理47
3.4.2 用专业工具处理47
3.4.3 数据抽样51
第4章 数据分析的基础:制表(上)53
4.1 以数据合并为目标的制表53
4.1.1 跨工作表合并53
4.1.2 跨工作簿合并55
4.2 以数据筛选为目标的制表56
4.2.1 普通数据筛选57
4.2.2 高级筛选60
4.2.3 计算筛选62
4.2.4 函数筛选63
4.3 以获得概要数据为目标的制表64
4.3.1 分类汇总方法64
4.3.2 数据透视表汇总68
第5章 数据分析的基础:制表(下)70
5.1 “七个百分比”让你懂得大部分表格类型70
5.1.1 行总计的百分比70
5.1.2 列总计的百分比73
5.1.3 全部总计的百分比74
5.1.4 父行(列)的百分比74
5.1.5 累计占比75
5.1.6 环比78
5.1.7 同比79
5.2 分组功能经常让分析峰回路转81
5.2.1 文本的分组81
5.2.2 等步长的数据分组83
5.2.3 不等步长的数据分组86
5.2.4 日期型的分组88
5.3 随意生成各种派生指标89
5.3.1 添加字段89
5.3.2 添加项91
5.4 从大数据库中挑选要分析的数据:Microsoft Query92
5.5 强大的SQL97
5.5.1 SQL的基本语法97
5.5.2 SQL的应用97
第6章 数据扫描:给数据做体检100
6.1 在EXCEL中给数据做扫描100
6.2 SPSS中给数据做扫描103
6.3 在Modeler中给数据做扫描105
6.4 其他相应的指标108
第7章 数据标注:给数据上色110
7.1 大数据块的整体标注111
7.1.1 突出显示单元格规则111
7.1.2 特殊数据选取规则112
7.2 根据业务逻辑在数据中标注上色113
7.2.1 数据条、色阶、图标集的应用113
7.2.2 规则的理解115
7.2.3 根据业务需求改变规则118
7.3 采用公式实现复杂强大的数据标注119
7.3.1 理解逻辑表达式的含义119
7.3.2 复杂逻辑公式的应用120
7.4 如何在一张表格中实现多种标注规则123
7.4.1 多规则的应用123
7.4.2 如何理解“遇真则停止”125
第8章 找到数据中的“特殊分子”127
8.1 什么是异常值127
8.2 异常值的判断标准128
8.3 用绘图技巧找到异常值129
8.3.1 散点图129
8.3.2 面板图130
8.4 用公式函数法发掘异常值135
8.5 三倍标准差法137
第9章 相关分析与决策树140
9.1 Pearson相关140
9.1.1 应用场景141
9.1.2 输出指标的解析141
9.2 典型相关分析145
9.2.1 操作步骤145
9.2.2 结果解读147
9.3 决策树149
9.3.1 什么时候需要用决策树149
9.3.2 决策树的操作和指标解释150
第10章 聚类155
10.1 多维度数据的分类怎么办155
10.1.1 低维度数据的分类方法155
10.1.2 高维度数据的分类需求157
10.1.3 常用的聚类操作介绍157
10.2 聚类的烦恼1:如何面对数量级差别大的数据165
10.3 聚类的烦恼2:如何判断聚类的质量167
第11章 回归168
11.1 如何寻找现有数据的内在规律168
11.1.1 什么是数据拟合169
11.1.2 多元线性回归171
11.2 logistic回归173
11.2.1 回归(客户“买”与“不买”)173
11.2.2 多元logistic回归(多个品牌的选择)176
11.2.3 多元有序logistic回归181
第12章 关联分析183
12.1 因果关系的弱化183
12.2 关联分析的指标184
12.2.1 支持度184
12.2.2 置信度185
12.2.3 提升度185
12.3 什么样的数据适合做关联分析186
12.3.1 商超数据186
12.3.2 金融数据186
12.3.3 生产质量数据187
12.4 关联分析的具体操作187
第13章 预测191
13.1 什么是预测,预测的准确度高吗191
13.2 移动平滑193
13.3 指数平滑194
13.3.1 二次指数平滑194
13.3.2 三次指数平滑195
13.4 对周期性数据的分解198
13.5 ARIMA预测法201
第14章 高级绘图技巧206
14.1 怎样才算图画得好206
14.2 双轴图的技巧和运用207
14.3 不同数量级数据的高效对比展示211
14.4 数据标签的妙用215
14.5 图形中的重点标注221
14.6 绘图美学—多点审美素养222
14.6.1 整体布局222
14.6.2 线型的选择223
14.6.3 色彩对比223
后记 数据分析经验之我见224
· · · · · · (收起)

读后感

评分

评分

评分

评分

评分

用户评价

评分

我必须承认,在接触这本关于**[此处应填入实际的书籍内容,例如“大规模图数据库的性能优化”]**的专业书籍之前,我对“图计算”的理解仅停留在基础的算法层面。然而,这本书展现出的广度和深度,完全超出了我的预期,它根本就不是一本基础读物,更像是一本面向资深架构师的实战手册。作者以一种极其工程化的视角,系统性地梳理了从数据模型设计(如何高效地表示实体关系)、到索引策略(B树、LSM树在图数据库中的特殊应用),再到查询引擎优化(深度遍历的剪枝策略)的完整技术栈。书中对Neo4j、JanusGraph等主流图数据库的内部工作原理进行了深入的源码级剖析,这一点尤为宝贵——它揭示了为什么在某些场景下,即使是理论上最优的查询,在实际运行时也会因为I/O瓶颈而表现糟糕。书中的性能基准测试部分极其详尽,不同硬件配置和数据分布对查询延迟的影响曲线被清晰地展示出来,为我们选择合适的部署方案提供了铁证。阅读这本书的过程,是一次对“高性能系统设计”的密集训练。它教会我,在处理复杂网络结构数据时,性能优化的关键点往往不在于算法的复杂度,而在于如何巧妙地规避底层硬件的限制。对于任何正在构建或维护大规模知识图谱或社交网络分析系统的团队而言,这本书是不可替代的性能调优圣经。

评分

初次翻开这本关于**[此处应填入实际的书籍内容,例如“深度学习在自然语言处理中的应用”]**的书籍时,我的预期其实是相当保守的,毕竟这个领域的新知识更新速度快得惊人,很多出版物还没捂热就可能过时了。然而,这本书却以一种近乎“预言家”的姿态,精准地抓住了当前技术栈的关键转折点。它的优势不在于罗列最新的算法名称,而在于对底层数学原理的耐心梳理。作者似乎深知,只有真正理解了梯度下降的每一步迭代、注意力机制的权重分配,才能在面对未来新架构时举一反三。我特别佩服它在章节结构上的设计,每讲完一个核心模型(比如Transformer架构的演进),都会立刻安排一个“陷阱与调优”的实战章节,直面读者在实际操作中最容易踩的坑,比如梯度爆炸、欠拟合的微妙信号等。那些关于超参数调优的经验之谈,完全是过来人血泪凝成的智慧结晶,比任何官方文档都来得实在。特别是书中对内存优化和分布式训练的论述,语言简练,逻辑清晰,让我彻底搞懂了如何在有限的GPU资源下跑起更大规模的模型。对于我这种需要将研究成果快速落地到产品线的工程师而言,这本书提供的不是知识,而是一套行之有效的、能快速穿越技术迷雾的路线图,它让复杂的AI工程问题变得井然有序,极大地提升了我的项目迭代效率。

评分

说实话,市面上介绍**[此处应填入实际的书籍内容,例如“商业智能(BI)工具与数据治理”]**的书籍汗牛充栋,大都流于表面,要么是某个特定工具的点击式教程,要么是对数据管理理论的空洞喊话。但这一本,完全颠覆了我的认知。它不是一本“教你用Power BI/Tableau”的书,而是一本“教你如何构建一个可持续、可信赖的数据生态系统”的战略蓝图。最让我眼前一亮的是,作者将“数据治理”这个听起来枯燥乏味的概念,用一种近乎侦探小说的叙事方式展开——如何追溯数据源头的污染、如何识别数据口径的不一致、以及如何通过清晰的元数据管理建立起组织内部的“数据信任”。书中对于“数据质量指标体系”的设计部分,简直是精华中的精华,它提供了一套可量化的框架,让你不再凭感觉判断数据的好坏,而是可以用明确的数字来说服管理层投入资源去清洗脏数据。行文风格极其接地气,没有使用太多生硬的术语,即便是一个刚接触数据管理的新手,也能顺畅理解。读完它,我不再只关注报表做得多漂亮,而是开始关注报表背后的数据流是否健康、是否具有一致性。这本书成功地将技术层面的数据工程,提升到了组织战略和流程优化的层面,让我从一个“报表制作者”的心态,转变为一个“数据资产管理者”的视角。

评分

这本新近拜读的关于**[此处应填入实际的书籍内容,例如“高级统计建模”或“Python数据可视化”]**的著作,简直是为我这种在数据海洋里摸爬滚打多年的老兵量身定制的指南针。作者的叙事方式极其老道,开篇就避开了那些冗长乏味的理论铺陈,直接切入核心痛点——如何将晦涩难懂的统计学概念,转化为企业决策者能一眼看穿的商业洞察。我尤其欣赏其中关于“模型解释性”的探讨,不同于市面上多数书籍只关注模型的准确率,这本书花了大量篇幅讲解如何用简洁的语言向非技术背景的听众传达复杂的模型逻辑。书中提供的案例,无一不是基于真实商业场景的深度挖掘,例如某电商平台的用户生命周期价值(LTV)预测模型构建,每一步的参数选择、数据预处理的细微差别,都标注得清清楚楚,附带的R代码(或者Python代码)不仅可以直接运行,注释也堪称教科书级别。读完后,我立刻尝试将其中一个时间序列预测的技巧应用到我正在负责的供应链波动分析中,结果立竿见影,提前发现了几个潜在的库存积压风险点。这本书的价值,在于它弥合了理论与实践之间那道巨大的鸿沟,是每一个想从“会跑代码”升级到“会做决策”的数据专业人士书架上不可或缺的一本重磅工具书。它不仅教会你“如何做”,更重要的是教会你“为什么要这么做”,这种思维上的升华,远比单纯的技能堆砌来得珍贵。

评分

这本关于**[此处应填入实际的书籍内容,例如“贝叶斯统计方法论与实际应用”]**的著作,给我的感觉就像是与一位极其睿智的导师进行了一次深入的、不被打扰的对话。它的阅读体验是缓慢而充满回味的,不同于那些追求速度的速成指南,这本书更注重思想的渗透。作者似乎对“不确定性”有着近乎哲学的热爱,将贝叶斯推断从一个高深的数学工具,还原成了人类认知世界的一种自然方式。它对先验信息在模型构建中的角色进行了极其细致的剖析,并通过一系列巧妙的例子,展示了如何将专家经验和历史数据有机地结合起来,构建出比传统频率派方法更具鲁棒性的模型。我特别欣赏其中关于MCMC(马尔可夫链蒙特卡洛)采样方法的讲解,作者没有直接抛出复杂的公式,而是通过生动的几何直观来解释采样空间和收敛性的概念,这极大地降低了我过去对这部分内容的畏惧感。这本书的语言是典雅而精确的,每一个用词都经过了深思熟虑,让人在阅读过程中不断停下来思考作者的论证结构。对于那些长期困惑于“如何量化我的主观判断”的数据分析师来说,这本书无疑是一盏明灯,它不仅提供了工具,更重塑了你对概率和证据的理解框架,使你能够以更成熟、更审慎的态度去面对任何需要做出判断的复杂问题。

评分

光看一遍似乎不是太难,暂定三星,需要更懂之后回头再判断。

评分

入门 作者很真诚

评分

光看一遍似乎不是太难,暂定三星,需要更懂之后回头再判断。

评分

书是本好书,我要批评你文风也太俏皮了,你表个态吧

评分

数据分析入门

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2026 book.quotespace.org All Rights Reserved. 小美书屋 版权所有