译者序
前言
致谢
作者简介
第一部分 大数据
第1章 大数据简介2
1.1 引言2
1.2 大数据2
1.3 大数据的定义4
1.4 为什么需要大数据?为什么是现在4
1.5 大数据示例5
1.5.1 社交媒体的文章5
1.5.2 调查数据分析6
1.5.3 调查数据7
1.5.4 气象数据8
1.5.5 Twitter数据8
1.5.6 集成和分析8
1.5.7 附加数据的类型10
1.6 总结11
延伸阅读11
第2章 使用大数据12
2.1 引言12
2.2 数据爆炸12
2.3 数据体量13
2.3.1 机器数据14
2.3.2 应用日志14
2.3.3 点击流日志14
2.3.4 外部或第三方数据15
2.3.5 电子邮件15
2.3.6 合同15
2.3.7 地理信息系统和地理空间数据16
2.3.8 示例:Funshots公司17
2.4 数据速度19
2.4.1 Amazon、Facebook、Yahoo和Google19
2.4.2 传感器数据19
2.4.3 移动网络20
2.4.4 社交媒体20
2.5 数据多样性21
2.6 总结22
第3章 大数据处理架构23
3.1 引言23
3.2 再论数据处理23
3.3 数据处理技术24
3.4 数据处理基础设施的挑战25
3.4.1 存储25
3.4.2 传输25
3.4.3 处理26
3.4.4 速度或吞吐量26
3.5 全共享架构与无共享架构的比较26
3.5.1 全共享架构27
3.5.2 无共享架构27
3.5.3 OLTP与数据仓库28
3.6 大数据处理28
3.6.1 基础设施方面31
3.6.2 数据处理方面32
3.7 电信大数据研究32
3.7.1 基础设施34
3.7.2 数据处理34
第4章 大数据技术简介35
4.1 引言35
4.2 分布式数据处理36
4.3 大数据处理需求38
4.4 大数据处理技术39
4.5 Hadoop42
4.5.1 Hadoop核心组件43
4.5.2 Hadoop总结69
4.6 NoSQL69
4.6.1 CAP定理69
4.6.2 键-值对:Voldemort70
4.6.3 列簇存储:Cassandra70
4.6.4 文档数据库:Riak76
4.6.5 图数据库77
4.6.6 NoSQL小结78
4.7 文本ETL处理78
延伸阅读79
第5章 大数据驱动的商业价值80
5.1 引言80
5.2 案例研究1:传感器数据81
5.2.1 摘要81
5.2.2 Vestas81
5.2.3 概述81
5.2.4 利用风力发电81
5.2.5 把气候变成资本82
5.2.6 跟踪大数据的挑战83
5.2.7 维持数据中心的能源效率83
5.3 案例研究2:流数据84
5.3.1 摘要84
5.3.2 监控和安全:TerraEchos84
5.3.3 需求84
5.3.4 解决方案84
5.3.5 效益84
5.3.6 先进的光纤网结合实时流数据85
5.3.7 解决方案组件85
5.3.8 扩展安全边界创建战略优势85
5.3.9 关联传感器数据使得假阳性率为零86
5.4 案例研究3:通过大数据分析改善患者预后86
5.4.1 摘要86
5.4.2 业务目标87
5.4.3 挑战87
5.4.4 概述:给从业人员新的洞察以指导患者护理87
5.4.5 挑战:将传统数据仓库生态系统与大数据融合87
5.4.6 解决方案:为大数据分析做好准备88
5.4.7 结果:消除“数据陷阱”88
5.4.8 为什么是aster88
5.4.9 关于Aurora89
5.5 案例研究4:安大略大学技术学院—利用关键数据,提供积极的患者护理89
5.5.1 摘要89
5.5.2 概述89
5.5.3 商业上的收益90
5.5.4 更好地利用数据资源90
5.5.5 智慧医疗保健91
5.5.6 解决方案组件91
5.5.7 融合人类知识与技术92
5.5.8 扩大Artemis的影响92
5.6 案例研究5:微软SQL Server客户解决方案93
5.6.1 客户画像93
5.6.2 解决方案的亮点93
5.6.3 业务需求93
5.6.4 解决方案94
5.6.5 好处94
5.7 案例研究6:以客户为中心的数据集成95
5.7.1 概述95
5.7.2 解决方案设计98
5.7.3 促成更好的交叉销售和追加销售的机会99
5.8 总结100
第二部分 数据仓库
第6章 再论数据仓库102
6.1 引言102
6.2 传统的数据仓库或DW 1.0103
6.2.1 数据架构103
6.2.2 基础设施104
6.2.3 数据仓库的陷阱106
6.2.4 建立数据仓库的架构方法111
6.3 DW 2.0113
6.3.1 Inmon的DW 2.0概述114
6.3.2 DSS 2.0概述115
6.4 总结116
延伸阅读116
第7章 数据仓库的再造118
7.1 引言118
7.2 企业数据仓库平台118
7.2.1 事务型系统119
7.2.2 运营数据存储区119
7.2.3 分段区120
7.2.4 数据仓库120
7.2.5 数据集市120
7.2.6 分析型数据库121
7.2.7 数据仓库的问题121
7.3 再造数据仓库的选择122
7.3.1 平台再造122
7.3.2 平台工程123
7.3.3 数据工程124
7.4 使数据仓库现代化125
7.5 使数据仓库现代化的案例研究127
7.5.1 当前状态分析127
7.5.2 推荐127
7.5.3 现代化的业务收益128
7.5.4 一体机的选择过程128
7.6 总结132
第8章 数据仓库中的工作负载管理133
8.1 引言133
8.2 当前状态133
8.3 工作负载的定义134
8.4 了解工作负载135
8.4.1 数据仓库输出136
8.4.2 数据仓库输入137
8.5 查询分类138
8.5.1 宽/宽138
8.5.2 宽/窄139
8.5.3 窄/宽139
8.5.4 窄/窄139
8.5.5 非结构化/半结构化数据140
8.6 ETL和CDC的工作负载140
8.7 度量141
8.8 当前系统设计的局限142
8.9 新工作负载和大数据143
8.10 技术选择144
8.11 总结144
第9章 应用到数据仓库的新技术145
9.1 引言145
9.2 重新检查数据仓库挑战145
9.2.1 数据加载145
9.2.2 可用性146
9.2.3 数据体量146
9.2.4 存储性能147
9.2.5 查询性能147
9.2.6 数据传输147
9.3 数据仓库一体机147
9.3.1 一体机架构148
9.3.2 一体机中的数据分布149
9.3.3 部署数据仓库一体机最佳实践150
9.3.4 大数据一体机152
9.4 云计算152
9.4.1 基础设施即服务152
9.4.2 平台即服务152
9.4.3 软件即服务153
9.4.4 云基础架构153
9.4.5 云计算给数据仓库带来的好处154
9.4.6 将云计算用于数据仓库所面临的问题154
9.5 数据虚拟化154
9.5.1 数据虚拟化是什么155
9.5.2 提高商务智能性能156
9.5.3 工作负载分布156
9.5.4 实施数据虚拟化项目156
9.5.5 使用数据虚拟化时应避免的误区157
9.5.6 内存技术157
9.5.7 内存架构的好处157
9.6 总结158
延伸阅读158
第三部分 构建大数据-数据仓库
第10章 大数据和数据仓库的集成160
10.1 引言160
10.2 新数据仓库的组件160
10.2.1 数据层161
10.2.2 算法162
10.2.3 技术层163
10.3集成策略164
10.3.1 数据驱动的集成164
10.3.2 物理组件集成和架构167
10.3.3 外部数据集成168
10.4Hadoop与RDBMS169
10.5大数据一体机171
10.6数据虚拟化172
10.7语义框架173
10.7.1 词法处理174
10.7.2 聚类174
10.7.3语义知识处理174
10.7.4信息抽取175
10.7.5可视化175
10.8总结175
第11章 大数据的数据驱动架构176
11.1引言176
11.2元数据177
11.2.1技术元数据177
11.2.2业务元数据178
11.2.3上下文元数据178
11.2.4过程设计级元数据178
11.2.5程序级元数据178
11.2.6基础设施元数据179
11.2.7核心业务元数据179
11.2.8运营元数据179
11.2.9商务智能型元数据180
11.3主数据管理180
11.4处理数据仓库中的数据181
11.5处理大数据的复杂性184
11.5.1处理能力的限制184
11.5.2处理大数据184
11.6机器学习190
11.7总结193
第12章 大数据的信息管理和生命周期195
12.1引言195
12.2信息生命周期管理195
12.2.1目标196
12.2.2信息管理策略196
12.2.3治理196
12.2.4信息生命周期管理的优点200
12.3大数据的信息生命周期管理200
12.3.1示例:信息生命周期管理和社交媒体数据200
12.3.2测量信息生命周期管理的影响202
12.4总结203
第13章 大数据分析、可视化和数据科学家204
13.1引言204
13.2大数据分析204
13.3数据发现206
13.4可视化206
13.5数据科学家的角色变迁207
13.6总结208
第14章 实施大数据-数据仓库的现实情况209
14.1引言:构建大数据-数据仓库209
14.2以客户为中心的业务转型209
14.3Hadoop和MySQL驱动创新212
14.4将大数据集成到数据仓库中214
14.4.1增强决策制订215
14.4.2成果216
14.5总结216
附录A 客户案例研究217
附录B 建设医疗保健信息工厂237
结束语269
· · · · · · (
收起)