深入解析SAS pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:机械工业出版社

作者:徐唯

出品人:

页数:884

译者:

出版时间:2015-1

价格:99.00

装帧:平装

isbn号码:9787111483403

丛书系列:数据分析技术丛书

图书标签:

SAS
数据分析
数据挖掘
统计学
大数据
统计
深入解析sas
数据方法
SAS
数据分析
统计学
编程
商业智能
数据挖掘
可视化
软件应用
机器学习
数据科学

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到小美书屋

book.quotespace.org

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

本书是国内市场目前唯一一本由SAS公司在中国的员工创作、全面系统地剖析SAS技术的著作。作者团队结合自身实际工作的经验体会和大量生动的实践案例，通俗易懂、循序渐进地对SAS的核心技术模块和架构体系进行了全方位的介绍、总结与分享，帮助读者深刻领会和掌握使用SAS进行数据挖掘与优化的专业知识，同时培养读者运用这些专业知识解决商业问题和实施商业项目的能力。

全书共28章，分为四个部分：SAS编程(第1-8章)系统介绍了运用SAS进行数据读入、处理和展现等内容，掌握这一部分内容可以满足大部分实际项目中数据处理的需要；SAS统计分析和时间序列预测 (第9—18章)全面介绍了多种常见统计方法的基本原理和利用SAS去实现的具体技术，包括描述性统计分析、参数估计与假设检验、方差分析、主成分分析与因子分析、聚类分析、判别分析、回归分析、时间序列分析等，并给出了相应的实践案例，从而让熟悉统计理论的读者有能力将其应用到实际中去；SAS优化建模(第19~24章)对于从事优化的读者来说，将是很好的帮助。这一部分主要介绍了运用SAS／O日建模，以及求解线性规划、混合整数规划问题的方法及实例，通过对常见的优化问题进行全面的阐述，帮助读者掌握优化思路和技巧；SAS商业应用(第25-28章)从项目实施角度探讨了如何设计满足安全性、高可用性和高性能需求的gAS应用，让读者领会解决实际问题的方法。

《数据探索与洞察：Python与R的实践指南》前言在这个数据爆炸的时代，理解和驾驭海量信息的能力已成为衡量个人与组织竞争力的关键。数据不再是冰冷的数字，而是蕴含着故事、规律和潜在价值的宝藏。如何有效地从这些杂乱无章的数据中挖掘出有意义的洞察，做出明智的决策，是摆在我们面前的重要课题。《数据探索与洞察：Python与R的实践指南》正是为了应对这一挑战而生。本书并非一本包罗万象的数据科学百科全书，而是聚焦于数据分析中最核心、最基础也最关键的环节——数据探索与洞察。我们选择了当今数据科学领域最受欢迎的两种编程语言：Python和R。Python以其通用性、易学性和强大的生态系统，在数据处理、机器学习、深度学习等领域占据主导地位；而R则以其在统计分析、可视化和学术研究方面的深厚积淀，成为统计学家和研究人员的首选。本书的目标是引导读者掌握如何利用这两种强大的工具，系统地进行数据探索，逐步深入理解数据，最终发现隐藏在数据背后的价值。本书的编写理念是“实践出真知”。理论知识固然重要，但只有通过大量的实践操作，才能真正掌握数据分析的精髓。因此，本书将大量篇幅用于提供清晰、可执行的代码示例，并辅以对代码逻辑、数据结构和分析方法的详细解释。我们力求让读者在跟随本书进行学习的过程中，能够亲手实践每一个步骤，感受数据分析的魅力，并培养独立解决问题的能力。本书的读者对象涵盖了从数据分析初学者到有一定基础的数据从业者。无论您是想转行数据科学的在校学生，还是希望提升数据分析技能的职场人士，亦或是希望利用数据为业务增长赋能的管理者，本书都能为您提供宝贵的指导。我们假定读者具备一定的编程基础，但即使是初学者，只要有耐心和毅力，也能通过本书的学习逐步掌握相关技能。第一部分：数据探索的基础在深入分析之前，我们必须首先理解我们的数据。这一部分将为读者构建一个扎实的初步认识。第一章：数据世界概览数据的类型与结构：我们将从最基础的层面出发，区分不同类型的数据，如数值型、类别型、有序型、时间序列数据等。理解数据的结构，包括表格数据（如CSV、Excel）、JSON、XML等，是后续处理的前提。我们将介绍如何识别数据中的缺失值、异常值以及重复值，并初步探讨其可能的原因和影响。数据获取与加载：掌握从不同来源获取数据是数据分析的第一步。我们将演示如何使用Python的`pandas`库和R的`readr`、`readxl`等包，从本地文件（CSV, Excel, TXT）、数据库（SQL）、网络API（如JSON API）等多种渠道加载数据。对于不同文件格式的读取，我们会强调参数的设置，以确保数据能够正确、高效地导入。初识数据：形状、样本与基本信息：加载数据后，首先要做的是了解数据的“全貌”。我们将介绍如何快速查看数据的大小（行数和列数）、列名、数据类型等基本信息。例如，在Python中，`df.shape`, `df.columns`, `df.info()`等方法将是常用工具；在R中，`dim()`, `names()`, `str()`等函数则能提供类似的功能。此外，我们还将学习如何抽取数据的样本，例如使用`df.head()`, `df.tail()`, `df.sample()`（Python）或`head()`, `tail()`, `sample_n()`, `sample_frac()`（R），以便对数据有一个初步的感性认识，避免一次性处理过大的数据集。第二章：描述性统计：数据的“体检报告” 描述性统计是理解数据分布和集中趋势的基石。通过计算一系列统计量，我们可以快速勾勒出数据的基本特征。集中趋势的度量：我们将详细讲解平均数、中位数、众数等概念，并探讨它们在不同数据分布下的适用性。例如，在存在极端值的情况下，中位数通常比平均数更能代表数据的中心。我们将演示如何在Python中使用`pandas`的`.mean()`, `.median()`, `.mode()`，以及在R中使用`mean()`, `median()`, `table()`等函数来计算这些指标。离散程度的度量：理解数据的分散程度对于评估其稳定性和潜在风险至关重要。我们将介绍方差、标准差、极差（最大值减最小值）、四分位距（IQR）等指标，并解释它们各自的意义。例如，标准差可以衡量数据点相对于平均数的平均偏离程度。Python的`.var()`, `.std()`, `.max()`, `.min()`, `.quantile()`和R的`var()`, `sd()`, `range()`, `quantile()`等函数将是实现这些计算的核心。数据分布的理解：除了中心和离散程度，数据的分布形态也提供了丰富的信息。我们将讨论偏度（skewness）和峰度（kurtosis），解释它们如何描述数据分布的对称性和“尖锐”程度。这些统计量可以帮助我们判断数据是否符合正态分布，或者存在严重的偏斜。Python的`.skew()`, `.kurtosis()`和R的`skewness()`, `kurtosis()`（可能需要加载额外包）将是实现这些度量的工具。分组统计与聚合：在实际问题中，我们往往需要对数据进行分组，并计算各组的统计量。例如，分析不同地区的产品销售额，或者不同年龄段的用户活跃度。我们将学习如何利用`groupby()`（Python）或`group_by()`配合`summarise()`（R）等功能，实现按类别进行数据聚合，计算均值、总和、计数等。这将是深入分析不同子群体特征的关键技术。第三章：数据可视化：让数据“说话” “一图胜千言”。可视化是将抽象的数据转化为直观图形的最佳方式，能够帮助我们快速识别模式、趋势和异常。基础图表的绘制：我们将从最基础、最常用的图表类型开始，如直方图（histograms）、箱线图（box plots）、散点图（scatter plots）、条形图（bar charts）和折线图（line charts）。直方图：用于展示单变量的分布情况，帮助我们观察数据的集中趋势、离散程度以及是否存在多个峰值。箱线图：清晰地展示数据的中位数、四分位数、极差以及潜在的异常值，尤其适用于比较不同组别的数据分布。散点图：用于展示两个数值变量之间的关系，帮助我们发现相关性、模式或聚类。条形图：适用于展示类别数据的频率或比较不同类别的数值大小。折线图：常用于展示时间序列数据的趋势，展示数据随时间的变化。我们将重点介绍如何使用Python的`matplotlib`和`seaborn`库，以及R的`ggplot2`包来创建这些图表。我们将强调如何通过调整图表参数，如颜色、标签、标题、坐标轴等，使图表更具可读性和信息量。探索性数据分析（EDA）中的高级可视化：除了基础图表，我们还将介绍一些更高级的可视化技巧，以应对更复杂的探索需求。热力图（Heatmaps）：常用于展示变量之间的相关性矩阵，通过颜色的深浅来表示相关性的强弱。小提琴图（Violin Plots）：结合了箱线图和核密度估计图的特点，能够更全面地展示数据的分布形状。配对图（Pair Plots）：一次性展示数据集中多个数值变量两两之间的散点图和单变量的分布图，对于初步探索多变量关系非常有效。地理空间可视化：如果数据包含地理位置信息，我们将介绍如何使用相应的库（如Python的`geopandas`, `folium`）绘制地图，展示数据在地理上的分布特征。交互式可视化：为了更深入地探索数据，交互式图表提供了放大、筛选、悬停提示等功能，使探索过程更加灵活。我们将简要介绍一些常用的交互式可视化工具或库。第二部分：深入洞察与模式识别在掌握了基础的数据探索工具后，我们将进一步学习如何深入挖掘数据中的模式、关系和潜在的见解。第四章：变量关系分析数据中的变量之间往往存在着千丝万缕的联系，理解这些关系是揭示数据深层含义的关键。相关性分析：我们将深入讲解相关系数（如Pearson相关系数、Spearman相关系数）的计算及其解释。Pearson相关系数衡量的是线性关系，而Spearman相关系数则衡量的是单调关系，适用于非线性的情况。我们将演示如何使用`df.corr()`（Python）或`cor()`（R）来计算相关矩阵，并结合热力图进行可视化展示。我们将强调相关性不等于因果性，并讨论如何避免过度解读相关性。协方差与协方差矩阵：协方差描述了两个变量的共同变动方向，与相关性密切相关，但未标准化。我们将解释协方差矩阵在多变量分析中的作用。分类变量与数值变量的关系：当我们需要分析一个类别变量如何影响一个数值变量时，我们将使用分组统计、箱线图、小提琴图等方法。例如，比较不同产品类别的平均销量，或者不同用户群体的平均消费金额。多变量交互与可视化：我们将学习如何通过增加图表的维度（如颜色、形状、大小）来展示多个变量之间的关系。例如，在散点图中，用颜色区分不同类别，用大小表示另一个数值变量。第五章：异常检测与数据清洗异常值和噪声数据可能严重影响分析结果的准确性，识别并处理它们是数据质量保证的重要环节。异常值的识别方法：我们将介绍多种识别异常值的方法，包括基于统计的方法（如Z-score、IQR方法）、基于可视化（如箱线图、散点图）以及基于距离的方法（如k-NN）。我们将演示如何在Python和R中实现这些方法。异常值的处理策略：对于识别出的异常值，我们会探讨不同的处理策略，如删除、替换（用均值、中位数、插值等）或视作特殊情况单独分析。选择哪种策略取决于具体的业务场景和数据特性。缺失值处理策略：除了异常值，缺失值也是常见的数据问题。我们将详细讲解各种缺失值填充方法，包括简单填充（均值、中位数、众数）、插值法（线性、多项式）以及更高级的模型预测填充。同样，我们将讨论不同策略的优缺点以及适用的场景。数据一致性与规范化：我们将介绍如何检测和处理数据中的不一致性，例如拼写错误、大小写不一致、单位不统一等。数据规范化（如Min-Max Scaling, Standardization）在某些模型（如机器学习算法）中至关重要，我们将展示如何进行标准化处理。第六章：模式识别与初步建模在对数据有了深入理解后，我们可以开始尝试识别更复杂的模式，并为后续的预测或分类任务打下基础。聚类分析基础：我们将介绍无监督学习中的基本概念，如聚类。我们将演示如何使用K-Means算法来发现数据中的自然分组。理解聚类结果的意义，并学会如何评估聚类质量，将是本节的重点。时间序列数据初步分析：对于具有时间顺序的数据，我们将介绍如何进行初步的时间序列分析。这包括识别趋势（trend）、季节性（seasonality）和周期性（cyclicality）。我们将演示如何对时间序列数据进行平稳性检验，以及如何进行简单的平滑处理。关联规则挖掘概念：我们将简要介绍关联规则挖掘的基本思想，例如“购物篮分析”中的“购买A的顾客也很可能购买B”。我们将讨论Apriori算法的思想，并了解如何在实际问题中应用关联规则。特征工程初步概念：虽然更深入的特征工程将在后续章节展开，但本章将引入特征工程的基本理念：从原始数据中提取、转换或创建新的特征，以提升模型的性能。例如，从日期中提取星期几、月份，或者将类别变量进行编码。第三部分：实践案例与进阶技巧理论与实践相结合，是巩固知识、提升技能的必由之路。本部分将通过实际案例，将前两部分的知识融会贯通，并引入一些更具挑战性的分析技巧。第七章：真实世界数据分析案例案例一：客户行为分析：我们将选取一个模拟的电商用户数据集，通过数据探索、可视化和描述性统计，分析用户的购买行为、消费习惯、用户画像等。我们将重点展示如何利用前面学到的技术，发现用户群体间的差异，为营销策略提供支持。案例二：市场销售数据分析：以一个产品销售数据集为例，分析不同地区、不同产品的销售趋势，识别季节性影响，并探索影响销售的关键因素。我们将演示如何进行同比、环比分析，并尝试预测短期内的销售趋势。案例三：社交媒体情感分析入门：我们将使用一个简单的文本数据集，演示如何进行基础的文本预处理（分词、去停用词），并利用词频统计和简单的可视化技术，初步了解文本数据中的情感倾向。第八章：Python与R的协同工作在实际数据科学项目中，往往需要结合Python和R的优势。本章将介绍如何实现Python与R之间的数据传递和函数调用，以充分利用各自的生态系统。第九章：数据分析报告的撰写与沟通结构化报告的撰写：一个好的数据分析报告，不仅要有严谨的分析过程，还要有清晰的逻辑结构和易于理解的语言。我们将提供撰写数据分析报告的标准框架，包括背景、目标、数据概况、分析方法、结果展示、结论与建议等。有效的可视化表达：如何选择合适的可视化图表来清晰地传达分析结果，是报告的关键。我们将强调图表的简洁性、准确性和信息传达效率。面向非技术人员的沟通：数据分析的最终目的是为决策提供支持，因此，将复杂的技术分析转化为业务洞察，并用非技术人员能够理解的语言进行沟通，至关重要。我们将分享一些沟通技巧，以及如何避免使用过多的技术术语。附录常用Python库速查表常用R包速查表 SQL基础查询简介（若涉及数据库操作）结语《数据探索与洞察：Python与R的实践指南》旨在成为您数据分析旅程中的一位忠实伙伴。通过系统学习和大量的实践，您将逐步掌握从海量数据中挖掘价值的强大能力，并将这些洞察转化为驱动业务增长和科学研究的有力武器。数据科学的世界广阔而深邃，我们希望本书能够点燃您探索的火花，开启您发现数据无限可能的大门。

作者简介

夏坤庄，SAS软件研究开发（北京）有限公司客户职能部总监。在承担大量产品研发工作的同时，夏坤庄及其团队负责对SAS非英语市场提供技术支持，并且与在美国及其他地区的团队一起，对SAS的SaaS客户提供服务，以及提供和验证关于SAS产品和技术的最佳实践。在加入SAS软件研究开发（北京）有限公司之前，夏坤庄就职于SAS中国公司。在SAS中国公司期间，历任资深咨询顾问、项目经理、首席顾问、咨询经理，在SAS的技术与产品领域拥有丰富的咨询和项目实施经验。在超过15年的从业经历中，为SAS的金融行业客户成功实施了众多深受好评的项目，所承担的项目获得诸如人民银行颁发的“银行系统科技进步一等奖”和客户系统内部颁发的“项目开发特等奖”等。拥有数学专业的学士学位和自动控制理论及应用专业的硕士学位。

徐唯，SAS软件研究开发（北京）有限公司资深分析咨询师，主要负责为SAS亚太地区客户提供高端商业分析与优化的咨询服务，拥有为国际客户提供数据挖掘和优化建模服务的丰富经验，例如为某大型国际汽车制造公司在中国业务的库存优化项目提供服务，以及为国际知名银行的信用卡审批流程优化提供优化建模服务等。本科和研究生均毕业于南京大学数学系。

潘红莲，SAS中国公司资深咨询顾问，为中国区客户提供SAS解决方案和产品的方案咨询和技术支持。于2008年加入SAS后，曾任SAS软件研究开发（北京）有限公司解决方案架构师，提供SAS解决方案和产品在企业级应用的方案研究和设计，尤其在IT实施和产品集成策略等领域做出了突出的贡献。对SAS架构设计、系统管理、安全性，以及高可用性等方面有着深刻的理解和丰富的实践经验。毕业于北京航空航天大学，获计算机专业学士和硕士学位。

林建伟，现就职于SAS软件研究开发（北京）有限公司，任资深分析咨询师。研究领域为大数据处理、数据挖掘、预测优化、库存优化、图论及相关应用。参与国内外多个客户的SAS预测与优化项目的咨询工作，例如为某海外银行的信用卡审批流程优化提供优化建模服务。美国西密歇根大学博士，在国际知名刊物上发表多篇专业论文。

目录信息

《深入解析SAS：数据处理、分析优化与商业应用》
前言
Preface
第一篇　SAS编程和数据处理
第1章　Base SAS基础 2
1.1　SAS系统简介 2
1.2　启动SAS软件 4
1.2.1　SAS窗口环境模式 4
1.2.2　非交互模式 5
1.2.3　批处理模式 6
1.2.4　交互式行模式 7
1.2.5　配置文件和AUTOEXEC文件 7
1.3　SAS窗口环境 8
1.3.1　SAS资源管理器 10
1.3.2　程序编辑器 10
1.3.3　日志 10
1.3.4　结果 11
1.3.5　输出 11
1.4　SAS文件和逻辑库 11
1.5　一个简单的SAS程序 13
1.6　SAS Studio 17
1.7　本章小结 18
第2章　读取外部数据到SAS数据集 19
2.1　SAS编程基本概念 20
2.1.1　SAS逻辑库 20
2.1.2　SAS数据集 23
2.1.3　SAS逻辑库和数据集管理 31
2.1.4　SAS系统选项 33
2.1.5　SAS程序结构 37
2.2　通过DATA步读取数据 38
2.2.1　DATA步处理 38
2.2.2　读取外部文本文件中的数据（初级） 42
2.2.3　读取外部文本文件中的数据（高级） 52
2.3　通过IMPORT过程读取外部文件数据 62
2.4　访问关系型数据库系统中的数据 65
2.5　SAS程序错误及处理 68
2.5.1　良好的SAS编程风格 68
2.5.2　常见错误及处理 69
2.6　本章小结 73
第3章　对单个数据集的处理 74
3.1　选取部分变量 74
3.2　操作数据集的观测 78
3.2.1　SAS表达式 78
3.2.2　选取部分观测 84
3.2.3　操作所选取的观测 88
3.2.4　分组与排序 92
3.3　创建新变量 96
3.3.1　数据集选项RENAME=和RENAME语句 96
3.3.2　赋值语句创建新变量 97
3.3.3　对多个观测求和 99
3.4　循环和数组 103
3.4.1　循环 103
3.4.2　SAS数组 106
3.5　SAS常用函数 109
3.5.1　函数语法 109
3.5.2　数值函数 110
3.5.3　字符操作函数 110
3.5.4　数值与字符转换函数 113
3.5.5　与日期时间相关的函数 115
3.6　将数据集写出到外部文件 116
3.7　本章小结 119
第4章　对多个数据集的处理 120
4.1　数据集的纵向串接 120
4.1.1　使用SET语句实现纵向串接 120
4.1.2　使用APPEND过程实现纵向串接 127
4.1.3　SET语句与APPEND过程的比较 129
4.2　数据集的横向合并 130
4.2.1　不使用BY语句实现横向合并 130
4.2.2　使用BY语句实现横向合并 133
4.2.3　使用数据集选项IN=操作观测 140
4.3　数据集的更新 141
4.4　数据集的更改 143
4.4.1　单个数据集的更改 143
4.4.2　两个数据集的更改 145
4.5　数据集处理的一点补充 146
4.5.1　使用数据集选项END= 146
4.5.2　使用自动变量FIRST.与LAST. 148
4.5.3　使用SET语句中的选项POINT= 和NOBS= 149
4.5.4　使用多个SET语句 150
4.5.5　使用HASH对象处理多个数据集 151
4.6　本章小结 156
第5章　数据汇总与展现 157
5.1　通过PRINT过程制作报表 157
5.1.1　制作简单报表 157
5.1.2　制作增强型报表 161
5.1.3　改进报表显示 163
5.2　通过TABULATE过程制作汇总报表 168
5.2.1　制作基本汇总报表 168
5.2.2　制作高级汇总报表 172
5.2.3　改进报表显示 175
5.3　通过GPLOT过程制作图形 180
5.3.1　制作散点图 180
5.3.2　制作连线图 184
5.3.3　制作多幅图形 188
5.3.4　制作气泡图 195
5.4　通过GCHART过程制作图形 196
5.4.1　制作柱状图 196
5.4.2　制作分组柱状图 203
5.4.3　制作饼图 206
5.5　ODS输出传送系统 210
5.5.1　选择或剔除输出对象 211
5.5.2　创建多种格式输出文件 216
5.6　本章小结 223
第6章　SAS SQL语言 224
6.1　SQL语言概述 224
6.2　使用SQL检索数据 225
6.2.1　SQL的基本结构 225
6.2.2　使用SQL对列进行操作 226
6.2.3　使用SQL对行进行操作 227
6.2.4　使用SQL对报表加工与生成数据集 232
6.2.5　子查询 233
6.3　使用SQL对表进行横向合并 234
6.3.1　使用SQL对表进行内连接 234
6.3.2　使用SQL对表进行外连接 236
6.4　使用SQL对表进行纵向合并 237
6.4.1　使用关键字EXCEPT对表进行纵向合并 238
6.4.2　使用关键字INTERSECT对表进行纵向合并 240
6.4.3　使用关键字UNION对表进行纵向合并 241
6.4.4　使用关键字OUTER UNION对表进行纵向合并 243
6.5　使用SQL管理表 245
6.5.1　使用SQL复制、创建与删除表 245
6.5.2　使用SQL插入行 247
6.5.3　使用SQL删除部分行 248
6.5.4　使用SQL修改表的列 249
6.5.5　使用SQL更新列的值 250
6.6　本章小结 252
第7章　SAS宏语言 253
7.1　SAS宏语言概述 253
7.2　宏变量 254
7.2.1　宏变量的定义 254
7.2.2　宏变量的调用 255
7.2.3　宏变量的查看 257
7.2.4　宏变量的分类 258
7.2.5　宏变量的删除 259
7.3　宏函数 259
7.3.1　在宏语言中调用SAS函数 259
7.3.2　用宏函数处理算术与逻辑表达式 260
7.3.3　常见的处理文本的宏函数 261
7.4　宏 263
7.4.1　宏的定义与调用 263
7.4.2　宏的存储 264
7.4.3　宏的参数 266
7.4.4　宏与宏变量 269
7.5　宏语言与其他SAS语言 272
7.5.1　宏语言的编译过程 272
7.5.2　宏语言与DATA步 274
7.5.3　宏语言与SQL语言 277
7.6　宏编程 278
7.6.1　条件语句 278
7.6.2　循环语句 280
7.7　本章小结 283
第8章　开发多语言支持的SAS程序 284
8.1　多语言支持的基本概念 284
8.1.1　语言/区域 285
8.1.2　字符集和编码 285
8.2　NLS相关的SAS选项 288
8.2.1　语言/区域选项LOCALE= 288
8.2.2　编码选项ENCODING= 290
8.2.3　时区选项TIMEZONE= 295
8.2.4　语言切换选项 296
8.3　NL格式和NL输入格式 297
8.4　字符串和字符处理函数 302
8.5　文本字符串外部化 303
8.6　本章小结 309
第二篇　SAS统计分析和时间序列预测
第9章　描述性统计分析 312
9.1　基本概念 313
9.1.1　总体、个体和样本 313
9.1.2　简单随机抽样 313
9.1.3　连续变量和分类变量 313
9.1.4　参数、统计量和自由度 314
9.1.5　随机变量及概率分布 314
9.2　描述性统计量 318
9.2.1　描述数据集中趋势 319
9.2.2　描述数据离散程度 320
9.2.3　描述数据分布形态 322
9.3　MEANS过程的补充 334
9.3.1　统计量列表 334
9.3.2　选项WEIGHT=和WEIGHT语句 335
9.3.3　输出SAS数据集 336
9.3.4　WAYS语句和TYPES语句 338
9.4　本章小结 340
第10章　参数估计与假设检验 341
10.1　参数估计 341
10.1.1　点估计 341
10.1.2　区间估计 343
10.2　假设检验 346
10.2.1　基本原理 346
10.2.2　T分布与T检验 348
10.2.3　TTEST过程 350
10.2.4　单样本均值T检验 352
10.2.5　独立双样本均值T检验 354
10.2.6　配对样本均值T检验 360
10.3　非参数假设检验 362
10.4　分布拟合假设检验 365
10.5　本章小结 368
第11章　方差分析 370
11.1　方差分析的基本原理 370
11.1.1　方差分析的模型 370
11.1.2　方差分析的基本思想 371
11.1.3　方差分析的假设 373
11.2　单因素试验的方差分析 374
11.2.1　TTEST过程、ANOVA过程与GLM过程的区别 374
11.2.2　使用ANOVA过程进行方差分析 374
11.2.3　使用GLM过程进行方差分析 376
11.3　显著因素下的水平间差异检验 379
11.3.1　LSMEANS语句与MEANS语句的区别 379
11.3.2　利用LSMEANS语句进行水平差异分析 380
11.4　双因素试验的方差分析 382
11.4.1　双因素试验概述 382
11.4.2　利用GLM过程对不均衡数据进行方差分析 383
11.4.3　有交互作用因素的方差分析 385
11.5　本章小结 386
第12章　主成分分析与因子分析 387
12.1　主成分分析概述 387
12.1.1　主成分分析的基本思想 387
12.1.2　主成分的定义、计算与确定 389
12.1.3　主成分分析难点探讨 390
12.2　使用SAS实现主成分分析 392
12.2.1　FACTOR过程与PRINCOMP过程的比较 392
12.2.2　使用PRINCOMP过程进行主成分分析 392
12.2.3　使用FACTOR过程进行主成分分析 396
12.3　因子分析概述 399
12.3.1　公共因子与特殊因子 399
12.3.2　因子分析的计算过程 400
12.3.3　因子分析与主成分分析比较 401
12.4　使用SAS实现因子分析 402
12.5　本章小结 407
第13章　聚类分析 408
13.1　聚类分析的概述 408
13.1.1　聚类分析方法介绍与比较 408
13.1.2　相似性的度量 409
13.2　划分法与层次法 412
13.2.1　使用过程FASTCLUS实现K均值聚类法 412
13.2.2　使用过程CLUSTER实现层次法 416
13.3　本章小结 422
第14章　判别分析 423
14.1　判别分析概述 423
14.1.1　判别分析的基本概念及应用 423
14.1.2　判别分析的假设条件 424
14.1.3　判别分析常见的方法 424
14.2　判别分析在SAS中的实现 426
14.2.1　使用过程DISCRIM实现一般判别分析 427
14.2.2　使用过程CANDISC实现典型判别分析 432
14.2.3　使用过程STEPDISC实现逐步判别分析 436
14.3　本章小结 440
第15章　回归分析 441
15.1　变量关系探索 442
15.1.1　皮尔逊相关系数 442
15.1.2　相关性检验 444
15.1.3　CORR过程 444
15.2　线性回归 448
15.2.1　基本原理 449
15.2.2　假设检验 451
15.2.3　模型拟合 453
15.2.4　模型选择 457
15.2.5　模型预测 464
15.3　自变量间的共线性诊断 466
15.4　本章小结 468
第16章　LOGISTIC回归分析 470
16.1　基本原理 470
16.1.1　线性概率模型 470
16.1.2　LOGISTIC回归模型 471
16.1.3　LOGISTIC回归模型的估计 473
16.1.4　LOGISTIC回归模型的假设条件 474
16.2　运用LOGISTIC过程拟合模型 475
16.2.1　基本语法 475
16.2.2　假设检验 477
16.2.3　参数估计和解释 478
16.2.4　模型评价 480
16.3　LOGISTIC过程的其他语句 482
16.3.1　CLASS语句 482
16.3.2　ODDSRATIO语句 483
16.3.3　UNITS语句 484
16.4　建立模型 491
16.4.1　自变量与Logit值的关系 491
16.4.2　自变量的互动作用 494
16.4.3　模型选择 494
16.5　本章小结 500
第17章　时间序列分析 501
17.1　时间序列基本概念 501
17.1.1　了解时间序列 501
17.1.2　时间序列的数字特征 503
17.1.3　常见平稳和非平稳模型 506
17.1.4　SAS时间序列分析软件简介 511
17.2　平稳时间序列分析 511
17.2.1　数据准备 512
17.2.2　平稳性和白噪声检验 516
17.2.3　模型识别 521
17.2.4　参数估计和诊断检验 532
17.2.5　预测 537
17.3　趋势时间序列分析 546
17.3.1　确定性时间趋势 546
17.3.2　随机时间趋势 550
17.3.3　运用ARIMA过程建立趋势模型 554
17.3.4　异常点检测 564
17.3.5　运用其他过程建立趋势模型 565
17.4　季节时间序列模型 574
17.4.1　确定性季节因素 574
17.4.2　随机季节模型 578
17.4.3　季节性诊断 579
17.5　本章小结 585
第18章　SAS数据挖掘的一般流程 586
18.1　SAS数据挖掘概述 586
18.2　确定业务问题和数据准备 587
18.2.1　确定业务问题 587
18.2.2　数据准备 588
18.3　数据抽样、探索与加工 590
18.3.1　数据抽样 590
18.3.2　数据探索 591
18.3.3　数据加工 601
18.4　数据建模 605
18.4.1　模型的建立 605
18.4.2　模型的评估 609
18.4.3　模型的实施 614
18.5　本章小结 615
第三篇　SAS优化建模
第19章　运筹学概述 618
19.1　运筹学发展简介 618
19.2　优化模型的基本概念 621
19.3　优化模型的分类 623
19.4　优化建模步骤 624
19.5　SAS/OR简介 627
19.6　一个简单的OPTMODEL程序 627
19.7　本章小结 631
第20章　线性规划 632
20.1　数学模型 632
20.1.1　问题的提出 632
20.1.2　线性规划问题 634
20.1.3　图解法 636
20.2　单纯形法 638
20.2.1　线性规划问题的标准型 638
20.2.2　单纯形法的导出和运用 641
20.2.3　两阶段单纯形法 645
20.3　对偶理论和灵敏性分析 649
20.3.1　对偶问题的导出 649
20.3.2　对偶问题的基本性质 650
20.3.3　对偶单纯形法 651
20.3.4　对偶问题的经济解释 653
20.3.5　灵敏性分析 656
20.4　内点法 657
20.5　本章小结 658
第21章　运用PROC OPTMODEL建立线性规划模型 659
21.1　基本概念 659
21.1.1　参数 659
21.1.2　索引和索引集 660
21.1.3　数据类型 660
21.1.4　名称 661
21.1.5　表达式 661
21.1.6　标识表达式 662
21.1.7　函数表达式 662
21.1.8　索引集的补充 662
21.2　基本结构 664
21.3　建立模型 667
21.3.1　参数的声明 667
21.3.2　变量的声明 671
21.3.3　目标函数的声明 672
21.3.4　约束条件的声明 672
21.3.5　求解器的调用 673
21.3.6　数据输出 673
21.4　读取SAS数据集 678
21.5　创建SAS数据集 686
21.6　本章小结 688
第22章　PROC OPTMODEL程序设计 689
22.1　PROC OPTMODEL中的流程控制方法与集合运算 689
22.1.1　常见的流程控制方法 689
22.1.2　常见的集合运算处理 695
22.2　模型的更新 702
22.2.1　使用预求解器 702
22.2.2　决策变量的增加、固定与限制 704
22.2.3　约束的改变与放松 709
22.3　网络流模型 712
22.3.1　网络流模型概述 712
22.3.2　使用OPTMODEL求解网络流模型 714
22.4　本章小结 717
第23章　整数线性规划和混合整数线性规划 718
23.1　整数线性规划和混合整数线性规划概述 718
23.1.1　分支定界法 719
23.1.2　割平面法 722
23.2　使用PROC OPTMODEL求解混合整数线性规划 725
23.3　使用0-1变量建模 728
23.3.1　问题的提出 728
23.3.2　数学模型 728
23.3.3　输入数据 731
23.3.4　PROC OPTMODEL代码和输出 733
23.4　本章小结 737
第24章　优化建模实例 738
24.1　集装箱问题 738
24.1.1　问题的提出 738
24.1.2　数学模型 739
24.1.3　输入数据 740
24.1.4　PROC OPTMODEL代码和输出 741
24.1.5　功能与技巧汇总 747
24.2　运输排程问题 748
24.2.1　问题的提出 748
24.2.2　数学模型 751
24.2.3　输入数据 755
24.2.4　数据验证 759
24.2.5　PROC OPTMODEL代码和输出 764
24.2.6　功能与技巧汇总 773
24.3　本章小结 773
第四篇　SAS智能平台架构体系
第25章　SAS智能平台及行业解决方案 776
25.1　SAS智能平台 777
25.1.1　数据层 778
25.1.2　SAS服务器 778
25.1.3　中间层 780
25.1.4　客户端 780
25.2　SAS商业智能 781
25.2.1　SAS Office Analytics 781
25.2.2　SAS Enterprise BI Server 784
25.3　SAS数据管理和集成 790
25.3.1　SAS数据集成 791
25.3.2　SAS数据质量管理 792
25.3.3　DataFlux数据管理平台 792
25.3.4　SAS主数据管理 794
25.4　SAS商业分析 796
25.4.1　SAS Enterprise Miner 796
25.4.2　SAS Text Miner 798
25.4.3　SAS商业分析解决方案 799
25.5　SAS高性能分析 801
25.5.1　SAS内存分析 801
25.5.2　SAS In-Database 804
25.5.3　SAS网格计算 804
25.6　本章小结 805
第26章　SAS应用的架构规划 806
26.1　SAS应用的架构规划 806
26.1.1　SAS应用的架构 806
26.1.2　SAS Grid Manager架构 811
26.1.3　SAS库内产品架构 812
26.1.4　SAS内存分析产品架构 812
26.1.5　SAS部署在高可用集群中的架构 814
26.2　SAS应用的I/O系统规划 815
26.2.1　SAS应用的I/O特性 815
26.2.2　SAS文件系统考虑 816
26.3　本章小结 818
第27章　SAS智能平台安全管理 819
27.1　身份标识 819
27.1.1　用户 819
27.1.2　组 822
27.1.3　角色 823
27.2　认证 824
27.2.1　认证机制 824
27.2.2　凭证管理 826
27.2.3　认证到元数据服务器 832
27.2.4　认证到计算服务器 833
27.2.5　认证到数据服务器 833
27.2.6　单点登录 833
27.3　授权 834
27.3.1　元数据授权 834
27.3.2　访问元数据文件夹 838
27.3.3　访问数据 838
27.3.4　访问SAS对象 839
27.3.5　数据的细粒度控制 842
27.4　加密 843
27.4.1　加密提供方 843
27.4.2　加密ODS PDF文件 844
27.4.3　SAS加密系统选项 844
27.4.4　PWENCODE过程 844
27.5　安全性审计 845
27.5.1　SAS安全性报告宏 845
27.5.2　SAS日志模块 846
27.5.3　Web应用程序的日志 847
27.5.4　SAS审计性能测量包 848
27.6　本章小结 850
第28章　SAS智能平台的高可用性 851
28.1　高可用性相关概念 851
28.2　SAS高可用性方法概述 853
28.2.1　高可用集群 853
28.2.2　动态迁移 854
28.2.3　SAS环境备份和恢复 854
28.3　SAS元数据服务器 855
28.3.1　元数据服务器集群 856
28.3.2　提高元数据服务器可用性 856
28.3.3　公共组件 857
28.4　SAS计算层 857
28.4.1　SAS计算服务器负载均衡 857
28.4.2　SAS网格计算 858
28.4.3　提高计算层组件可用性 858
28.4.4　作业运行选项 859
28.5　SAS中间层 860
28.5.1　SAS Web Application Server集群 860
28.5.2　提高中间层组件的可用性 861
28.6　数据层 862
28.7　本章小结 863
↑折叠
前言
为什么要写这本书
数据和模型描述着世界，而SAS恰恰就是关于数据和模型的技术。SAS技术在全球的数据处理和分析领域举足轻重。在国内，SAS的应用日趋广泛，自然，对掌握SAS技术的人才需求也日益旺盛。
但是当大家谈及SAS的时候，普遍的一个感受是，掌握SAS比较难。这使我记起在2000年刚刚加入SAS中国公司几天后的一个下午，时任SAS中国区技术总监的栾世武博士问我：“怎么样？SAS难学吗？”其实，在SAS公司的同事当中，大家并不会认为SAS有多难。究其原因，不过是如下几个：
在SAS公司，有着明确的路线图，大家可以清楚地知道学习SAS某个领域的顺序和步骤是什么。对于系统性非常强而且知识范围又较广的SAS而言，这是很重要的。
对于路线图中的每一个阶段，SAS公司都提供了详尽的资料供阅读和学习。
有实际的项目去实践和锻炼。
上面所提到的因素，也正是大部分期望学习SAS技术的从业者快速有效掌握SAS的“窍门”。基于这样的经历和思考，几年以来我一直在构思这样一本书：
1）以书中的章节结构来体现学习SAS核心内容的路线图。
2）在每个章节的内容中，包含路线图中对应部分的必要学习资料，并且使得读者在读完相应的内容之后，有能力并且了解如何去学习更加深入和广泛的知识。
3）提供贴近实际应用项目甚至有些复杂的例子，让读者领会解决实际问题的思路和技巧。
本书就是基于上述构思的一个实现，希望能够帮助大家系统地掌握SAS的专业知识，进而从容地将其应用于商业实际中。
读者对象
本书主要适合于以下读者：
使用SAS进行数据抽取、转换和清洗的技术人员。
需要使用SAS对数据进行深入分析和数据挖掘的分析人员。
需要使用SAS进行时间序列预测和优化决策的建模专家。
使用SAS进行项目规划、实施和管理的系统架构师、系统管理员和项目管理人员。
团队的工作涉及SAS产品与技术的管理人员。
如何阅读本书
本书共4篇，系统介绍了SAS的核心技术模块和架构体系。
↓展开全部内容
媒体评论
SAS引领大数据时代的发展，产品线覆盖了数据分析的各个方面，包括高性能分析、可视化分析和云计算等诸多新领域。但是从何处开始学习SAS、如何在实际工作中使用和部署SAS，却让很多初学者感到困惑，这时如果有长期使用SAS的专业人员把他们的宝贵经验分享出来，将会给大家更多的指导和帮助。而本书的几位作者恰好具有优秀的专业背景和丰富的SAS实践经验，其中，夏坤庄先生有5年多的时间在客户一线从事SAS产品咨询和项目实施工作；且在最近的9年中，他作为SAS研发北京中心客户职能部的总监，在进行产品研发的同时还在对SAS全球客户提供技术支持。而其他几位作者作为夏坤庄先生的同事，同样有着丰富的实践经验。本书的实战指导性非常强，它的结构体现了SAS核心内容的学习路线图，内容包括了SAS的核心技术模块乃至整体架构体系，并运用了很多源自实际应用的案例，非常适合广大数据分析从业者的需要。

—— 刘政博士，SAS软件研究开发（北京）有限公司总经理

我与本书作者之一夏坤庄先生在我行的一个大型项目中有着成功的合作。合作过程中，夏坤庄展现出了卓越的专业能力、项目把握能力及一丝不苟的敬业精神，以至于我团队中那些昔日的成员即使现在已身为分行或支行的行长，仍然会尊敬地回忆当年的夏工是如何手把手教导他们设计和开发的。现在，夏坤庄及其团队通过本书将他们丰富的知识和成功经验进行了总结和提炼，在对简单和优美的追求中，完成了对SAS系统的完整和深入介绍，满足了复杂的数据分析和大数据应用时代的要求。本书是不可错过的优美之作！

—— 张晓波，中国工商银行软件开发中心上海研发支持部总经理、《计算机上的银行》作者

大数据时代的核心是数据的分析和利用，分析利用的关键是模型和挖掘。本书不但通俗易懂地向大家介绍了数据分析的方法和应用案例，而且通过对 SAS高性能及SAS应用架构规划的解析，对如何将数据分析的方法和应用部署到大数据环境中，满足海量数据和大规模运算的要求做了清楚的介绍。是一本难得的好书！

—— 鲁百年博士，SAP大中国区商业创新首席架构师

本书将统计分析和SAS应用成功地结合在了一起，既能够让熟悉统计理论的学习者有信心和能力将统计方法应用到现实中去，也能够让熟悉SAS的人有底气和理论高度在商业环境中选择和运用统计的分析方法。尤为难得的是，本书涵盖了预测及优化的丰富内容，并且结合复杂生动的案例对理论和方法进行了阐述。无论是对数据分析和SAS的初学者来说，还是对有不错基础的从业人员来说，本书都是很好的学习材料！

—— 赵彦云博士，中国人民大学统计学院院长、中国人民大学竞争力与评价研究中心主任

中国统计学会副会长
· · · · · · (收起)

读后感

评分☆☆☆☆☆

整本书的结构还行，分析得也比较透，内容比较全面，从SAS的基本语法，数据处理，SQL和宏编程都讲得非常详细，第二部分是SAS在统计分析中的应用，第三部分是SAS的优化，第四部分是SAS在数据挖掘中的应用，并且每一章都有有例子来讲解，可以当做SAS的字典来查询。但是，最最不好...

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

这本书的文字风格非常独特，它没有那种传统技术文档的冷峻和刻板，反而带有一种老派学者的严谨与温和。作者在讲解那些容易让人望而却步的专业术语时，总能找到一种非常生活化的类比，让复杂的概念瞬间变得触手可及。比如，在解释宏编程（Macro Programming）的强大威力时，作者用了“乐高积木”的比喻，形象地说明了如何通过自定义代码块实现重复性任务的自动化，这极大地激发了我编写高效代码的兴趣。而且，书中大量穿插的“作者提示”和“常见误区警示”，就像是一位经验丰富的前辈在你身边耳提面命，提前帮你排除了许多可能在实践中遇到的“坑”。这种亦师亦友的写作腔调，使得长达数百页的阅读过程，始终保持着一种积极互动的状态，而不是单向的信息灌输，让人感觉非常亲切和受用。

评分☆☆☆☆☆

这本书的附录部分绝对是物超所值的惊喜。我通常会跳过附录，但这次我却被里面的内容深深吸引住了。作者没有仅仅将附录当成代码集锦，而是精心整理了一系列针对特定行业应用的“模板库”。比如，金融领域的风险敞口分析模板，和医药领域的临床试验数据分析框架，都以完整的、可直接套用的SAS代码形式呈现。更重要的是，每一个模板后面都附带了详尽的业务场景说明和代码注释，使得即使是不熟悉该特定行业的人，也能快速理解代码背后的业务逻辑和统计假设。这无疑为那些希望快速将SAS技能转化为特定行业解决方案的读者，提供了一个极佳的跳板。这种超越基础教学、直击行业应用的收尾方式，体现了作者对读者群体多元化需求的深刻洞察力，让我对这份投入感到非常值得。

评分☆☆☆☆☆

这本书的包装设计非常引人注目，那种略带复古的墨绿色调，配上烫金的字体，让人一眼就能感受到它内在的厚重与专业。初拿到手时，分量感十足，这不禁让我对手中的这份“大部头”充满了期待。我原本以为这会是一本晦涩难懂的理论堆砌，毕竟涉及到如此专业的数据分析工具，但翻开目录后，我发现作者的编排思路非常清晰。它并没有急于抛出复杂的算法，而是从SAS的基础操作界面和基本语法入手，循序渐进地引导读者进入这个数据处理的世界。例如，对于初学者最头疼的数据导入和清洗环节，书中用了相当大的篇幅进行图文并茂的讲解，甚至连不同数据格式之间的兼容性问题都考虑到了，给出了详尽的解决方案。这种对新手友好的设计，极大地降低了入门的门槛，让我在最初的接触中没有感到任何挫败感。整体来看，这本书的排版布局也十分考究，代码块与文字说明之间的穿插自然流畅，阅读体验相当舒适，让人愿意沉下心来，一步步跟随作者的节奏探索下去。

评分☆☆☆☆☆

作为一名长期在市场调研一线摸爬滚打的数据分析师，我最看重的是工具书的实战价值和解决问题的能力。这本书真正让我眼前一亮的地方，在于它对高级分析模块的阐述，简直可以称得上是“庖丁解牛”般的精妙。它并没有停留在介绍PROC语句的功能层面，而是深入到背后的统计学原理，并结合实际的商业案例，展示了如何利用SAS进行复杂的多因素回归分析和时间序列预测。我特别欣赏作者在阐述Logistic回归模型时所采用的对比论证手法，将理论模型与实际预测结果进行交叉验证，清晰地展现了模型构建的每一步逻辑推导。这种深度解析，远超出了市面上许多停留在“如何操作”层面的手册。它真正教会了我“为什么这样做”，这对于提升我的决策支持能力至关重要。读完这部分内容，我感觉自己对如何构建一个既稳健又具有解释力的分析模型，有了一个质的飞跃。

评分☆☆☆☆☆

我尝试过几本市面上流传的SAS教程，但往往在处理大数据集的性能优化和内存管理方面显得力不从心，要么一带而过，要么就是给出一堆晦涩难懂的系统参数调整建议。然而，令人惊喜的是，我的《深入解析SAS》这本书，用了整整一个章节来探讨“效率与性能”这个关键议题。书中详细分析了磁盘I/O、内存分配对DATA步执行速度的影响，并提供了多种提升查询效率的PROC SQL优化技巧，包括索引的使用规范和视图创建的最佳实践。最让我印象深刻的是，它还对比了不同版本SAS在并行处理能力上的差异，这对于我们这种需要处理PB级数据的大型企业用户来说，简直是雪中送炭。作者的这种务实精神，使得这本书超越了一般的教学指南，成为了一本真正具有工程指导价值的参考宝典，让我的数据处理工作效率得到了显著提升。

评分☆☆☆☆☆

统计学基础知识提纲挈领开始踏上Python同构脚步

评分☆☆☆☆☆

终于买了它，打折之后依旧花了快八十，只能说好用且贵了

评分☆☆☆☆☆

统计学基础知识提纲挈领开始踏上Python同构脚步

评分☆☆☆☆☆

终于买了它，打折之后依旧花了快八十，只能说好用且贵了

评分☆☆☆☆☆

终于买了它，打折之后依旧花了快八十，只能说好用且贵了