5.2 数据的统计_量化投资：MATLAB数据挖掘技术与实践（第2版）-QQ阅读男频科幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

5.2　数据的统计

对数据进行统计是从定量角度去探索数据，也是基本的数据探索方式，其主要目的是了解数据的基本特征。虽然数据统计所用的方法同数据质量分析阶段相似，但二者的重点不同，这时主要关注数据从统计学上反映的量的特征，以便分析人员更好地认识这些将要被挖掘的数据。

这里先要清楚两个关于统计的基本概念：总体和样本。统计的总体是人们研究对象的全体，又称为母体，如工厂一天生产的全部产品、学校全体学生的身高。总体中的每一个基本单位称为个体，个体的特征用一个变量（如x）来表示。从总体中随机产生的若干个个体的集合称为样本或子样，如n件产品、100名学生的身高或者一根轴的直径的10次测量。实际上这就是从总体中随机取得的一批数据，不妨记作x1,x2,…,xn，n称为样本容量。

从统计学的角度来讲，统计的任务是由样本推断总体。从数据探索的角度来讲，就要关注更具体的内容，通常由样本推断总体的数据特征。

5.2.1　基本描述性统计

假设有一个容量为n的样本（一组数据），记作x=(x1,x2,…,xn)，需要对它进行一定的加工，才能提取有用的信息。统计量就是加工出来的、反映样本数量特征的函数，它不含任何未知量。

下面介绍几种常用的统计量。

（1）表示位置的统计量：算术平均值和中位数。

算术平均值（简称均值）描述数据取值的平均位置，记作，其数学表达式为：

中位数是将数据按由小到大排序后位于中间位置的那个数值。MATLAB中mean(x)返回x的均值，median(x)返回中位数。

（2）表示数据离散度的统计量：标准差、方差和极差。

标准差s定义为：

它是度量各个数据与均值偏离程度的指标，这种偏离不妨称为变异。

方差是标准差的平方，即s2。

极差是x=(x1,x2,…,xn)的最大值与最小值之差。

MATLAB中std(x)返回x的标准差，var(x)返回方差，range(x)返回极差。

在标准差s的定义中，对n个(xi-)的平方求和，却被(n-1)除，这是出于无偏估计的要求。若需要改为被n除，MATLAB可用std(x,1)和var(x,1)来实现。

（3）表示分布形状的统计量：偏度和峰度。

偏度反映分布的对称性，v1>0称为右偏态，此时数据位于均值右边的比位于左边的多；v1<0称为左偏态，情况相反；而v1接近0则可认为分布是对称的。

峰度是数据分布形状的另一种度量，正态分布的峰度为3，若峰度比3大得多，则表示分布有沉重的尾巴，说明样本中含有较多远离均值的数据，因而峰度可以用作衡量数据分布偏离正态分布的指标。

MATLAB中skewness(x)返回x的偏度，kurtosis(x)返回x的峰度。

在上述用MATLAB计算各个统计量的命令中，若x为矩阵，则作用于x的列，返回一个行向量。

统计量中最重要、最常用的是均值和标准差，由于样本是随机变量，它们作为样本的函数自然也是随机变量。当用它们去推断总体时，可靠性与统计量的概率分布有关，因此需要知道几个重要分布的简单性质。

5.2.2　分布描述性统计

随机变量的特性完全由它的（概率）分布函数或（概率）密度函数来描述。设有随机变量X，其分布函数定义为X≤x的概率，即F(x)=P{X≤x}是连续型随机变量，则其密度函数P(x)与F(x)的关系为：

分位数是下面常用的一个概念，其定义为：对于0<α<1，使某分布函数F(x)=α的x，为这个分布的α分位数，记作xα。

前面画过的直方图是频数分布图，频数除以样本容量n，称为频率。n充分大时频率是概率的近似，因此，直方图可以看作密度函数图形的（离散化）近似。

5.2 数据的统计

5.2.1 基本描述性统计

5.2.2 分布描述性统计

5.2　数据的统计

5.2.1　基本描述性统计

5.2.2　分布描述性统计