
5.2 数据的统计
对数据进行统计是从定量角度去探索数据,也是基本的数据探索方式,其主要目的是了解数据的基本特征。虽然数据统计所用的方法同数据质量分析阶段相似,但二者的重点不同,这时主要关注数据从统计学上反映的量的特征,以便分析人员更好地认识这些将要被挖掘的数据。
这里先要清楚两个关于统计的基本概念:总体和样本。统计的总体是人们研究对象的全体,又称为母体,如工厂一天生产的全部产品、学校全体学生的身高。总体中的每一个基本单位称为个体,个体的特征用一个变量(如x)来表示。从总体中随机产生的若干个个体的集合称为样本或子样,如n件产品、100名学生的身高或者一根轴的直径的10次测量。实际上这就是从总体中随机取得的一批数据,不妨记作x1,x2,…,xn,n称为样本容量。
从统计学的角度来讲,统计的任务是由样本推断总体。从数据探索的角度来讲,就要关注更具体的内容,通常由样本推断总体的数据特征。
5.2.1 基本描述性统计
假设有一个容量为n的样本(一组数据),记作x=(x1,x2,…,xn),需要对它进行一定的加工,才能提取有用的信息。统计量就是加工出来的、反映样本数量特征的函数,它不含任何未知量。
下面介绍几种常用的统计量。
(1)表示位置的统计量:算术平均值和中位数。
算术平均值(简称均值)描述数据取值的平均位置,记作,其数学表达式为:

中位数是将数据按由小到大排序后位于中间位置的那个数值。MATLAB中mean(x)返回x的均值,median(x)返回中位数。
(2)表示数据离散度的统计量:标准差、方差和极差。
标准差s定义为:

它是度量各个数据与均值偏离程度的指标,这种偏离不妨称为变异。
方差是标准差的平方,即s2。
极差是x=(x1,x2,…,xn)的最大值与最小值之差。
MATLAB中std(x)返回x的标准差,var(x)返回方差,range(x)返回极差。
在标准差s的定义中,对n个(xi-)的平方求和,却被(n-1)除,这是出于无偏估计的要求。若需要改为被n除,MATLAB可用std(x,1)和var(x,1)来实现。
(3)表示分布形状的统计量:偏度和峰度。
偏度反映分布的对称性,v1>0称为右偏态,此时数据位于均值右边的比位于左边的多;v1<0称为左偏态,情况相反;而v1接近0则可认为分布是对称的。
峰度是数据分布形状的另一种度量,正态分布的峰度为3,若峰度比3大得多,则表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可以用作衡量数据分布偏离正态分布的指标。
MATLAB中skewness(x)返回x的偏度,kurtosis(x)返回x的峰度。
在上述用MATLAB计算各个统计量的命令中,若x为矩阵,则作用于x的列,返回一个行向量。
统计量中最重要、最常用的是均值和标准差,由于样本是随机变量,它们作为样本的函数自然也是随机变量。当用它们去推断总体时,可靠性与统计量的概率分布有关,因此需要知道几个重要分布的简单性质。
5.2.2 分布描述性统计
随机变量的特性完全由它的(概率)分布函数或(概率)密度函数来描述。设有随机变量X,其分布函数定义为X≤x的概率,即F(x)=P{X≤x}是连续型随机变量,则其密度函数P(x)与F(x)的关系为:

分位数是下面常用的一个概念,其定义为:对于0<α<1,使某分布函数F(x)=α的x,为这个分布的α分位数,记作xα。
前面画过的直方图是频数分布图,频数除以样本容量n,称为频率。n充分大时频率是概率的近似,因此,直方图可以看作密度函数图形的(离散化)近似。