
第4章 数据的概括性度量
一、单项选择题
1.某企业男性职工占80%,月平均工资为450元,女性职工占20%,月平均工资为400元,该企业全部职工的平均工资为( )。[中央财经大学2015研]
A.425元
B.430元
C.435元
D.440元
【答案】D
【解析】企业全部职工的平均工资=男性职工比例×男性月平均工资+女性职工比例×女性月平均工资=80%×450+20%×400=440(元)。
2.15位同学的某门课程考试成绩中,70分出现3次,80分出现4次,85分出现6次,90分出现2次,则他们成绩的众数为( )。[华中农业大学2015研]
A.80
B.85
C.81.3
D.90
【答案】B
【解析】众数是一组数据中出现次数最多的变量值。题中,85分出现次数最多,故成绩的众数为85分。
3.当变量分布呈右偏分布时,( )。[浙江工商大学2014研]
A.应该用算术平均数来代表变量值的一般水平
B.众数比算术平均数更适合代表平均水平
C.较小变量值的频数比较大
D.较小变量值的频数比较小
【答案】C
【解析】AB两项,在偏态分布情况下,由于变量值中出现特别大或特别小的极端数值使其分布曲线在图形上呈现出不对称的情形。当有极大变量值出现时,为右偏分布,此时算术平均数易受极端值影响,而众数较平均水平偏小,因此二者均不适用于代表变量值的一般水平;CD两项,因为在右偏分布情况下,变量的平均数接近于变量值较大的一端,众数接近于变量值较小的一端,因此较小变量值的频数比较大。
4.当两个数列平均数不等时,反映变量之间差异程度最恰当的统计指标是( )。[四川大学2013研]
A.动态相对数
B.平均差
C.标准差
D.标准差系数
【答案】D
【解析】标准差系数是反映变量变动程度的相对指标。其计算公式为:标准差系数=样本标准差/平均数,消除了平均数不相等的影响。
5.右偏分布的特征是( )。[华东师范大学2013研]
A.偏态系数大于0
B.偏态系数小于0
C.偏态系数等于0
D.只能从直方图上判断,不能用统计量进行描述
【答案】A
【解析】偏态系数小于0时,均值小于众数,属于左偏分布;偏态系数大于0,均值大于众数,属于右偏分布;偏态系数等于0时,属于对称分布,即均值与众数为同一值。
6.样本中位数和样本均值可以作为总体中心的估计,那么,使得达到最小的a应是( ),使得
达到最小的b应是( )。[华东师范大学2013研]
A.样本中位数,样本均值
B.样本均值,样本中位数
C.样本中位数,样本中位数
D.样本均值,样本均值
【答案】A
【解析】可以理解为各个样本到某个值的距离的总和,显然当a为中位数时,距离的总和能够达到最小值。因为

则若使达到最小,也就是使
达到最大,当
时,
取最大值,也就是
达到最小。
7.16名消费者对某产品的年消费支出如表4-1所示(单位:元):
表4-1

则最适合代表消费者对该产品的一般消费水平的数值是( )[浙江工商大学2014研]
A.5100
B.5110
C.5538.75
D.4980
【答案】B
【解析】均值易受极端值影响,而该组数据中存在8340、9460两个较为极端的数值,因此均值不能较好地反映该产品的一般消费水平;众数4980位于数据分布的左侧,也不适合反映平均消费水平;而该组数据分布较为均匀,因此采用中位数来描述该产品的一般消费水平最为合适。数据数为偶数,所以中位数为处于数据中间的两位数5100和5120的平均数。
8.下列关于众数的叙述,不正确的是( )。
A.一组数据可能存在多个众数
B.众数主要适用于分类数据
C.一组数据的众数是唯一的
D.众数不受极端值的影响
【答案】C
【解析】众数是一组数据中出现次数最多的变量值。众数主要用于测度分类数据的集中趋势,当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下,众数才有意义。一组数据可能存在多个众数,由于众数是一个位置代表值,因此它不受数据中极端值的影响。
9.一组数据排序后处于中间位置上的变量值称为( )。
A.众数
B.中位数
C.四分位数
D.平均数
【答案】B
【解析】中位数是一组数据排序后处于中间位置上的变量值。中位数将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。四分位数是一组数据排序后处于25%和75%位置上的值。
10.非众数组的频数占总频数的比例称为( )。
A.异众比率
B.离散系数
C.平均差
D.标准差
【答案】A
【解析】异众比率是指非众数组的频数占总频数的比例。主要用于衡量众数对一组数据的代表程度。
11.四分位差是( )。
A.上四分位数减下四分位数的结果
B.下四分位数减上四分位数的结果
C.下四分位数加上四分位数
D.四分位数与上四分位数的中间值
【答案】A
【解析】四分位差也称内距或四分间距,它是上四分位数与下四分位数之差。四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。
12.一组数据的最大值与最小值之差称为( )。
A.平均差
B.标准差
C.极差
D.四分位差
【答案】C
【解析】极差是指一组数据的最大值与最小值之差,也称全距。
13.各变量值与其平均数离差平方的平均数称为( )。
A.极差
B.平均差
C.方差
D.标准差
【答案】C
【解析】方差是各个数据与其算术平均数的离差平方和的平均数,表征了数据离散程度的大小。
14.变量值与其平均数的离差除以标准差后的值称为( )。
A.标准分数
B.离散系数
C.方差
D.标准差
【答案】A
【解析】标准分数又称为z分数,是变量值与其平均数的离差除以标准差的结果,表现了变量值与平均数之间的距离。
15.如果一个数据的标准分数是-2,表明该数据( )。
A.比平均数高出2个标准差
B.比平均数低2个标准差
C.等于2倍的平均数
D.等于2倍的标准差
【答案】B
【解析】标准分数的计算公式为:

如果一个数据的标准分数是-2,即有,表明该数据比平均数低2个标准差。
16.经验法则表明,当一组数据对称分布时,在平均数加减1个标准差的范围之内大约有( )。
A.68%的数据
B.95%的数据
C.99%的数据
D.100%的数据
【答案】A
【解析】当一组数据对称分布时,经验法则表明:约有68%的数据在平均数个标准差的范围之内;约有95%的数据在平均数
个标准差的范围之内;约有99%的数据在平均数
个标准差的范围之内。
17.如果一组数据不是对称分布的,根据切比雪夫不等式,对于k=2,其意义是( )。
A.至少有75%的数据落在平均数加减2个标准差的范围之内
B.至少有89%的数据落在平均数加减2个标准差的范围之内
C.至少有94%的数据落在平均数加减2个标准差的范围之内
D.至少有99%的数据落在平均数加减2个标准差的范围之内
【答案】A
【解析】对于任意分布形态的数据,根据切比雪夫不等式至少有的数据落在
个标准差之内。其中
是大于1的任意值。对于
,该不等式的含义是:至少有75%的数据在平均数
个标准差的范围之内;至少有89%的数据在平均数
个标准差的范围之内;至少有94%的数据在平均数
个标准差的范围之内。
18.比较两组数据的离散程度最适合的统计量是( )。
A.极差
B.平均差
C.标准差
D.离散系数
【答案】D
【解析】离散系数指一组数据的标准差与其对应均值之比,是测度数据离散程度的相对统计量,它可以消除量纲的影响,主要是用于比较不同样本数据的离散程度。两组数据相比较,哪组的离散系数大,说明该组数据的离散程度也大;离散系数小,说明该组数据的离散程度也小。
19.如果一组数据分布的偏态系数在0.5~1或-1~-0.5之间,则表明该组数据属于( )。
A.对称分布
B.中等偏态分布
C.高度偏态分布
D.轻微偏态分布
【答案】B
【解析】如果一组数据的分布是对称的,则偏态系数等于0;若偏态系数大于1或小于-1,称为高度偏态分布;若偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低。
20.如果峰态系数K>0,表明该组数据是( )。
A.尖峰分布
B.扁平分布
C.左偏分布
D.右偏分布
【答案】A
【解析】由于标准正态分布的峰态系数为0,当K>0时数据的分布更集中,称为尖峰分布;当K<0时数据的分布越分散,称为扁平分布。
21.某大学经济管理学院有1200名学生,法学院有800名学生,医学院有320名学生,理学院有200名学生。在上面的描述中,众数是( )。
A.1200
B.经济管理学院
C.200
D.理学院
【答案】B
【解析】众数是一组数据中出现次数最多的变量值。众数主要用于测度分类数据的集中趋势。本题中出现次数最多的是“经济管理学院”,因此众数是“经济管理学院”。
22.某居民小区准备采取一项新的物业管理措施,为此,随机抽取了100户居民进行调查,其中表示赞成的有69户,表示中立的有22户,表示反对的有9户。描述该组数据的集中趋势宜采用( )。
A.众数
B.中位数
C.四分位数
D.平均数
【答案】B
【解析】中位数是一组数据中间位置上的代表值,不受数据极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。中位数主要适合作为顺序数据的集中趋势测度值。
23.某居民小区准备采取一项新的物业管理措施,为此,随机抽取了100户居民进行调查,其中表示赞成的有69户,表示中立的有22户,表示反对的有9户。该组数据的中位数是( )。
A.赞成
B.69
C.中立
D.22
【答案】A
【解析】中位数是一组数据排序后处于中间位置上的变量值。中位数把全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。中位数主要用于测度顺序数据的集中趋势。本题中按赞成、中立、反对排序后处于中间位置上的变量值为赞成。
24.某班共有25名学生,期末统计学课程的考试分数分别为:68,73,66,76,86,74,61,89,65,90,69,67,76,62,81,63,68,81,70,73,60,87,75,64,56,该班考试分数的下四分位数和上四分位数分别是( )。
A.64.5和78.5
B.67.5和71.5
C.64.5和71.5
D.64.5和67.5
【答案】A
【解析】首先对数据进行排序为:56,60,61,62,63,64,65,66,67,68,68,69,70,73,73,74,75,76,76,81,81,86,87,89,90。


即该班考试分数的下四分位数为(64+65)/2=64.5,上四分位数为(76+81)/2=78.5。
25.假定一个样本由5个数据组成:3,7,8,9,13。该样本的方差为( )。
A.8
B.13
C.9.7
D.10.4
【答案】B
【解析】该样本的平均数为

则该样本的方差为

26.在某行业中随机抽取10家企业,第一季度的利润额(单位:万元)分别是:72,63,1,54.7,54.3,29,26.9,25,23.9,23,20。该组数据的中位数为( )。
A.28.46
B.30.20
C.27.95
D.28.12
【答案】C
【解析】设一组数据为,按从小到大的顺序排序后为
,则中位数为:

题中10家企业第一季度的利润额按从小到大的顺序排序后为:20,23,23.9,25,26.9,29,54.3,54.7,63.1,72,则中位数为(26.9+29)/2=27.95。
27.在某行业中随机抽取10家企业,第一季度的利润额(单位:万元)分别是:72,63.1,54.7,54.3,29,26.9,25,23.9,23,20。该组数据的标准差为( )。
A.28.46
B.19.54
C.27.95
D.381.94
【答案】B
【解析】由于

则该组数据的标准差为:

28.某班学生的统计学平均成绩是70分,最高分是96分,最低分是62分,根据这些信息,可以计算的测度离散程度的统计量是( )。
A.方差
B.极差
C.标准差
D.变异系数
【答案】B
【解析】测度数值型数据离散程度的方法主要有极差、平均差、方差和标准差。其中极差是一组数据的最大值与最小值之差。由于题中只给了最低分和最高分,没有给出所有学生的成绩,所以只能计算极差。
29.某班学生的平均成绩是80分,标准差是10分。如果已知该班学生的考试分数为对称分布,可以判断成绩在60~100分之间的学生大约占( )。
A.95%
B.89%
C.68%
D.99%
【答案】A
【解析】当一组数据对称分布时,经验法则表明:约有68%的数据在平均数个标准差的范围之内;约有95%的数据在平均数
个标准差的范围之内;约有99%的数据在平均数
个标准差的范围之内。故成绩在60~100分之间的学生也即在平均数
个标准差的范围之内的学生,因此成绩在60~100分之间的学生大约占95%。
30.某班学生的平均成绩是80分,标准差是5分。如果已知该班学生的考试分数为非对称分布,可以判断成绩在70~90分之间的学生至少占( )。
A.95%
B.89%
C.68%
D.75%
【答案】D
【解析】对于任意分布形态的数据,根据切比雪夫不等式至少有的数据落在±k个标准差之内。其中k是大于1的任意值。对于k=2,3,4,该不等式的含义是:至少有75%的数据在平均数±2个标准差的范围之内;至少有89%的数据在平均数±3个标准差的范围之内;至少有94%的数据在平均数±4个标准差的范围之内。故成绩在70~90分之间的学生也即在平均数±2个标准差的范围之内的学生,因此成绩在70~90分之间的学生大约占75%。
31.在某公司进行的计算机水平测试中,新员工的平均得分是80分,标准差是5分,中位数是86分,则新员工得分的分布形状是( )。
A.对称的
B.左偏的
C.右偏的
D.无法确定
【答案】B
【解析】如果数据的分布是对称的,众数、中位数和平均数必定相等;如果数据是左偏分布的,有平均数<中位数<众数;如果数据是右偏分布,有众数<中位数<平均数。本题中平均分为80分小于中位数86分,因此该分布的形状为左偏。
32.对某个高速路段驶过的120辆汽车的车速进行测量后发现,平均车速是85公里/小时,标准差是4公里/小时,下列哪个车速可以看作异常值( )。
A.78公里/小时
B.82公里/小时
C.91公里/小时
D.98公里/小时
【答案】D
【解析】根据中心极限定理,对120辆汽车的车速进行测量,可视为大样本情况,原始数据服从对称的正态分布,即约有99%的数据在平均数个标准差的范围之内。D项98公里/小时在平均车速
个标准差的范围之外,因此可视为离群点。
33.下列叙述中正确的是( )。
A.如果计算每个数据与平均数的离差,则这些离差的和总是等于零
B.如果考试成绩的分布是对称的,平均数为75,标准差为12,则考试成绩在63~75分之间的比例大约为95%
C.平均数和中位数相等
D.中位数大于平均数
【答案】A
【解析】每个数据与平均数的离差的和为:

34.在离散程度的测度中,最容易受极端值影响的是( )。
A.极差
B.四分位差
C.标准差
D.平均差
【答案】A
【解析】众数和中位数不受极端值的影响,而ABCD四项都会受到极端值的影响,但是由于极差是一组数据最大值与最小值之差,故最容易受极端值影响。
35.一组数据的离散系数为0.4,平均数为20,则标准差为( )。
A.80
B.0.02
C.4
D.8
【答案】D
【解析】离散系数的计算公式为:,已知离散系数为0.4,平均数为20,则标准差为
。
36.在比较两组数据的离散程度时,不能直接比较它们的标准差,因为两组数据的( )。
A.标准差不同
B.方差不同
C.数据个数不同
D.计量单位不同
【答案】D
【解析】采用不同计量单位计量的变量值,其离散程度的测度值也就不同。因此,对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的。
37.两组数据的平均数不等,但标准差相等,则( )。
A.平均数小的,离散程度大
B.平均数大的,离散程度大
C.平均数小的,离散程度小
D.两组数据的离散程度相同
【答案】A
【解析】根据离散系数的计算公式:可知,在标准差相等的条件下,平均数小的离散系数大,也即离散程度大;平均数大的离散系数小,也即离散程度小。
二、多项选择题
1.一组数据的直方图如图4-1所示。根据这个图形,以下说法正确的有( )。[中央财经大学2014研]
A.这种分布是右偏分布
B.这种分布是左偏分布
C.根据这组数据计算的偏态系数大于零
D.根据这组数据计算的偏态系数小于零
E.这组数据的中位数小于其平均数

图4-1
【答案】ACE
【解析】AB两项,由图4-1可以看出,数据分布右边的尾部比左边的尾部长,呈右偏分布。CD两项,测度偏态的统计量是偏态系数,偏态是对数据分布对称性的测度。当分布不对称时,若偏态系数为正,可判断为正偏或右偏;反之若为负,可判断为负偏或左偏。图中数据分布呈右偏,因此偏态系数为正。E项,如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠近,则众数<中位数<平均数。
2.偏态系数是对数据分布偏斜程度的测度,下面描述正确的是( )。[西安交大2008研]
A.偏态系数=0为对称分布
B.偏态系数>0为右偏分布
C.偏态系数<0为右偏分布
D.偏态系数>1或偏态系数<-1为高度偏态分布
E.偏态系数>3或偏态系数<-3为高度偏态分布
【答案】ABD
【解析】如果一组数据的分布是对称的,则偏态系数等于0;如果偏态系数明显不等于0,表明分布是非对称的,当为正值时,表示正离差值较大,可以判断为正偏或右偏;反之,当为负值时,表示负离差值较大,可判断为负偏或左偏。若偏态系数大于1或小于-1,被称为高度偏态分布;若偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低。
3.甲班同学的平均身高为,标准差为
,乙班同学的平均身高为
,标准差为
,那么( )。[西安交大2008研]
A.,则甲班身高均值的代表性低
B.,则甲班身高均值的代表性低
C.,则甲班身高均值的代表性低
D.,则甲班身高均值的代表性低
E.,则甲班身高均值的代表性低
【答案】BCE
【解析】若两总体的均值相同,则方差越大,离散程度越大,相应均值的代表性就越低;若两总体的方差相同,则均值越小,其代表性就越低;若两总体的方差均值都不相同,则通过比较离散系数均值的代表性。由于离散系数,所以当
,则
,即甲班身高的离散程度大,则甲班身高均值的代表性就低。
4.下列关于众数的叙述,正确的有( )。
A.一组数据可能存在多个众数
B.众数主要适用于分类数据
C.一组数据的众数是惟一的
D.众数不受极端值的影响
E.众数是一个位置代表值
【答案】ABDE
【解析】众数是一组数据中出现次数最多的变量值,用Mo表示。众数主要用于测度分类数据的集中趋势,也适用于作为顺序数据以及数值型数据集中趋势的测度值。众数是一个位置代表值,它不受数据中的极端值影响。一组数据的众数可能只有一个,也可能有几个,也可能没有众数。
5.在数据离散程度的测量值中,不受极端值影响的测度值有( )。
A.极差
B.异众比率
C.四分位差
D.标准差
E.离散系数
【答案】BC
【解析】异众比率是指非众数组的频数占总频数的比例。它是依据众数计算的,由于众数是位置代表值,是不受极端值影响的,所以异众比率也是不受极端值影响。四分位差是上四分位数与下四分位数之差,而上四分位数与下四分位数都是位置代表值,都不受极端值影响,所以四分位差也不受极端值影响。
6.关于极差,下列说法正确的有( )。
A.只能说明变量值变异的范围
B.不反映所有变量值差异的大小
C.反映数据的分配状况
D.最大的缺点是受极端值的影响
E.最大的优点是不受极端值的影响
【答案】ABD
【解析】极差是总体中单位标志值的最大值与最小值的差距,说明标志值变动的最大范围。其计算公式为:极差=最大标志值-最小标志值。极差的优点是容易理解、计算方便;极差的缺点是不能反映全部数据分布状况,易受到极值的影响。
7.下列属于平均差和标准差的相同点的有( )。
A.对正负离差综合平均的方法相同
B.有简单式和加权式的计算
C.依据同一资料进行计算结果相同
D.将所有相关变量值都考虑在内
E.以平均数为中心测定各变量值的离散程度
【答案】BDE
【解析】平均差和标准差的相同点:①计算方法相同,有简单平均法和加权平均法两种;②范围相同,将所有变量都考虑在内;③作用相同,以平均数为中心测定各变量值的离散程度。不同点:①计算公式的依据不同;②对正负离差综合平均的方法不同;③说明同质总体的变异程度有差异;④受极端值的影响程度不同。
8.下列指标中不可能出现负值的有( )。
A.众数
B.极差
C.标准差
D.平均差
E.平均数
【答案】BCD
【解析】极差是指总体各单位标志值中最大值和最小值之差;标准差是平方差开平方的结果;平均差是各单位标志值对算术平均数的离差绝对值的算术平均数;众数是一组数列中出现次数最多的数,可能为负值;平均数也称为均值,它是一组数据相加后除以数据的个数得到的结果。
三、简答题
1.简述众数、中位数和平均数的应用场合。[对外经济贸易大学2015研、中央财大2005研、北京林业大学2005研]
答:众数、中位数和平均数都是用来度量数据的集中趋势的数值,它们的内涵及应用场合具体如下:
(1)众数
众数是一组数据中出现次数最多的变量值。
众数主要用于测度分类数据的集中趋势,也适用于作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下,众数才有意义。
(2)中位数
中位数是一组数据排序后处于中间位置上的变量值。它将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。
中位数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不适用于分类数据。它是一个位置代表值,特点是不受极端值的影响。
(3)平均数
平均数也称为均值,它是由一组数据相加后除以数据个数所得的结果。
平均数在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。
2.给出数学期望和中位数的定义,试比较数学期望和中位数的优缺点。[中国科学技术大学2013研]
答:数学期望也称均值或平均数,它是一组数据相加后除以数据的个数得到的结果;中位数是一组数据排序后处于中间位置上的变量值。数学期望在统计学中具有重要的地位,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。但数学期望的主要缺点是易受数据极端值的影响,对于偏态分布的数据,数学期望的代表性较差。中位数主要用于测度顺序数据的集中趋势,当然也适用于作为数值型数据的集中趋势,但不适用于分类数据。中位数是一个位置代表值,其特点是不受极端值的影响。当一组数据的分布偏斜程度较大时,使用中位数也许是一个好的选择。
3.简述衡量数据离散程度的统计量有哪些,并说明各自的适用范围。[西安交通大学2015研,东北财经大学2014研,中央财经大学2013研]
答:离散趋势是在统计学上描述观测值偏离中心位置的趋势,反映了所有观测值偏离中心的分布情况。数据的离散趋势越大,集中趋势的测度值对该组数据的代表性就越差;离散趋势越小,其代表性就越好。离散趋势的指标主要有:
(1)异众比率
异众比率是指总体中非众数次数与总体全部次数之比,即非众数组的频数占总频数的比例,用Vr表示。
异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。异众比率主要适合测度分类数据的离散程度。
(2)四分位差
四分位差,也称为内距或四分间距,它是上四分位数与下四分位数之差,用Qd表示。
四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。四分位差主要用于测度顺序数据的离散程度。
(3)极差
极差又称全距,是指一组数据的观察值中最大值与最小值之差,用R表示。用公式表示为:极差=最大观察值-最小观察值。
极差是描述数据离散程度的最简单的测度值,计算简单,易于理解,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。
(4)平均差
平均差是指一组数据中的各数据对平均数的离差绝对值的平均数,用Md表示。
一组数据中的各数据对平均数的离差有正有负,其和为零,因此平均差必须用离差的绝对值来计算。平均差愈大,表示数据之间的变异程度越大,反之则变异程度越小。
(5)方差S2与标准差S
统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数,它在数学处理上是通过平方的办法消去离差的正负号,然后再进行平均。标准差为方差的平方根。
方差(或标准差)能较好地反映出数据的离散程度,是实际中应用最广的离散程度测度值。
(6)离散系数
离散系数,又称变异系数,它是一组数据的标准差与其相应的平均数之比。
当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果单位或平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
4.什么是数量指标和质量指标?二者有何关系?[中央财经大学2014研复试]
答:(1)数量指标是反映社会经济现象发展总规模、总水平或工作总量的统计指标,用绝对数表示;质量指标是反映社会经济现象相对水平或平均水平的统计指标,是指在计划和统计工作中,反映生产效果或工作质量的各种指标。
(2)二者关系为:它们从不同角度反映总体的综合数量特征。数量指标是计算质量指标的基础,而质量指标往往是相应的数量指标进行对比的结果。质量指标指数编制原理与数量指标指数的编制原理相同,只是同度量因素的固定时期不同。
5.什么是平均指标?平均指标在统计研究中有哪些作用?[浙江工商大学2014研]
答:(1)平均指标是指在同质总体内将各单位某一数量标志的差异抽象化,用以反映总体在具体条件下的一般水平,一般用平均数形式表示,因此也称为平均数。
(2)平均指标的作用:
①平均指标可用于同类现象在不同空间条件下的对比;
②平均指标可用于同一总体指标在不同时间的对比;
③平均指标可作为论断事物的一种数量标准或参考;
④平均指标也可用于分析现象之间的依存关系和进行数量上的估算。
6.什么是集中趋势和离散趋势?它们常用的指标有哪些?[西安交大2006研]
答:(1)集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。常用的反映集中趋势的指标有平均数、中位数和众数。
(2)数据的离散趋势是数据分布的另一个重要特征,它反映的是各变量值远离其中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。描述数据离散程度采用的测度值,根据所依据数据类型的不同主要有异众比率、四分位差、方差和标准差。此外,还有极差、平均差以及测度相对离散程度的离散系数等。
7.简述标准化值的意义及计算公式。[中央财大2006研]
答:变量值与其平均数的离差除以标准差后的值称为标准分数,也称标准化值或z分数。其计算公式为:

式中为变量
的标准化值,
是该组数据均值,s为该组数据的标准差。
标准分数可以测量每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。比如,如果某个数值的标准分数为-1.5,就知道该数值低于平均数1.5倍的标准差。在对多个具有不同量纲的变量进行处理时,常常需要对各变量进行标准化处理。实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据变为平均数为0,标准差为1。
四、计算题
1.美国洛杉矶湖人队2000年14名球员的薪水(百万美元)如表4-2所示:
表4-2

薪水茎叶图如图4-2所示:

图4-2
为了确定新年度球员薪水水平,球员工会与老板进行谈判。球队老板计算了14名球员的平均收入,其数值为410多万美元,老板觉得球员薪水太高了,不能再提高了。而球员工会代表主张用中位数分析球员薪水水平,并绘制了茎叶图以支持自己的说法。
试回答:
(1)请计算14名球员薪水的中位数。
(2)请说明球队老板和球员工会代表的争执原因是什么?你认为谁的主张更合理?为什么?[首都经济贸易大学2014研]
解:(1)中位数
题目中n=14,为偶数,因此(百万美元)。
(2)争执原因是用平均收入还是中位数代表14名球员的薪水水平。
球员工会代表的主张更合理。因为平均收入易受极端值影响,题中数据存在11.8和17.1两个较高的数据,因而将均值拉向更高水平;从茎叶图可以看出,数据虽然分布不对称,但整体较为集中,中位数能较好地反映球员的薪水水平。
2.某班学生5月份上网情况如表4-3所示:(保留整数)
表4-3

(1)计算该班学生上网时间的众数。
(2)计算该班学生上网时间的标准差及标准差系数。
(3)计算每个学生上网时间和上网费用之间的相关系数。[四川大学2013研]
解:(1)上网时间的众数在组别30~50中,左右相邻组的频数(本题为上网人数)分别为30、20。
故由众数的的计算公式:众数=下组限左相邻组的频数占左右相邻组总频数的百分比+上组限
右相邻组的频数占左右相邻组总频数的百分比。
可得众数为时/月.人
(2)以组中值代表该组的平均水平,并设下开口组的组距为10,上开口组的组距为20,设上网时间为X。
则上网时间的均值为

方差为

故标准差,标准差系数
(3)以组中值代表该组的平均水平,并设下开口组的组距为10,上开口组的组距为20,则上网时间为5,20,40,60,80,100,设上网时间为X,上网费用为Y,则由相关系数的计算公式:

经计算得
带入公式计算可得。
3.随机抽取25个网络用户,得到他们的年龄数据如表4-4所示。
表4-4

要求:(1)计算众数、中位数。(2)计算平均数和标准差。(3)计算偏态系数和峰态系数。(4)对网民年龄的分布特征进行综合分析。[南京大学2009研]
解:(1)对表中数据按从小到大顺序排列:

由排序数据可知,年龄出现频数最多的是19和23,都出现3次,所以有两个众数,即和
。
由于中位数位置,所以
。
(2)平均数
由平均数可得:

(3)偏态系数:

峰态系数:

(4)对网民年龄的分布特征进行综合分析的结果如下:从众数、中位数和平均数来看,网民年龄在23~24岁的人数占多数。由于标准差较大,说明网民年龄之间有较大差异。从偏态系数来看,年龄分布为右偏。并且偏态系数大于1,所以偏斜程度很大。峰态系数为正值,所以为尖峰分布。
4.某地区家庭按人均收入水平分组资料如表4-5所示。
表4-5

计算:(1)众数和中位数(2)平均差系数(3)标准差系数[首经贸2007研]
解:(1)由表中数据可知,众数在600~800这一组内。则由计算众数的公式可得:

由计算中位数的公式可得:

(2)根据表4-5可得表4-6。
表4-6

由表4-6可得:



(3)标准差为:

所以标准差系数为:

5.下面是CAILY大学田径队纪录的1/4英里和1英里赛跑每次所用时间的数据(以分钟计)。

根据这些数据,一个教练评论说,1/4英里所用的时间已经趋于一致了,1英里所用时间差别较大。请用适当的指标来概括数据的特性并说明该教练的说法是否合理?[中央财大2006研]
解:根据已知数据,可以分别计算出1/4英里和1英里所用时间的样本均值和标准差。
1/4英里所用时间的样本均值为:

样本标准差为:

1英里所用时间的样本均值为:

样本标准差为:

由上面的计算结果可知,两个样本的均值不相同,因此不能简单地用标准差来比较这两个样本的离散程度。这两个样本的离散系数分别为:
1/4英里所用时间的离散系数为

1英里所用时间的离散系数为

因为,所以可知1/4英里所用时间的离散程度大于1英里所用时间的离散程度。由此可以判断该教练的说法不合理。
6.下面是A、B两个班学生的数学考试成绩数据:
A班:

B班:

(1)将两个班的考试成绩用一个公共的茎制成茎叶图,比较两个班考试成绩分布的特点。
(2)两个班考试成绩的描述统计量如表4-7所示。试进行比较分析。
表4-7

(3)要判断考试成绩是否有离群点,可使用哪些方法?
(4)要判断考试成绩是否服从正态分布,可使用哪些描述性方法?[人大2004研]
解:(1)构建两个班考试成绩的茎叶图,如图4-3所示。

图4-3 两个班考试成绩的茎叶图
从茎叶图可以看出,A班考试成绩的分布比较集中;B班考试成绩的分布比A班分散。
(2)从平均数、众数与中位数可以看出A班成绩明显好于B班;A班成绩的方差小于B班,说明A班成绩相对于B班比较集中;两个班成绩的偏斜度较低,成绩分布比较对称;从极差可以看出B班的成绩差异大于A班。
(3)可使用“3σ”准则:A班学生的数学成绩全部在±3个标准差之内,即75±3×10.44=(43.68,106.32),所以A班学生的成绩中没有离群点。B班学生的数学成绩全部在±3个标准差之内,即68±3×17.64=(15.08,120.92),所以B班学生的成绩中没有离群点。
还可以使用四分位数的方法:当观测值落在区间(QU+3IQR,+∞)或(-∞,QL-3IQR)上时,认为该观测值为离群值。其中,IQR﹦QU-QL为四分位距,QU和QL分别为上、下四分位数。
(4)可使用偏度系数和峰度系数:由于A班的偏度系数SK=0.11>0,峰度系数K=-0.35<0,说明A班学生成绩的分布为右偏分布,且与正态分布相比略有一些扁平。B班的偏度系数SK=0.11,峰度系数K=-0.76<0,说明B班学生成绩的分布也为右偏分布,且与正态分布相比较为扁平。
还可以使用箱线图的方法:当数据服从正态分布时箱线图应该是对称的;当Me(中位数)在箱子内部靠左时,数据呈右偏分布;当Me(中位数)在箱子内部靠右时,数据呈左偏分布。
7.某银行为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验:一种是所有顾客都进入一个等待队列;另一种是顾客在三个业务窗口处列队三排等待。为比较哪种排队方式使顾客等待的时间更短,两种排对方式各随机抽取的9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下:

(1)画出第二种排队方式等待时间的茎叶图。
(2)比较两种排队方式等待时间的离散程度。
(3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。[人大2006研]
解:(1)第二种排队方式等待时间的茎叶图如图4-4所示。
叶单位=0.1

图4-4 第二种排队方式等待时间的茎叶图
(2)第二种排队方式等待时间的均值为:

标准差为:

第一种排队方式的均值分钟,标准差s1=1.97分钟,则离散系数
。第二种排队方式的离散系数

由于,因此第二种排队方式的离散程度较小。
(3)由于第二种排队方式的平均等待时间小于第一种排队方式,并且离散程度较小,所以会选择第二种排队方式。
8.一家网吧想了解上网人员的年龄分布状况,随机抽取25人,得到他们的年龄数据如表4-8所示。
表4-8

(1)画出该组数据的茎叶图。
(2)画出该组数据的箱线图。
(3)根据茎叶图和箱线图说明上网者年龄分布的特征。[人大2005研]
解:(1)该组数据的茎叶图如图4-5所示。

图4-5 上网人员的年龄分布的茎叶图
(2)由表4-8中数据可得:
最大值=41,最小值=15
中位数的位置=,所以中位数=23。

即QL在第6个数值(19)和第7个数值(19)之间0.5的位置上,因此QL=19×0.5+19×0.5=19。

即QU在第19个数值(27)和第20个数值(29)之间0.5的位置上,因此QU=27×0.5+29×0.5=28。
由以上数据可得箱线图,如图4-6所示。

图4-6 上网人员的年龄分布的箱线图
(3)由茎叶图和箱线图可以看出,上网者年龄为右偏分布。