使用Excel进行假设检验
在假设检验中最常用的检验规则是计算检验统计量的实际值和临界值,通过实际值和临界值的对比得出检验结论;或者计算统计量实际值的p-值,通过p-值和显著性水平α的对比得出结论。
假设检验中使用的数据可以分为两种情况:一是经过统计汇总的数据,已经得到了样本均值和标准差(或者总方差已知);二是原始数据。在前一种情况下需要解决的计算问题是计算统计量的临界值,或者根据统计量的实际值计算p-值;在后一种情况下则可以使用统计软件直接得出统计量的临界值和检验的p-值。
top↑
检验统计量临界值的计算
在已知样本的均值、标准差(或者总方差已知)时,可直接计算出检验统计量的值,然后使用Excel或其他软件计算统计量的临界值,通过实际值与临界值的对比得出检验结论。
用Excel计算统计量的临界值时需要特别注意两个方面的问题。一是检验的类型:是双侧检验、左侧检验还是右侧检验?双侧检验和单侧检验计算临界值时对显著性水平处理方式不同,双侧检验要求每一侧的尾部面积为α/2,而单侧检验要求在拒绝域一侧的尾部面积为α。二是在Excel中正态分布、t分布和F分布累积分布反函数中对概率参数的要求不同,注意分清楚这个参数与显著性水平的关系。
[例6.7] 某机器制造的产品厚度应为5厘米。为了了解机器的性能是否良好,从产品中随机抽取10件,样本均值为5.3厘米,样本标准差为0.3厘米。已知总体服从正态分布,试以0.05和0.01的显著性水平总体均值是否等于5厘米。
根据题意这里应该使用t统计量。检验统计量等于。 在这个例子中应该使用双侧检验,95%的临界值在Excel中应该使用公式
“=TINV(0.05,9)”计算,结果为2.2622。99%的临界值为“=TINV(0.01,9)”等于3.2498。因此,检验的结论是,在0.05显著性水平下拒绝零假设,在0.01的显著性水平不能拒绝零假设。
[例6.8] 一手机厂商声称其某种型号的手机在完全充电的情况下待机时间在150小时以上。为了对此进行检验,经销商随机选择了20部手机进行测试,发现平均待机时间为148小时,样本标准差为3小时。试检验在5%的显著性水平下厂商的说法可靠吗?
对于这个问题,检验的零假和备择假设应设为:
,
。检验统计
量。检验的临界值为“=-TINV(0.10,19)”,等于-1.729。由于实际值小于临界值,拒绝零假设,检验的结论手机的待机时间小于150小时(图6-6)。
图6-6 左侧检验中t检验的实际值和临界值
top↑
用Excel计算p-值
在统计软件中最常用的假设检验方法是根据检验统计量的观测值计算p-值,然后将p-值与α比较得出检验结论,当α>p-值时拒绝零假设。
p-值得计算方法取决于检验的种类(双侧检验、左侧检验还是右侧检验)以及分布的类型。对于t分布,用tobs表示t统计量的观测值,在双侧检验时p-值=P(|t|≥|tobs|);在右侧检验时p-值=P(t≥tobs);左侧检验时p-值=P(t≤tobs)。
正态分布时p-值的计算与t分布类似,只是将t统计量换成z统计量。
p-值的含义可以用以下三个图形来说明。假设统计量的样本观测值等于2,在双侧检验时的p-值如图6-7;右侧检验时的p-值如图6-8,左侧检验时的p-值如图6-9。
图6-7 tobs=2,双侧检验时的p-值等于阴影部分的面积
图6-8 tobs=2,右侧检验时的p-值等于阴影部分的面积
图6-9 tobs=2,左侧检验时的p-值等于阴影部分的面积
例如对于前面机器性能的例子,tobs=3.16。因此在双侧检验时p-值等于P(|t|≥3.16),写成Excel的公式为“=TDIST(3.16,9,2)”,结果为0.01155。显然,在α=0.05时可以拒绝零假设,α=0.01时不能拒绝。
如果这是一个右侧检验问题,则p-值等于P(t≥3.16),写成Excel的公式为
“=TDIST(3.16,9,1)”,结果为0.005775。如果这个问题是一个左侧检验问题,则p-值等于P(t≤3.16)=1- P(t>3.16)= 1-0.005775 = 0.994225。
top↑
使用Excel函数和分析工具库进行假设检验
在实际应用中,我们更希望根据样本数据直接得到检验结果,而不经过前面所说的复杂步骤。Excel提供的一些函数和模块可以帮助我们完成这些任务。
1、利用ZTEST函数进行单样本z检验。
如前所述,在总体方差已知,或者大样本的情况下可以用z统计量对总体的均值进行假设检验。Excel的ZTEST函数可以帮助我们完成这一检验。
这一函数的形式为:ZTEST(array,μ0,sigma)。array用来输入数据序列,μ0为假设的总体均值,Sigma为总体已知的标准差,如果省略,则使用样本标准差。
特别注意ZTEST的返回值为从统计量的样本观测值向正无穷积分的面积,等于右侧检验时的p值。
双侧检验的p-值=2 * MIN(ZTEST(array,μ0,sigma), 1 - ZTEST(array,μ0,sigma))。 左侧检验的p-值=1 - ZTEST(array,μ0,sigma)。
[例6.9] 对于学生调查中的身高数据,用正态分布检验能否认为总体的平均身高等于169厘米。
在Excel的单元格中输入公式“=ZTEST(J2:J36,169)”,得到的概率为0.980391。因此检双侧检验的p-值等于2*(1-0.980391)=0.039218。在5%的显著性水平下应该拒绝零假设。
2、用分析工具库进行双样本均值的z检验。
在比较两个已知方差的正态总体的均值是否相等时使用的是正态分布。Excel分析工具库中的“z-检验:双样本平均差检验”可以完成这类检验。
[例6.10] 对学生调查中男女生的身高进行假设检验,假设已知男生身高的方差为25,女生身高的方差等于9。把数据整理成图6-10的形式,调用“z-检验:双样本平均差检验”模块,在相应的位置输入数据区域和已知的方差,得到的结果见图6-10。从分析结果看,双侧检验的p-值为8.47766*10-13,检验的结论显然是拒绝零假设。
图6-10 用Excel进行双样本均值的z检验
top↑
3、利用分析工具库进行单样本和配对样本的t检验。
Excel的提供的t检验模块提供了成对样本的t检验。如果我们需要进行单样本的t检验,只需要在成对样本t检验中把第二个序列设为单样本检验中的常数μ0就可以了,因为成对样本的t检验本质上就是对两个样本对应数值之差进行的单样本的t检验。
[例6.11] 对学生身高的数据,检验能否认为学生的平均身高等于169厘米。
像图6-11那样输入数据,然后调用分析工具库中的“t-检验:平均值的成对双样本分析”,设置必要的参数(图6-11),得到结果如表6-2。输出结果中“P(T<=t) 双尾”对应的概率0.046928,这是双侧检验时的p-值。与前面按正态分布求解的结果相比p-值0.039218稍大了一些。注意单侧检验时的p-值根据具体情况会有所不同,不一定等于0.0234。
图6-11
表6-2 成对样本t检验的输出结果
t-检验: 成对双样本均值分析
变量 1
平均 166.7714 方差 40.88739 观测值 35 泊松相关系数 #DIV/0! 假设平均差 0 df 34 t Stat -2.061 P(T<=t) 单尾 0.0234 t 单尾临界 1.690924 P(T<=t) 双尾 0.046928 t 双尾临界 2.032244
变量 2
169 0 35
4、利用分析工具库进行两个样本的t检验。
在总体方差未知时对两个样本均值的假设检验分为两种情况:方差相等和方差不等。在这两种情况下虽然使用的都是t统计量,但t分布的方差和自由度的计算公式
不同。等方差时t分布的标准差,其中,自由度
等于;不等方差时t分布的标准差,自由度等于
。
[例6.12] 前面我们曾用双样本的z检验比较过男女生的身高。现在我们用不等方差的样本t检验进行分析。
调用“t-检验:双样本异方差假设”模块,输入相应的数据区域,检验结果如表6-3。由于p-值非常小,检验的结论也是不能认为男女生的身高相等。
表6-3 双样本异方差假设时t检验的输出结果
t-检验: 双样本异方差假设
平均 方差 观测值 假设平均差 df t Stat
P(T<=t) 单尾 t 单尾临界 P(T<=t) 双尾 t 双尾临界
男
172.3125 24.62916667
16 0 21
7.448576386 1.26885E-07 1.720742871 2.53771E-07 2.079613837
女 162.1053 6.432749
19
top↑
5、利用分析工具库进行双样本方差的F检验。
在总体方差未知的双样本的t检验中需要事先知道两个总体的方差是否相等。这一问题可以用分析工具库中的“F检验:双样本方差”来进行。
例如对男女生身高的方差是否相等进行检验,可以调用“F检验:双样本方差”模块,定义相应的数据区域(图6-12),检验结果见表6-4。一定注意双侧检验时的p-值等于“P(F<=f) 单尾”对应概率的两倍。在这个例子中相应的p-值等于
2*0.004041033=0.008082066。由于p-值很小,因此检验的结论是男女生身高的方差不相等。
图6-12 双样本方差F检验的对话框
表6-4 双样本方差F检验的输出结果
F-检验 双样本方差分析
变量 1
变量 2
平均 方差 观测值 df F
P(F<=f) 单尾 F 单尾临界
172.3125 162.1052632 24.62916667 6.432748538
16 19 15 18
3.828715909 0.004041033 2.268622192
top↑