对小样本应急表使用费舍尔精确检验

0

这篇文章的作者是 保罗-里奇,一个Kolabtree专家。它最初出现在他的专栏中 数据驱动的新闻业.

本文概述了Fisher's精确检验如何用于小样本或然率表。一个常见的问题是在 数据分析 如何确定两个分类变量(如性别、种族或选举中两个候选人的得票率)之间是否存在统计关系。 体现这种关系的最简单方法是用一个或然表来表示两个变量的每个组合的计数,行代表一个变量的水平,列代表另一个变量的水平。 对行和列变量之间的关联最常用的统计检验是卡方(χ2)测试。 下表中的例子是为了说明该测试。

民主党赢家 (%之列) 共计
克林顿获胜 桑德斯获胜
特朗普第一 25 (86%) 12 (55%) 37
特朗普第二 3 (11%) 8 (36%) 11
特朗普第三 1 (3%) 2 (9%) 3
共计 29 (100%) 22 (100%) 51

上表中的栏目显示了希拉里-克林顿和伯尼-桑德斯在民主党方面赢得的初选州,以及唐纳德-特朗普在共和党方面置于相同初选州的情况。由于包括哥伦比亚特区,表中的州总数为51个。百分比栏显示,特朗普赢得了克林顿赢得的86%的初选州,而他赢得了桑德斯赢得的55%的州。

卡方检验是基于计算表格中每个单元格的预期值。例如,特朗普在共和党方面获得第三名的州和伯尼-桑德斯在民主党方面获胜的州的单元格的预期值(如果变量之间没有关系,人们期望看到的单元格的值)将通过将特朗普获得第三名的行总数(3)乘以桑德斯获胜的州的列总数(22)来计算。然后用这个乘积除以观察值的总数(51)。预期值的计算公式为:。

这意味着,如果特朗普获得第三名和桑德斯赢得的初选州是完全独立的,那么这个单元格的数值将是1.29。 该单元格的观察值为2,表明该单元格的计数高于预期值。 将计算表格中每个单元格的预期值,并计算每个单元格的观察值和预期值之间的差异,将其平方,除以预期值,并根据公式对表格中的所有单元格进行求和。

如果卡方值超过一定自由度的卡方临界值(通过行数减1和列数减1相乘得出)和P值,就可以得出结论,变量之间存在关联。

chi-square检验有一个问题。 它是对或然率表中计数分布的一种近似值。 如果表中超过20%的单元格的期望值小于5,那么卡方检验就不能用于检验行变量和列变量之间存在关联的假设(如下表所示)。 表中的两个变量都是分类的。 如果违反了这个假设,主要的统计软件包会提醒用户。 违反该假设会导致观察到的P值不正确,并可能导致对关联的存在或不存在作出错误的结论。 有一个精确的替代卡方检验的方法,叫做费雪精确检验。

费舍尔精确检验是基于超几何概率分布的。

这里的 Ri! 是行总数的阶乘(5!=5*4*3*2*1)。 Ci! 是各列总数的阶乘。 N! 是表格总数的阶乘,aij是各个单元值的阶乘。 Πij 是各个单元格值的乘积系数。 这样的公式甚至比卡方检验更需要计算,特别是对于有很多行和列的表格。 这就是为什么过去倾向于使用卡方检验的原因,因为它对计算机的运行占用了太多的内存。 如今,计算机运行费希尔精确检验的问题不大,而且在主要的统计软件包(R、SAS、SPSS、STATA等)中很容易运行。

在R(一个免费的程序)中进行费舍尔精确检验和卡方检验的命令可以在下面看到文章顶部的表格和相应的输出(黄色为费舍尔精确检验,绿色为卡方检验)。

 

 

 

 

 

 

 

费舍尔精确检验的输出显示,当行和列之间没有关联时,观察到这些表格频率的概率为0.03653。 卡方检验的输出结果显示,在同一表格中存在关系的概率为0.04217。 如果我们使用0.05的P值作为显著性标准,我们会发现在这种情况下两个测试都有关系,尽管P值不同。 希拉里-克林顿在初选季节赢得的州更有可能被唐纳德-特朗普赢得,而伯尼-桑德斯赢得的州则更有可能让特朗普完成2 或3rd 在样本量更小的表中,P值之间的差异可能更大,从而导致截然不同的结论。

作为警告,P值不应被用作分类变量之间关联强度的指标。 检验结果要么是显著的,要么是不显著的。 p值对样本大小很敏感。 通常情况下,赔率被用来估计效应大小,但R只在fisher.test函数中对有2列和2行的表格进行计算。

费舍尔精确检验提供了一个标准,以决定样本中两个分类变量之间观察到的百分比差异是显著的,还是只是由于数据中的随机噪音造成的。 在上述例子中,克林顿和特朗普赢得的86%的初选州与桑德斯和特朗普赢得的55%的初选州有显著差异。 由于这种决定的主观性,记者在只看观察到的百分比或计数来做这些判断时,应该始终小心谨慎。 主观决定可能会被自己对数据相关问题的先入为主的观念进一步蒙蔽。


Kolabtree帮助全球企业按需雇佣专家。我们的自由职业者已经帮助企业发表研究论文,开发产品,分析数据,以及更多。只需一分钟就可以告诉我们你需要做什么,并免费获得专家的报价。


分享。

关于作者

保罗-里奇是一位统计学家、神经心理学家和数据分析师,常驻美国。他定期为网站 "数据驱动的新闻 "撰写专栏,拥有研究方法学和神经科学的硕士学位,以及生物统计学的硕士学位。

发表回复

值得信赖的自由职业者专家,随时为您的项目提供帮助


世界上最大的科学家自由职业平台  

不,谢谢,我现在不打算雇用。