如何纠正回归模型中的离群值。以种族、教育和未参保者对特朗普投票的影响为例

0

这篇文章最初出现在我在网站的专栏中 数据驱动的新闻业.

在我 我在上一篇文章中谈到了退步的方式 可以成为一个有用的工具,以区分相关变量之间的不同关系。我还谈到了异常值是如何成为问题的。处理异常值的一种方法是简单地将其从分析中删除。这样做会降低统计能力(当它确实存在时,发现重要预测因素的概率),并从模型中删除潜在的有价值的信息。这可能是一个更有成果的努力,因为可以获得有价值的信息。我在关于华盛顿特区与其他州的不同之处的文章中这样做了,它确实给了我一个想法,即除了已经考虑的协变量之外,还应该考虑另一个协变量:仇恨群体的集中度、%无保险、%拥有学士学位或更高学位以及%贫困。

在我 关于华盛顿特区作为一个异常点的特点的帖子 我发现,与所考虑的任何一个州相比,它是白人最少的。那里只有40.2%的地区人口被认定为白人或高加索人。只有夏威夷的%白人较少,为25.4%。在去年选举的出口民调中,60%没有受过大学教育的白人女性投票给特朗普,而71%没有受过大学教育的白人男性投票给特朗普。74%的非白人投票给克林顿。

将其加入模型后,特朗普选票中78.5%的变异性被考虑在内,大大提高了模型的精确度。仇恨群体和%贫困的变量并不显著,被排除在外,因为在模型中加入这些变量会降低统计能力。%学士、%白人和%无保险的变量是显著的(意味着P值小于0.05,我将在以后的文章中解释),其他的则不显著。大多数统计软件包的输出。

78.5%的变异性

占了

系数

标准误差

t 统计

P值

较低

95%

上层

95%

拦截

51.55

8.92

5.78

5.75E-07

33.61

69.48

% 学士学位

或更高

-1.11

0.15

-7.55

1.2E-09

-1.41

-0.82

% 白色

0.31

0.06

4.95

1.01E-05

0.18

0.43

%无保险

0.74

0.26

2.86

0.006319

0.22

1.26

标有 "系数 "的那一栏给出了我在以前的文章中所阐述的回归方程的估计值。目前的方程是这样的:

特朗普%的选票=51.55-1.11*(%学士)+0.31*(%白人)+0.74*(%无保险)。

这就是说,当所有协变量都等于零时,预测特朗普将获得51.55%的选票。%的单身汉每增加1%,估计特朗普的选票就会减少1.11%。该州的白人人口每增加1%,估计就会增加0.31%,该州的无保险人口每增加1%,就会增加0.31%。

标有 "标准误差 "的一栏是对系数的不确定性的估计。标有 "t统计量 "的一栏是用于确定系数是否与零有显著差异的检验统计量。p值 "是当真实系数为零时,观察到这个估计系数的估计概率。按照惯例,当p值小于0.05时,我们就可以得出结论:真实系数与零不同。最后两列显示了一个系数的95%置信区间的上界和下界。置信区间说的是,在进行估计的时候,95%的真实系数将在上下限之间。在这种情况下,如果上界和下界不跨过数字0,就相当于该系数与0有显著的不同。

上面的散点图显示了%白人和%特朗普的实际值(蓝色钻石)和预测值(红色方块),该模型调整了%单身人士和%无保险者。哥伦比亚特区(DC)和夏威夷的实际值和预测值非常接近,说明拟合度很高。拟合度较差的一个州是佛蒙特州,特朗普的实际得票率比预测得票率低10%,这可以在佛蒙特州的蓝色钻石上看到。

%本科或以上学历的散点图表明,拟合效果不如%白人作为预测指标的好。这反映在这个预测指标的标准误差(0.15)比%白人(0.06)大。对于DC的预测,这个预测因子的预测效果并不理想,因为它的预测值最高。趋势仍然是显著的负方向。

%无保险者作为预测指标的散点图显示,特朗普的%选票的拟合度更低。在许多其他州中,华盛顿特区和阿拉斯加是这个预测指标的拟合度较差的点。这个预测指标的标准误差显示,对其他预测指标的拟合度更低(0.26),尽管它仍然有统计学意义。

如果操作正确,多元回归是一个潜在的强大工具,可以分离特定结果的预测变量之间的关系。添加正确的协变量,如种族,可以帮助减轻像华盛顿特区这样的异常值的影响。最好是包括所有的数据,以尽可能给出最完整的情况。

我们现在看到,随着一个州拥有学士学位或更高学历的人口的%的增加,特朗普的投票的%就会减少。同时,随着一个州的白人和没有保险的人的百分比增加,特朗普的投票的%也增加。在这些变量存在的情况下,仇恨团体的集中度和该州贫困人口的%不再是预测特朗普投票的重要因素。

在特朗普和共和党控制的国会准备废除《平价医疗法案》(ACA或如共和党所说的奥巴马医改)时,国会预算办公室估计,在众议院版本的法案中,将有2300万美国人失去医疗保险,在参议院版本中,估计将有2200万人失去医疗保险。在这个模型中,各州的未参保率与特朗普的投票呈正相关。特朗普是否认为提高未参保率会增加他们在2020年的选票份额?

贫困与特朗普在2016年的投票没有关系。自2014年ACA生效以来,未参保的估计人数减少,主要是由于医疗补助扩大到最贫穷的人,以及补贴允许低收入者购买健康保险。增加未参保人数可能不会减少特朗普的选票,但也不太可能增加。


Kolabtree帮助全球企业按需雇佣专家。我们的自由职业者已经帮助企业发表研究论文,开发产品,分析数据,以及更多。只需一分钟就可以告诉我们你需要做什么,并免费获得专家的报价。


分享。

关于作者

保罗-里奇是一位统计学家、神经心理学家和数据分析师,常驻美国。他定期为网站 "数据驱动的新闻 "撰写专栏,拥有研究方法学和神经科学的硕士学位,以及生物统计学的硕士学位。

发表回复

值得信赖的自由职业者专家,随时为您的项目提供帮助


世界上最大的科学家自由职业平台  

不,谢谢,我现在不打算雇用。