回帰モデルの外れ値を補正する方法。トランプ大統領の投票に人種、教育、無保険者を使った例

0

この記事は、サイト内の私のコラムに掲載されたものです。 データ駆動型ジャーナリズム.

私の中で 前回の記事で、回帰の方法についてお話しました。 can be a useful tool to tease apart the different relationships between correlational variables. I also talked about how outliers can be problematic. One way of dealing with an outlier is simply to delete it from the analysis. Doing so decreases statistical けんせい (the probability of finding significant predictor when it does exist) and removes potentially valuable information from the model. It could be a more fruitful endeavor as valuable information can be gained. I did this in my post on how Washington, DC differs from the other 列国 and it did give me an idea for another covariate that should be considered in addition the ones already considered: concentration of hate groups, % uninsured, % with a bachelor’s degree or higher, and % in poverty.

私の中で 異常値としてのワシントンDCの特徴に関する投稿 I found that it is the least ホワイト compared to any of the states considered. Only 40.2% of the districts population identifies as white or Caucasian there. Only Hawaii had a smaller % white at 25.4%. In the exit poll for last year’s election, 60% of white 女性 without a college education voted for Trump while 71% of white males without a college education did. 74% of nonwhites voted for Clinton.

それをモデルに加えることで、DCを含めたモデルの精度が大幅に向上し、トランプ票の変動の78.5%が説明された。ヘイトグループと%貧困の変数は有意ではなく、モデルに入れると統計的検出力が低下するため除外した。%学士、%白人、%無保険の変数は有意(p値が0.05未満であることを意味する...今後の記事で説明する)で、その他は有意でなかった。ほとんどの統計パッケージの出力です。

78.5%の変動幅

りょうしょうずみ

係数

標準誤差

Tスタット

P値

95%

アッパー

95%

インターセプト

51.55

8.92

5.78

5.75E-07

33.61

69.48

%学士号

以上

-1.11

0.15

-7.55

1.2E-09

-1.41

-0.82

% ホワイト

0.31

0.06

4.95

1.01E-05

0.18

0.43

% 保険未加入

0.74

0.26

2.86

0.006319

0.22

1.26

係数」と書かれた欄には、以前の記事で綴った回帰式の推定値が記載されています。現在の式はこうなっています。

トランプ %の得票=51.55-1.11*(%学士)+0.31*(%白人)+0.74*(%無保険者)

This says that when all of the covariates are equal to zero, Trump is predicted to have 51.55% of the vote. For every 1% increase in the % bachelors there is an estimated 1.11% decrease in Trumps vote. For every 1% increase in the % white population in the 状態 there is an estimated increase of 0.31% and for every 1% increase in the % uninsured in the state.

標準誤差と書かれた列は、係数の不確かさの推定値である。t stat "とラベル付けされた列は、係数がゼロから有意に異なるかどうかを決定するための検定統計量である。p値」は、真の係数がゼロであるときに、この推定係数を観測する推定確率である。慣習的に、p値が0.05より小さいとき、我々は真の係数がゼロと異なると結論づける。最後の2列は、係数の95%信頼区間の上界と下界を示す。信頼区間は、推定がなされた時間のうち95%は、真の係数が上限と下限の間にあることを意味します。この場合、もし上下限がゼロをまたがなければ、それは係数がゼロから有意に異なることと等しい。

上の散布図は、%独身者と%無保険者を調整したモデルについて、%白人と%トランプの実績値(青菱)と予測値(赤四角)を示したものである。コロンビア特別区(DC)とハワイ州の実績値と予測値は非常に近く、適合度が高いことがうかがえる。バーモント州の青い菱形の真上にあるように、トランプ氏の実際の投票が予測値より10%低いのである。

The scatter plot for % bachelor’s degree or higher suggests that the fit is not as good as it is for the one for % white as the predictor. This is reflected in the greater standard error for this predictor (0.15) than for % white (0.06). The prediction for DC is not as good for this predictor as it has the highest. The 動向 is still significant in the negative direction.

%の無保険者を予測因子とした散布図では、トランプの%の得票に対してさらに適合度が低いことがわかる。他の多くの州の中でもDCとアラスカはこの予測変数の適合性が低い点である。この予測変数の標準誤差は,まだ統計的に有意であるにもかかわらず,他の予測変数の適合度(0.26)をさらに低く示している.

重回帰は、正しく実施されれば、特定の結果に対する予測変数間の関係を明らかにするための強力なツールとなる可能性があります。人種などの適切な共変数を加えることで、ワシントンDCのような異常値の影響を緩和することができる。可能な限り完全なイメージを与えるために、すべてのデータを含めることは常に良いことです。

学士号以上の人口が増えるほど、トランプ氏への投票率は下がることがわかります。同時に、ある州の白人と無保険者の割合が増えると、トランプの得票の%は増加する。これらの変数がある場合、ヘイトグループの集中度や貧困状態の州の%は、もはやトランプの票の有意な予測因子ではない。

As Trump and the Republican controlled congress prepare to repeal the Affordable Care Act (ACA or as the GOP says Obamacare), the Congressional Budget Office estimates that 23 million Americans will lose their 健康 insurance in the House version of the bill and an estimated 22 million will lose it in the Senate version. In this model the uninsured rate in each state is positively correlated with Trump’s vote. Does Trump believe that increasing the uninsured rate will increase their share of the vote in 2020?

2016年のトランプ氏の投票に貧困は関連していない。2014年にACAが施行されて以来、保険未加入者の推計値が減少したのは、貧困層に対するメディケイドの拡大や低所得者が医療保険に加入できるようにする補助金によるものがほとんどである。無保険者を増やしても、トランプ氏の票は減らないかもしれないが、増えることはまずない。


Kolabtreeは、世界中の企業がオンデマンドで専門家を雇用できるよう支援します。私たちのフリーランサーは、企業の出版を支援してきました リサーチ 書類製品開発、データ解析など、さまざまな業務に対応します。1分ほどで、お客様のご要望をお聞かせいただき、専門家によるお見積りを無料でお受けしています。


共有しています。

著者について

ポール・リッチは、統計学者、神経心理学者、データアナリストとして米国を拠点に活動しています。研究方法論と神経科学の修士号、および生物統計学の修士号を取得。

返信を残す