Distributions#
Prediction Distribution#
Observed-Predicted Plot(yyplot)とも呼ばれる。サンプルごとの予測値(X軸)と観測値(Y軸)をプロットしたもの。両者が一致していれば赤の数直線上に乗ることになる。数直線上から大きく乖離しているプロットを確認したり、全体として予測値が観測値に近いかどうかを判断することができる。
Note
Prediction Distribution は回帰の場合にのみ求めることができる。

Fig. 38 Prediction Distribution の例。値が大きいところで乖離があるのがわかる。#
Residual Distribution#
Note
Residual Distribution は回帰の場合にのみ求めることができる。
日本語で残差分布と呼ばれる。X軸の Prediction residuals
は、サンプルごとの残差(予測値と観測値の差分、正負の値の両方を取る)であり、このヒストグラムとなっている。

Fig. 39 Residual Distribution の例。0近辺で正規分布に近い形を形成しているが、裾の長い分布となってしまっている。#
残差と誤差の違い#
ここで注意したいのは誤差と残差の違いである。
統計分析では、観測されているデータは、何らかのモデルの母集団から得られたものと考える。そして誤差とは、この母集団の値(つまり真の値)と観測観測値のズレを指す。ただし、真の値を決して知ることはできないので、実際には誤差を求めることはできない。
一方残差は、推定したモデルによる予測値と観測値との誤差なので導出することが可能なのである。
また、1口に誤差といっても、実は2種類の誤差が混ざったものとなっている。
系統誤差:一定の介入や要因によって生じる一方向へのズレ。
偶然誤差:たまたま生じた誤差。この誤差を取り除くことは不可能。
偶然誤差は、その名の通り偶然生じる誤差であるが、その分布が正規分布に従うという特徴を持つ。すなわち(絶対値の)小さい誤差は、大きい誤差よりも多く起こり、特に非常に大きな誤差が生まれる可能性は極めて小さい傾向を持っていることになる。
残差が正規分布に従うことの意味#
推定したモデルによって求められた残差の分布が正規分布に近いと、偶然誤差とほぼ同一視することができる。これは推定したモデルによって系統誤差が取り除かれ、偶然誤差のみを持つモデルであると考えることができる。
そして、系統誤差が取り除かれるということは、推定したモデルに使用した特徴量によって観測値をよく説明できているということになる。逆に言うと、
Note
残差が正規分布とかけ離れている場合、現在の特徴量でモデルを説明しきれていないことを示している。
推定したモデル(に使用した特徴量)が観測値をよく説明できているか、これを確認するためにこの Residual Distribution がチェックされるのである。
Residuals Distribution#
Note
Residuals Distribution は回帰の場合にのみ求めることができる。
先ほどの residual distribution と名前が似ているが、こちらは distribution というより plot と考えた方がよい。X軸には予測値、Y軸に Standardized Residuals(標準化残差)をとったサンプルのプロットである。
標準化残差は、生の残差を推定量の標準誤差で割ったものである。残差が回帰モデルの周囲に正規分布していれば、標準化残差の約 66% は、-1 から +1 の間の値をとり、標準化残差の約 95% は、-2 から +2 の間の値をとることになる。標準化残差の値が大きいほど、その点は回帰モデルから大きく乖離していることを示す。その意味で値が -2.5 より小さい場合、もしくは、2.5 より大きい場合は、そのケースが外れ値である可能性がある。

Fig. 40 Residuals Distribution(Plot)の例。予測値が小さいところでは、標準化誤差が±2以内で分布しているように見える。一方、値が大きくなってくると標準化誤差のブレが大きくなっているのを確認できる。#