Xtra etc

日記系雑記ブログ: 農業、データサイエンス、自然

回帰分析における当てはめ精度の評価方法

回帰分析では関係式による元データの当てはめの良し悪しを評価する必要があります。

そのため、いくつかの指標を用います。

相関係数

相関係数は 2 つの変数の線形な関係性を示しています。値の範囲は  -1 以上  1 以下です。相関係数が正の値の場合、2 つの変数に正の相関があります。負の値の場合は負の  0 のときには無相関です。

相関係数の求め方は、次の通りです。

変数  x,  y のデータが  n 組あるとします。つまり、

 \displaystyle
(x_1, y_1), (x_2, y_2),\cdots, (x_n, y_n)

です。このとき、 x,  y相関係数は次の式で求められます。

 \displaystyle
r_{xy}= \frac{\sum\nolimits_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum\nolimits_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum\nolimits_{i=1}^n(y_i-\bar{y})^2}}

 \bar{x} \bar{y} はそれぞれの平均値です。

決定係数

決定係数は相関係数の二乗で、  R^2 と記述されます。決定係数とは、説明変数が目的変数を説明できる程度です。寄与率とも言います。 1 に近いほど、相対的な残渣が小さいことを意味します。

t 検定

t 検定は 2 つのデータの平均値に有意な差があるかどうかを評価します。ある説明変数に対する t 値が  95 \% 信頼区間にある場合を「有意水準  5 \%」と言います。説明変数の判定にしばしば用いられます。

F 検定

F 検定は、F 分布を利用して 2 つのデータの分布が等しいかどうか (等分散) の検定を行います。ある説明変数に対する F 値が  95 \% の信頼区間外にある場合を「有意水準  5 \%」と言って、よく用いられる水準です。2 つのデータ間で t 検定を行うこと際には 2 つのデータ等分散でなければなりません。そのために用いられるのが t 検定です。

p-値

p 値 (有意確率) は、データから計算された統計量よりも極端な統計量が観測される確率を表します。有意水準としてよく用いられるのは  1 \% 5 \% 10 \% などです。慣例的には p 値が  0.05 未満 ( 5 \% 有意) であれば、その説明変数が目的変数の説明に有効であると判断されます。

参考文献

【TeX】%(パーセント)記号を出力する - Muni Bus