回帰分析と検定方法の概要をまとめてみた

統計学は必須。学問としてだけでなく、アンケート結果の分析とか流行りの機械学習とかデータ解析とか、様々な分野で用いられているので、実務にもかかわってきます。

テレビとか見てると、母集団を示しもせず、誤解をわざと生むような調査結果を出したりしますが、統計学を知らない人はすんなりと信じてしまうわけです。無知は怖いですね。

というわけで、いつも通りメモっておきます。

スポンサーリンク

用語

母数

母集団の特性を表すパラメータ

母平均

\( \mu = E[X] \)

母分散

\( \sigma^2 = Var[X] = E[(X-E[X])^2] \)

母標準偏差

\( \sigma = \sqrt{\sigma^2} \)

統計量

無作為標本 \( X_1, \ldots, X_n \) の関数

推定量

推定に用いられる統計量

標本平均

母平均の推定

\( \overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \)

不偏分散

\( S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i – \overline{X})^2 \)

標準誤差

推定量の標準偏差

標準偏差とは母標準偏差を指すので注意。

不偏性

推定量に偏り (バイアス) がないこと。

例えば、母平均 \( \mu \) を推定量 \( \hat{\mu} \) で推定するとき

\[ E[\hat{\mu}] = \mu \]

ならば不偏といえる。

一致性

標本サイズを大きくすると推定量が推定対象の母数に確率的に収束すること。

有効性

推定量の分散が大きいこと。

共分散

共分散の符号は二変数間の関係を表している。

母共分散

\( Cov(X, Y) = \sigma_{XY} = E[(X – E[X])(Y – E[Y])] \)

標本共分散

\( S_{XY} = \frac{1}{n-1} \sum_{i=1}^{n} (X_i – \overline{X})(Y_i – \overline{Y})\)

相関係数

相関係数の符号は共分散の符号と同様に二変数の関係を表し、相関係数の大きさは相関の強さを表している。

ただし、相関係数が小さくても二変数間に関係がないとは言えないので注意。

母相関係数

\( \rho_{XY} = \frac{\sigma_{XY}}{\sigma_X \sigma_Y} \)

(\( -1 \le \rho_{XY} \le 1 \))

標本相関係数

\( r_{XY} = \frac{S_{XY}}{S_X S_Y} \)

(\( -1 \le S_{XY} \le 1 \))

正規分布

密度関数

平均 \( \mu \), 分散 \( \sigma^2 \) のとき

\[ f_X(x) = \frac{1}{\sqrt{2\pi\sigma^2}} exp\left(-\frac{(x – \mu)^2}{2\sigma^2}\right) \]

と表す。確率変数 \( X \) がこの正規分布に従うとき \( X\sim N(\mu, \sigma^2) \) と書く。

標準正規分布

\( X\sim N(0, 1) \) である正規分布

単回帰モデル

\(X_1, \ldots X_n, \, Y_1, \ldots, Y_n\) 間に仮定される線形関係を数式化したもの。\( X \) を用いて \( Y \) を説明することを \( Y \) を \( X \) で回帰するという。

\[ Y_i = \alpha + \beta X_i + u_i ~ (i = 1, \ldots, n) \]

  • \(X\):説明変数、独立変数
  • \(Y\):被説明変数、従属変数
  • \( \alpha, \, \beta \):回帰係数
  • \( u \):誤差項、攪乱項

古典的仮定

回帰分析には以下の 5 つの仮定が必要である。

  1. 説明変数は確率変数ではない
  2. 誤差項の期待値は 0
  3. 誤差項の分散は一定
  4. 誤差項は互いに無相関
  5. 誤差項は正規分布に従う

仮定 2 について、\( E[u_i] = c \) であるとき

\[ Y_i = \alpha + \beta X_i + u_i = (\alpha + c) + \beta X_i + (u_i \, – \, c) \]

と表すことができるので、期待値一定でも満たされる。

また、仮定 4 について、無相関という条件だけでは誤差項が互いに独立とは言えないが、仮定 5 より正規分布に従う確率変数が無相関であるならば、誤差項は互いに独立ということができる。

最小二乗法

(Ordinary Least Squares)

残差二乗和を最小化することで回帰係数を導出する方法。

残差二乗和

(RSS, Residual Sum of Squares)

回帰係数の推定量をそれぞれ \( \hat{\alpha}, ~ \hat{\beta} \) としたとき、残差 \( \hat{u_i} = Y_i \, – \, \hat{\alpha} \, – \, \hat{\beta} X_i \) の二乗を全データで足し合わせたもの。

\[ \sum_{i=1}^{n} \hat{u_i} = \sum_{i=1}^{n} (Y_i \, – \, \hat{\alpha} \, – \, \hat{\beta} X_i)^2 \]

正規方程式

RSS を \( \hat{\alpha} , ~ \hat{\beta} \) で偏微分し、0 とおいた式。

例えば、\( \hat{\alpha} \) について

\[ \frac{\partial}{\partial \hat{\alpha}} \sum \hat{u_i}^2 = -2 \sum (Y_i \, – \, \hat{\alpha} \, – \, \hat{\beta} X_i) = 0 \]

\( \hat{\beta} \) についても同様に求めて整理すると

\begin{eqnarray} n \hat{\alpha} + \hat{\beta} \sum X_i & = & \sum Y_i \\ \hat{\alpha} \sum X_i + \hat{\beta} \sum X_i^2 & = & \sum X_i Y_i \end{eqnarray}

この二式より

\[ \hat{\alpha} = \overline{Y} \, – \, \hat{\beta} \overline{X} \]

\[ \hat{\beta} = \frac{\sum X_i Y_i \, – \, \overline{Y} \sum X_i }{\sum X_i^2 \, – \, \overline{X} \sum X_i } \]

ここで

\begin{eqnarray} \sum X_i Y_i \, – \, \overline{Y} \sum X_i & = & \sum X_i(Y_i \, – \, \overline{Y}) \\ & = & \sum (X_i \, – \, \overline{X})(Y_i \, – \, \overline{Y}) \\ & = & \sum (X_i \, – \, \overline{X})Y_i \end{eqnarray}

\begin{eqnarray} \sum X_i^2 \, – \, \overline{X} \sum X_i & = & \sum X_i(X_i \, – \, \overline{X}) \\ & = & \sum (X_i \, – \, \overline{X})^2 \end{eqnarray}

なので

\[ \hat{\beta} = \frac{ \sum(X_i \, – \, \overline{X})Y_i }{ \sum (X_i \, – \, \overline{X})^2 } = \frac{S_{XY}}{{S_X}^2} \]

回帰直線

以上のようにして推定される直線 \( Y = \hat{\alpha} + \hat{\beta} \overline{X} \)

理論値・予測値

回帰直線に新たな独立変数を代入することによって得られる値

\[ \hat{Y_i} = \hat{\alpha} + \hat{\beta} X_i \]

また、残差は次のように表すことができる。

\[ \hat{u_i} = Y_i \, – \, \hat{Y_i} \]

残差の性質

  1. 残差の総和は 0
  2. 説明変数と残差の積の総和は 0
  3. 理論値と残差の積の総和は 0

決定係数

\(Y_i\) の変動を \(X_i\) で完全に説明できた場合、残差 \( \hat{u_i} \) はすべて 0 になる。反対に、全く説明できない場合、理論値は \(X_i\) に依らず一定 \( \overline{Y} \) となる。この性質を用いて、\(Y_i\) の変動をどれだけ説明できているのかを指標にする。

  • 全変動 (Total Sum of Squares):\( \sum_{i=1}^{n} (Y_i \, – \, \overline{Y} )^2 \)
  • 説明された変動 (Explained Sum of Squares):\( \sum_{i=1}^{n} ( \hat{Y_i} \, – \, \overline{Y} )^2 \)

ここで \( Y_i = \hat{Y_i} + \hat{u_i} \) より

\begin{eqnarray} \sum (Y_i \, – \, \overline{Y})^2 & = & \sum (\hat{Y_i} \, – \, \overline{Y} + \hat{u_i})^2 \\ & = & \sum ( \hat{Y_i} \, – \, \overline{Y} )^2 + \sum u_i^2 \end{eqnarray}

と書けることから、TSS = ESS + RSS である。

このとき、決定係数 \( R^2 \) は

\[ R^2 = \frac{ESS}{TSS} = 1 \, – \, \frac{RSS}{TSS} ~~ (0 \le R^2 \le 1)\]

最小二乗推定量の期待値と分散

\[ \hat{\beta} = \frac{ \sum(X_i \, – \, \overline{X})Y_i }{ \sum (X_i \, – \, \overline{X})^2 } = \beta + \frac{ \sum(X_i \, – \, \overline{X})u_i }{ \sum (X_i \, – \, \overline{X})^2 } \]

\[ \hat{\alpha} = \overline{Y} \, – \, \hat{\beta} \overline{X} = \alpha + \sum\left( \frac{1}{n} \, – \, \frac{ \overline{X}(X_i \, – \, \overline{X}) }{ \sum (X_i \, – \, \overline{X})^2 } \right)u_i \]

と書け、第二項は推定誤差。よって、仮定 1, 2 より期待値は

\[ E[\hat{\beta}] = \beta, ~ E[\hat{\alpha}] = \alpha \]

であり、最小二乗推定量 \( \hat{\alpha}, \hat{\beta} \) は不偏推定量。

次に、仮定 1 ~ 4 より分散は

\[ {\sigma_{ \hat{\beta} }}^2 = \frac{ \sigma^2 }{ \sum(X_i \, – \, \overline{X})^2 } \]

\[ {\sigma_{ \hat{\alpha} }}^2 = \frac{ \sigma^2 \sum X_i^2 }{ n \sum(X_i \, – \, \overline{X})^2 } \]

標本サイズ \(n\) が大きくなるほど最小二乗推定量の分散が小さくなるため、推定の精度が上がる。

最良線形不偏推定量

(Best Linear Unbiased Estimator)

推定量 \( \hat{\theta} \) を被説明変数を用いて

\[ \hat{\theta} = c_0 + \sum_{i=1}^{n} c_i Y_i \]

という線形関数で表せるとき、\( \hat{\theta} \) を線形推定量という。また、線形推定量が不偏であるとき、線形不偏推定量という。

\( \hat{\alpha}, ~ \hat{\beta} \) ともに上式の形で表せることから、最小二乗推定量は最良線形不偏推定量である。ここでの最良とは最小分散であることを指す。

分散の推定

最小二乗推定量の分散には未知である \(u_i, ~ \sigma^2 \) が含まれているため、誤差 \(u_i \) の代わりに残差 \( \hat{u_i} \) を用いて分散を推定する。

\begin{eqnarray} E \left[(\hat{\beta} \, – \, \beta) \sum_{i=1}^{n} X_i u_i \right] & = & E \left[ \frac{ \sum_{j=1}^{n} \sum_{i=1}^{n} (X_j \, – \, \overline{X}) X_i u_j u_i }{ \sum_{j=1}^{n} (X_j \, – \, \overline{X})^2 } \right] \\ & = & \frac{ \sum_{j=1}^{n} \sum_{i=1}^{n} (X_j \, – \, \overline{X}) X_i E[u_j u_i] }{ \sum_{j=1}^{n} (X_j \, – \, \overline{X})^2 } \\ & = & \frac{ \sum_{j=1}^{n} (X_j \, – \, \overline{X}) X_j E[u_j^2] }{ \sum_{j=1}^{n} (X_j \, – \, \overline{X})^2 } \\ & = & \frac{ \sigma^2 \sum_{j=1}^{n} (X_j \, – \, \overline{X}) X_j }{ \sum_{j=1}^{n} (X_j \, – \, \overline{X})^2 } \\ & = & \sigma^2 \end{eqnarray}

同様に

\[ E \left[ (\hat{\alpha} \, – \, \alpha) \sum_{i=1}^{n} u_i \right] = \sigma^2 \]

RSS の期待値は

\begin{eqnarray} E \left[\sum \hat{u_i^2} \right] & = & E \left[\sum (Y_i \, – \, \hat{Y_i}) \hat{u_i} \right] \\ & = & E \left[\sum (\alpha + \beta X_i + u_i \, – \, \hat{Y_i}) \hat{u_i} \right] \\ & = & E \left[\alpha \sum \hat{u_i} + \beta \sum X_i \hat{u_i} + \sum u_i \hat{u_i} \, – \, \sum Y_i \hat{u_i} \right] \\ & = & E \left[u_i \hat{u_i} \right] \\ & = & E \left[\sum u_i (Y_i \, – \, \hat{Y_i}) \right] \\ & = & E \left[ \sum u_i { (\alpha + \beta X_i + u_i) \, – \, (\hat{alpha} + \hat{\beta} X_i) } \right] \\ & = & E \left[\sum {u_i^2 \, – \, (\hat{\alpha} \, – \, \alpha)u_i – (\hat{\beta} \, – \, \beta) X_i u_i} \right] \\ & = & E \left[ \sum u_i^2 \right] \, – \, E \left[ (\hat{\alpha} \, – \, \alpha) \sum u_i \right] \, – \, E \left[ (\hat{\beta} \, – \, \beta) \sum X_i u_i \right] \\ & = & (n-2) \sigma^2 \end{eqnarray}

よって分散の推定量 \(S^2\) は

\[ S^2 = \frac{1}{n-2} \sum u_i^2 \]

であり、これは \(\sigma^2\) の不偏推定量。

仮説検定

パラメータ \( \beta \) がある値 \( \beta_0 \) と等しいか検定したいとき、帰無仮説 \( H_0 \) 、対立仮説 \( H_1 \) を立てて検定を行う。

\[ H_0 \colon \beta = \beta_0 \]

\[ H_1 \colon \beta \neq \beta_0 \]


以降、執筆中


重回帰モデル

多重共線性

説明変数の過不足

スポンサーリンク

コメント・質問する