不偏分散

トップページ研究分野と周辺システムの評価

分散は、各データの偏差の自乗の総和をデータの個数で割ったものだが、標本分散は(個数−1)で割った不偏分散が用いられる。
何故、データの個数がnである場合に、n-1で割るのだろうか。

期待値

高校までに習ったように、期待値は確率と確率変数を掛けたものの総和である。
例えばサイコロの場合、各目の出る確率は其々1/6で、確率変数は各目の数(1〜6)だから、期待値は1×1/6+2×1/6+3×1/6+4×1/6+5×1/6+6×1/6=3.5となる。
サイコロを3回降って、出た目が1,3,5だったとする。これはサイコロを多数振って出た目を集めた「母集団」から、3つの標本を取ったと考える事も出来る。
この3回の平均値は(1+3+5)/3=3となって、期待値とは異なる。三回とも1が出たら平均も1で、期待値(3.5)とはかなり違う。
では、サイコロを無限回振ったらどうなるか。出る目の割合はどれも等しくなり、平均値は3.5となり、期待値と一致する事が直感的にも予想出来る。
なお、確率変数Xの期待値は、E[X]と表記するのが一般的である。

期待値の線形性

数学的には、期待値は積分によって定義され、以下の性質(線形性)を持つ事が分かっている。

一つの標本値の期待値

母集団から、一つの標本を取る事を繰り返して行くと、様々な標本値の履歴の平均はどの値に近づいて行くだろうか。
仮に母集団が(1,1,2,3,4,4,5,5,5,6)だったとする。母集団から一つの要素が選ばれる確率は同じだが、同じ数字が重複してあるので、一つの数字が選ばれる確率は個数に比例する。
この母集団の場合、平均は(1+1+2+3+4+4+5+5+5+6)/10=3.6となる。
一つの標本を無限回取れば、サイコロの場合と同様に、標本値の履歴の平均は母集団の平均(母平均)と一致する。

標本平均の期待値

今度は、母集団から標本をn個取る事を繰り返したとき、標本平均の履歴の平均は、どの値に近づくかを考える。
標本値をx1,x2,...xn、標本平均をバーx、母平均をμとすると、以下のように、標本平均の期待値も母平均である事が分かる(一つの標本値の期待値が母平均である事を利用)。

一つの標本値と母平均の差の自乗の期待値

母集団から標本を一つ取り、標本値をXとした時、母平均と標本値の差(X−μ)の自乗を計算する。これを繰り返したとき、(X−μ)の自乗の履歴の平均値はどんな値に近づくだろうか。
母集団の全ての要素について、(X−μ)の自乗を計算した場合の平均値に近づくだろう。これは母分散(σの自乗で表記する場合が多い)に他ならない。
従って、以下の式が成り立つ。

分散の性質

確率変数Xの分散をV[X]と表記する場合が多い。分散はXの散らばり具合だから、Xに定数cを加えても、cの幅だけ横に平行移動するだけで散らばり具合は変わらない。
従って、V[X+c]=V[X]という性質がある(定数は散らばらないので、V[c]=0)。
Xに定数cを掛けた場合はどうなるだろうか。分散は(各データ(確率変数)の偏差の自乗和÷データ数)だから、各データがc倍されたら、分散はcの自乗倍になる。
従って、V[cX]=ccV[X](ccはcの自乗)となる。
また、XとYが独立(発生確率がお互いに影響を受けない)の確率変数の場合、V[X+Y]=V[X]+V[Y]となる事も分かっている(互いにランダムに標本変数を選ぶ正規分布を二つ考えて、双方の標本値の和の散らばり方を考えれば納得出来るだろう)。

標本平均と母平均の差の自乗の期待値

母集団から標本をn個取り、標本平均をXmとした時、母平均と標本平均の差(Xm−μ)の自乗を計算する。この繰返しで、(Xm−μ)の自乗の履歴の平均値はどんな値に近づくだろうか。
(Xm−μ)の自乗の履歴の平均値とは、Xmの分散に他ならない。Xm(以下ではバーX)は標本の平均値だから以下のようになる。

V[X]=σの自乗、となるのは、上記の一つの標本値と母平均の差の自乗の期待値(一つの標本値の分散)だから。例えばV[X1+X2]=V[X1]+V[X2]と分解出来るのは、標本値は其々互いに独立に母集団から選ばれているからである。
これが、標本平均の分散(統計の基本事項に記載)が母分散をnで割る事になる理由である。従って、以下の式が成立する。

偏差の自乗和をnで割った標本分散の期待値

単純に分散の定義に従い、n個の各標本値と標本平均の差の自乗和をnで割った標本分散の期待値はどうなるだろうか。
標本分散をSの自乗とすると、これを母分散と比較するために、以下の展開を行なう。

既に期待値が分かっている量に分解するため、以下の展開を行なう。

これで第1項、第3項は期待値の分かっている量になった。第2項も期待値の分かっている量で表現するため、以下の展開を行なう。

※印の展開は、標本平均と母平均は固定的な値なので、Σの外に出せるからである。変形された第2項を元の式に戻すと、結局、標本分散は以下のようになる。

この標本分散の期待値を求める。期待値の線形性を利用して、以下のように展開出来る。既に期待値が分かっているところに代入すると、以下の結果になる。
標本分散の期待値は、母分散とは異なるものになった。

不偏分散

この期待値を母分散(σの自乗)に一致させるには、係数の逆数を標本分散を求めた式に掛けてやればよい。

このように、各標本値と標本平均の差の自乗を、(標本数−1)で割った分散を不偏分散といい、その期待値は母分散と一致する。
標本は、母集団からランダムに取り出したものなので偏りを含んでいる。その偏りを除いて、母分散に近づいていく分散という意味で不偏分散と呼ばれている。