母相関の検定と推定

トップページ研究分野と周辺システムの評価相関係数

標本調査で相関係数を求めても、その値は母集団の相関係数とは違う場合が多い。
サンプル数が少ないと、たまたま高い相関係数が得られても、母集団では無相関である事もあり得る。
しかし、標本の相関係数から母相関係数を検定したり、推定したり出来る。

無相関の検定

これは、「母相関係数が0(無相関)である」との仮定(帰無仮説)を立て、標本相関係数の値から、帰無仮説の成立する確率が低い(5%或いは1%以下等)か否かを調べる。
低ければ、帰無仮説は棄却され、「母相関係数は0(無相関)ではない」という対立仮説を採択する。
母相関係数(pとする)が0の場合は、標本相関係数(r)から求めた以下の値(t)は、自由度n-2のt分布に従う事が分かっている(nは標本数)。

t分布表で、設定した危険率(5%)と自由度の該当する値を見て、上記のt値の絶対値がそれより大きければ帰無仮説は棄却、小さければ棄却されない。
母集団に於いても「相関が無いとは言え無い」事が保証される事で、標本集団の相関係数にも説得力が生ずる。

フィッシャーのZ変換

標本相関係数の値から、母相関係数が例えば95%の確率でこの範囲にある、といった区間推定が可能になる。
この準備として、まず標本相関係数(r)と母相関係数(値は分からないがpとする)を、以下のフィッシャーのZ変換と呼ばれる関数(zとする)に代入して関数値を求める。
なお、このフィッシャーのZ変換は、逆双曲線正接関数(arctanh)に他ならない。また、loge(自然対数)はlnと書かれている場合も多い。
仮に、ここではz(r)=rz、z(p)=pzと表記する。

標本相関係数のZ変換値の分布

ここでrzと呼ぶ値は、標本数nが大きい値(およそ10以上)であれば、近似的に下図のように中心がpz、分散が1/(n-3)の正規分布に従う事が分かっている。
標準化するため、rzからpzを引き、それを分散1/(n-3)の平方根で割った値は、平均0、分散1の正規分布に従う。

母相関係数の区間推定

標準化されたrz値が標準正規分布の(1-危険率)の範囲にあると仮定して、その不等式から、逆に母相関係数が(1-危険率)の確率で存在する範囲を求める。
危険率5%とすると、標準正規分布では、-1.96~1.96の範囲に全データの約95%が存在している。
従って、以下のような不等式(1)を置き、pzを絞り出すために、不等式(2)に変形する。

これで、pzの95%信頼区間(95%の確率で存在する区間)が求められた。
求めたいのは母相関係数(p)の95%信頼区間なので、pzをpに戻さなければならない。pz=z(p)だから、zの逆関数を使えばよい。
逆関数とはy=f1(x)のとき、x=f2(y)となるf1とf2の事で、グラフにすると両者はy=xに対して線対称になる。
ここで、zは逆双曲線正接関数(arctanh)だから、逆関数は双曲線正接関数(tanh)となり、以下の式で与えられる(zの右上の-1はzの逆関数である事を示す。eは自然対数の底)。

e(≒2.718)の2x乗は、xが大きいほど大きくなる。また、(a-1)/(a+1)はaが大きいほど大きくなる(試しに二つぐらいaに代入してみると分かる)。
従って、不等式(2)の三辺を其々、以下のようにZ変換の逆関数に通しても不等号の向きは変わらない。
これで、標本の相関係数から、母相関係数の信頼区間が求められる。