相関係数

トップページ研究分野と周辺システムの評価

二つのデータ群の関係を見る代表的な指標の一つとして、相関係数がある。ここでは相関係数の式とその意味についてまとめる。
標本調査の相関係数を基に、母集団の相関係数の検定や推定を行なう方法もある。

母相関の検定と推定

共分散

n個のデータx1,x2,...xnがあるとき、(x1+x2+...+xn)/nが平均(相加平均)で、平均をxmとすると、x1-xmをデータx1の偏差(平均からどれだけズレているか)という。
(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの度合いを表す。平均から離れている(=偏差の絶対値が大きい)データが多ければ、ばらつきは大きい事になる(分散の平方根が標準偏差)。
ここで、2種類のデータx1,x2,...xn、y1,y2,...ynがあるとき、共分散という別の量を考える事が出来る。
ちょうど、二次元平面に於ける複数の点のX座標、Y座標の組が2種類のデータの組合せになるので、これを例に用いる。
例えば、三つの点があり、其々の座標が左図のようだったとする。X座標とY座標の平均は其々6、7となるので、これを原点とした座標(仮に「偏差座標」と呼ぶ)に各点を平行移動する。

元の各点の座標が(x1,y1)、(x2,y2)、(x3,y3)だとすると、「偏差座標」に移動後の各点の座標は(x1-xm,y1-ym)、(x2-xm,y2-ym)、(x3-xm,y3-ym)となり、そのまま偏差を表している。
二つのデータ群x1,x2,...xn、y1,y2,...ynの共分散は、以下のように定義される。

ここで、xm,ymはxの平均、yの平均となる。二つのデータ群の対応する値(例えばx1とy1)の偏差の積(偏差積)を求め、そのn個の総和(偏差積和)を個数nで割っている。
この共分散という値は何を示すのだろうか。まず偏差積の意味を、「偏差座標」で考えてみる。

偏差積が+のデータは、「偏差座標」の原点から右上のエリアか、左下のエリアに存在する。
偏差積が-のデータは、原点から右下のエリアか、左上のエリアに存在する。
従って、偏差積和・共分散が+になるのは、右上・左下のエリアに存在するデータが多い事を意味している。逆に-の場合は右下・左上が多い事になる。
共分散が正の場合は、xとyが比例定数が正の比例をする(xが大きければyも大きく、xが小さければyも小さい)傾向が強い事を意味し、共分散が負ならば逆に比例定数が負の比例をする(xが大きければyは小さく、xが小さければyは大きい)傾向が強い事を意味している。これが共分散の一つの解釈となる。

相関係数

上記の三つのデータのx座標の分散は(4×4+(-1)×(-1)+(-3)×(-3))/3=26/3、y座標の分散は(2×2+0×0+(-2)×(-2))/3=8/3となった。
この生データでは、座標値のスケールによって分散値も大きく変わり、「どの程度のばらつきか」という分散本来の意味が分かりにくい。
そこで、標準化という作業を行なう。x座標とy座標の其々の分散値が1となるように、各x座標をα、各y座標をβで割る事とする。
何らかのα、βで割れば、其々の分散値は1となるはずだが、これはどのように求めたらよいか。
x座標で考えると、分散値が1になるはずの三つのx座標に其々αを掛けた結果の分散値が26/3だった事になる。
分散値は(偏差(ここでは「偏差座標」なので座標自体)の自乗の総和÷データ数)だった。
従って、αで割った各座標の分散値(1とした)に比べ、αを掛けた各座標の分散値(26/3)はαの自乗倍になっているはずである。
従って、αの自乗=26/3である事が分かる。y座標も同様に考えて、βの自乗=8/3である事が分かる。

そこで、三つのデータのx座標をα、y座標をβで割った座標での共分散を求め直してみる。
※のところの展開は、αが元のx座標の分散値(26/3)の平方根、βが元のy座標の分散値(8/3)の平方根である事から分母のα、βに其々の標準偏差(分散の平方根)を代入したものである。

この値を、相関係数という。相関係数は、標準化された共分散と言える。

相関と余弦

相関係数(r)は、二つのデータ群、x1,x2,...xnとy1,y2,...ynの関係の強さを表すものと考えられている。
実際、対応するデータが全て等しい場合(x1=y1,x2=y2,...xn=yn)は、以下のように相関係数が1となる。これはy=xの直線に全てのデータが載っている。

二つのデータ群、x1,x2,...xnとy1,y2,...ynは其々ベクトルでもあるので、幾何的に相関係数を考えてみる。
「偏差座標」とは違い、今度は対応させるデータ群を一本のベクトルとして表示するため、座標軸は其々「1番目のデータ」「2番目のデータ」とする(例示した二次元では、二つずつのデータの対比しか出来ない。n個のデータを対比させる場合は、n次元空間のグラフが必要となる。

y=xにデータが乗り、相関係数が1となる場合は、二つのベクトルも重なる。相関が高い程、二つのベクトルの成す角は狭くなりそうである。
二つのベクトルx,yの成す角をθとすると、余弦定理より以下の式が成り立つ。

上の式の右辺、下の式の分子は内積で、x=(x1,x2)、y=(y1,y2)の場合、x1y1+x2y2となる。
相関係数を表す式は、下記のように、cosθと同じになっている(偏差座標として、xm=0、ym=0となるように平行移動させたと考える)。
相関係数の分母はxベクトル、yベクトルの長さの積になっている。分子は両ベクトルの内積になっている。

従って、相関係数(r)はcosθの範囲なので、-1≦r≦1の範囲にあり、ベクトルが一致するときに1、完全に反対向きのとき-1、直交するとき0となる。
元のx座標、y座標で考えると、相関係数が1のときはy=xの右上がりの直線に全てのデータが乗り、-1のときはy=-xの右下がりの曲線に全てのデータが乗る。
相関係数は、xが増えればyも増える、xが増えればyも減る、等の傾向の度合いを表すものと言える。

相関と散布図

相関係数が正であれば、xが増えればyも増え、xが減ればyも減るという比例の関係(正の相関)を示し、相関係数が負であれば逆に反比例の関係(負の相関)を示す。
相関係数の見方としては、絶対値が0.7以上で「強い相関」、0.3以上0.7未満で「弱い相関」、0.3以下で「無相関」と三段階くらいに分けて解釈したりする。
しかし、相関係数が大きくなくても、隠れた相関が存在する場合もある。左図のように(例えば放物線のような)或る曲線、または曲がった直線等に沿ってデータが分布する場合だ。
このような場合は、仮に相関係数が無相関の範囲でも、実は相関がある。相関係数はデータが比例か反比例の傾向にあるかだけを見ているのだ。
また、大体のデータが比例する関係でも、一つ「はずれ値」が存在する事で、相関係数が急激に小さくなってしまう事もある。

統計の教科書等で、「相関係数を出す前に必ず散布図(データを点群で示したもの)を描け」と書いてあるのは、このような理由による。

擬似相関

散布図でも比例、又は反比例の関係が認められ、高い相関係数が出た場合でも、実は相関が無い場合がある。
よく説明に使われる例に、「人口と二つの商品の売れ行き」が挙げられる。
様々な都市ごとに、商品Aと商品Bの売れ行きを調べたとする。「Aの売れ行き」と「Bの売れ行き」は相関係数が高いとしても、それは都市の人口という第三の要因によるものかもしれない。
人口が多ければ、商品の売れ行きは何でも多くなってくるので、「Aを買う人はBも買う」といった、AとBの間の特別な関係を示すとは言えない。
これを擬似相関と呼び、背景知識に照らした解釈により、本物の相関とは区別しなければならない。