統計の基本事項

トップページ研究分野と周辺システムの評価

基本統計量

平均(算術平均)値は、(データ値の総和)÷(データ数)となる。(或るデータの値)-(平均値)を、そのデータの偏差という。偏差の絶対値の大きいデータが多ければ、そのデータ群はばらつきが大きい。データ群のばらつきの大きさを単純に偏差の総和とすると、偏差には正負があるので相殺されてしまう。
そこで、各データの偏差を二乗する(こうすれば必ず正の値になる)。(各データの偏差の二乗の総和)÷(データ数)をそのデータ群の分散と呼び、ばらつきの大きさを表す。また、分散の平方根を標準偏差という。英語では偏差はDeviation、分散はVariance、標準偏差はStandard Deviationとなるので、標準偏差はS.D.と略記される事も多い。
統計の最も基本的な量である基本統計量としては、他に最大値、最小値、範囲(最大値-最小値)、中央値(データを大きさ順等に並べた時、真ん中に来るデータの値)、最頻値(データ群の中で最もデータ数の多い値)等がある。

確率分布

例えばサイコロを振った時の出る目(1~6)を確率変数といい、P(確率変数)でその確率変数が現れる確率を示す。各確率変数の出現確率を並べたものを、確率分布(Probability Distribution)という。サイコロのように確率変数が整数だけ等の飛び飛びの値を取る確率分布を離散型確率分布という。
これに対し、小数点以下何桁までも無限に続く数字を考えた場合、ぴったり或る数字が現れる確率は0%となる。例えば3000の周囲には、3000.0001・・・や2999.99999・・・等の無数の数がひしめき、或る特定の値を取る確率は、1/∞(無限大)となるからである。この様に、確率変数が連続した値を取る確率分布を連続型確率分布という。
連続型確率分布では、一つの値が出る確率は0%だが、或る範囲の出現確率は図のように積分によって求められる。図の山型全体の面積は全ての確率変数のどれかが出る確率、つまり100%=1になる。或る範囲の確率変数の出現確率を与える被積分関数、f(x)を確率密度関数と呼ぶ。

連続型確率分布の図解

正規分布

標準正規分布(Standard Normal Distribution)は、以下の確率密度関数、f(x)による確率分布である。eは自然対数の底(ネイピア数=約2.718)を表す。確率変数は-∞から+∞まであらゆる値をとる。積分計算の途中は省略するが、標準正規分布に従う無数の確率変数の平均値(M)は0、分散(V)は1となる。
標準正規分布に従う全ての確率変数に一定数σを掛けて、一定数μを加えた確率変数群は、平均値がμ、分散がσの二乗をとる確率分布(一般正規分布)に従う。
一定の確率で起きる事象Aがあるとき、N回の試行でAが何回起きるかの確率分布(離散型確率分布となる)を二項分布と呼ぶ。正規分布は、二項分布から数学的に導出出来る。正規分布の重要性は、多くの誤差を伴う現象がこの分布で近似出来る処にある。標準と一般を問わず、平均値の左右標準偏差一つ分の値の範囲に約68%、二つ分の範囲に約95%の確率変数が収まる(この確率密度関数の性質)。
ここで、例えば約95%の範囲に入る確率変数を「普通の値」、それ以外を「珍しい値」と区別出来る。この様な区別が有意差を検出する上で重要な役割を果たす。

正規分布の図解

母集団と標本

大量の集団から一定数を選んで行なう調査を標本調査という。選んだ対象を標本、それが属する集団を母集団と呼ぶ。標本は母集団から選ばれるので、標本調査の結果は相当程度、母集団全てに行う場合の調査(全数調査)に出るはずの結果が顔を見せる。その為には法則性無く、サイコロを振るように出鱈目(ランダム)に標本を選ぶ必要がある。
仮に例えばシステムの評価に於ける被験者の年齢等に共通性がある場合でも、共通の属性(年齢等)を持つ人々を母集団と考えれば、被験者達はランダムに選ばれた標本群として、その母集団に対する意味を持つ。
図の右側は、正規分布に従う確率変数群から、4つの標本を取った例となる。ランダムに選べば母集団の性質を反映して、母集団の平均に近い標本が多くなるが、中には標本4のように珍しい値も選ばれるかもしれない。母集団の統計量を母平均、母分散、母標準偏差、標本の統計量を標本平均、標本分散、標本標準偏差等と呼んで区別する。

母集団と標本の図解

区間推定

正規分布では平均値から左右標準偏差二つ分の範囲に約95%のデータが存在する。この性質を利用すれば、母集団が正規分布に従い、母標準偏差(或いは母分散)が分かっている場合、たった一つの標本値からでも母平均の範囲を予測出来る。
誤差を伴う自然現象は正規分布に従う事が多い。或る母集団の身長の標準偏差が約10cmと分かっている場合、その中の一人の観測(標本)値が163cmだったとする。母平均をMとすると、この観測値が正常値(平均から左右標準偏差二つ分にある値)と仮定して、不等式(上の式)を立てる。
標準正規分布では平均は0、分散は1、標準偏差も1なので左右標準偏差二つ分の範囲は-2~2となる。一般正規分布(母集団の分布)の標本値を標準正規分布の標本値に直すには、平均値(M)を引いて、一般正規分布の標準偏差で割る。そこで、このような不等式になる。
後は、不等式に加減乗除を行い、Mを挟む不等式に変形する。このMの範囲は、約95%の正常値の範囲に標本値を持つ、様々な母平均の存在する範囲を示している。これが母平均に対する約95%の信頼区間となる。この様に、標本値が一定の正常範囲に収まる様々な母集団の統計量(母数)の範囲を推定する事を区間推定と呼び、推定された範囲を信頼区間と呼ぶ。
ここでは約40cmも幅が出たように、一つの標本値に頼る信頼区間は、標本値に大きく左右され、幅が大きくなる。

区間推定の図解

標本平均の分布

母集団から一定数の標本をランダムに取り、標本平均を求める事を繰り返す。出鱈目に選ぶので、毎回の標本の組合せは異なり、標本平均も変わる。しかし、標本は元々母集団の平均付近の方が多いので、標本平均値も母平均に近い値が遠い値よりも多く出る事になる。
N個の標本平均値を無限回取り、標本平均値を確率変数にとる確率分布を考えると、母平均がμ、母標準偏差がσの場合は、この確率分布は平均μ、標準偏差が(σ÷Nの平方根)の正規分布になる事が数学的に証明されている。この式から明らかなように標準偏差は標本数(N)が大きいほど小さくなる。標本数が大きいほど、標本平均は散らばらずに、母平均に近い標本平均が出てくる確率が高くなる。
図は母集団が標準正規分布に従う場合の、其々4個、9個の標本平均値の分布をグラフにしたものである。

標本平均の分布の図解

標本平均による母平均の区間推定

多数の標本値の平均を用いれば、一つの標本値より精度の高い区間推定が可能になる。上記の区間推定の母集団から25人の標本を取り、その平均身長が163cmだったとする。この標本平均値は、母平均M、標準偏差2(10(母集団の標準偏差)÷5(標本数の平方根))となる標本平均値の分布の中で、約95%の確率で左右標準偏差(この場合は2)2個分の値の範囲に収まると考えられる。
この状態を不等式にし、区間推定の所と同様の手順で、Mの約95%信頼区間を算出すると、今度は167cm~159cmと、かなり幅の狭まった母平均の約95%信頼区間が得られる。

多数の標本による区間推定

カイ二乗分布

標準正規分布に従う確率変数から標本を取る場合、約68%の確率で-1~1に入る数になる。この標本の二乗は0~1に入る数になる。標本を出鱈目に二つ選んだ場合、二つともこの範囲になる確率は68%×68%=約46%で、二乗の和は0~2の範囲に収まる。
標準正規分布からN個の標本を取る事を繰返し、その都度「N個の各標本値の二乗の和」(Vとする)を調べる。Vを確率変数とした確率分布をカイ二乗分布と呼び、図のような確率密度関数になる。分布は標本数(N)により違い、例えば自由度5(=N)のカイ二乗分布と呼んで区別する(ここでは標本数を自由度と呼んでいる)。
自由度の数だけ確率変数の二乗を足していくため、自由度が多くなるにつれて、山の頂点が右側に移動する。N=1、2はこの図では切れているが、0の近傍に非常に高い山がある。確率密度関数は複雑である(式中のnは自由度)が、分布表や計算ソフトを使えば、この式を使わなくても統計処理は可能である。

カイ二乗分布の図解と確率密度関数

母分散の推定

母平均が既知、母分散が未知の状態で、標本値から母分散を推定する場合、母平均の推定で用いた不等式の標準偏差(真ん中の辺の分母)をXと置き、Mに既知の母平均(例えば160cm)を代入し、Xを求めようとしても、Xの範囲は定まらない。
正規分布の母分散(或いは母標準偏差)は、カイ二乗分布を使う事で推定出来る。平均μ、標準偏差σの一般正規分布の標本値Xに対し、(X-μ)÷σの操作(標準化)を行なえば、標準正規分布の標本値となる。従って、複数の標本値の二乗和は、カイ二乗分布に従う。
日本の猫の体重の平均値が3kgで、標本値が3kg、2.5kg、4kg、2kg、3.5kgだとする。猫の体重も恐らく正規分布に従うのだから、母分散を推定できる。自由度5のカイ二乗分布では0.83~12.83の範囲に約95%の確率変数が収まる。得られた標本値の二乗和(V)を正常値(95%)の範囲に持つ母分散の範囲が、母分散の約95%信頼区間となる。

母分散の推定の図解と計算式

標本分散の分布

母集団から一定数の標本をランダムに取り、標本分散を求める事を繰り返す。出鱈目に選ぶので、毎回の標本の組合せは異なり、標本分散も変わる。標本分散値を確率変数にとる確率分布は、母集団が正規分布である場合は、カイ二乗分布に比例する分布となる。
式中の添字付きのxが標本値で、バーxが標本平均、nは標本数で、標本分散(Sの二乗)は分散の定義から以下のようになる。ここで下式のWのような統計量(σは母標準偏差)を置くと、これは標本分散と比例する事が分かる(一番下の式)。そして、母集団が正規分布である場合は、Wもカイ二乗分布に従う事が明らかになっている。
但し、Wの従うカイ二乗分布は、自由度が標本数より一つ少なくなる(数学的な証明は煩雑なので、ここでは省略して分かっている結果だけを用いる)。

標本分散の分布を考える式

標本分散による母分散の区間推定

母平均も未知の場合でも、標本のみを使って母分散の区間推定が出来る。区間推定に共通するロジックは、数学的に値が分かっている確率分布に従い、かつ推定したい値を一つだけ含む何らかの統計量を定義する事である。上記のWという統計量は母平均を用いず、標本平均を用いている。未知なのは母標準偏差だけとなっている。
観測された猫の体重が2.8kg、3.2kg、4.8kg、3.0kg、2.6kgだったとする。標本分散を計算し、統計量Wを作る。それが自由度が標本数-1のカイ二乗分布の約95%の正常値に入るように不等式を立て、式変形で母分散を搾り出せばよい。(この場合は標本数5なので)自由度4のカイ二乗分布では、約0.48~11.14の範囲に95%の確率変数が収まる。
母分散の約95%信頼区間は、0.277~6.433(小数点以下3桁で四捨五入)と出た。各辺の平方根をとれば母標準偏差の約95%信頼区間となる。

標本分散による母分散推定の式

t分布の定義

統計量tは、標準正規分布に従う確率変数Zと自由度nのカイ二乗分布に従う確率変数Wの組合せとして、以下のように定義される。正規分布に似た形で、自由度が小さいほど頂点は低く、その代わり裾野は高い。自由度が∞になると、標準正規分布と一致する。確率密度関数の式中のnは自由度を表す。

t分布のグラフと確率密度関数

t分布による母平均の推定

t分布を使えば母分散が未知でも、標本値のみから母平均の推定が可能になる。正規分布する母集団から標本を取る時、下記の統計量Uは標準正規分布に従う。また、統計量Wは自由度n-1のカイ二乗分布に従う。従って、下記のように定義された統計量tは自由度n-1のT分布に従う(T分布の定義による)。
統計量tは、式展開の過程で見事に母標準偏差が消え、標本値以外は母平均が残るのみとなる。tを使って、2.8、3.2、4.8、3.0、2.6、2.4kgの標本体重から母平均を推定した。t分布の発見により、観測可能な標本値のみから母平均を推定する事が初めて可能になった。
しかし、t分布を発見したのは数学者でも統計学の専門家でもなかった。彼は、ビール工場で働いていて、原料のホップや大麦の少ない標本から、いかに全体の様子を把握するかという問題に頭を抱えていた。一人で統計を勉強し、様々な試行錯誤の末に、遂にt分布の発見に到達したのである。
t分布の発見者は、英国の酒造会社で働くゴセットという技術者だった。(自分は統計学の学生である)の意味で、Studentという匿名で発表した(1908年)。当時の統計学の第一人者フィッシャーは、彼を「統計学のファラデー」と呼んで絶賛したという。

T分布による母平均推定の図解と式

仮説検定

「AはBである(或いは、AはBでない)」という仮説を立て、それを統計学的に正しいか確かめる事を仮説検定という。但し、確実に確かめるのではなく、その仮説が十分に起き得る事かを確率的に確かめるに過ぎない。
検定の手順は、まず帰無仮説を「AはBである」として立てる。これが正しくない場合に成立する仮説(AはBでない)を対立仮説という。帰無仮説が統計的に起きる確率が低い(正しくないと看做す)と判定された(棄却された)場合に、対立仮説を正しいと看做す(採択する)事になる。
猫の母集団の平均体重は3.8kgである、という帰無仮説を立てたとする。これを26匹の標本体重を使って仮説検定する。体重の標本平均が4.8kg、標本標準偏差が1kgだったとする。これらの値とn=26を使ってt分布のt値を求めると、(4.8-3.8)×5(26-1の平方根)÷1となって、t=5が得られる。
自由度25(26-1)のt分布においては、99%の確率変数が約-2.79~2.79の範囲に収まる。しかしこのt値は5なので、少なくとも99%の範囲外にある珍しい値と言える。これは、母平均を3.8kgと仮定した場合、選ばれた標本は非常に太ったグループで、そんな猫ばかりになる確率は1%以下である事を示している。
これを素直に、「1%(100回に1回)以下の珍しい現象が起きた」と考えるのは、決して間違ってはいないが、仮説検定(棄却検定ともいう)の考え方では、珍しい現象を引き起こす仮定を間違いと看做し、「母平均は3.8kgではない」という対立仮説を採用する。
なお、異常値か否かの判定に使う確率(ここでは1%)を危険率(または有意水準)と呼ぶ。危険率に5%を使えば、いくらか緩い検定(t分布において、95%の確率変数が収まる範囲か否か、で判定する)になる。

二項検定

例えば、コインを投げて5回とも表が出たとする。通常は、コインの表裏が出る確率は二分の一ずつと考えられるので、このコインには何か仕掛けがあるとの疑いが生じる。そこで、「このコインの表が出る確率は二分の一である」を帰無仮説に設定する。帰無仮説で設定された確率二分の一で、表が5回とも出る確率は、1/2の5乗=1/32となる。これは、二項分布に基づく数値である。
1/32は、0.03125だから0.5(5%)より小さい。そこで、「表が出る確率は二分の一」という帰無仮説は棄却され、「表が出る確率は二分の一ではない(もっと多くなるような細工がある)」という対立仮説が採択される。この例は、二項分布に基づく検定なので二項検定と呼ばれる(確率二分の一の場合は符号検定とも呼ばれる)。
この他にも、カイ二乗分布に基づくカイ二乗検定、F分布という確率分布に基づくF検定等も、統計解析ではよく登場する。どんな条件の下で、どんな仮説を検定するかによって、様々な検定方法が使い分けられる。

有意差の検定

例えば或るダイエットフードを試食し得る全ての被験者が試した場合の、全ての体重差が体重差の母集団となる。これは、個体の違いによる誤差を伴うので、正規分布になるものと考える。ダイエットフードに効用が無ければ、体重が減る個体、変わらない個体、逆に増える個体が混在し、差分が相殺されると考えられるので、「効用が無い」を示すデータは「体重差の母平均がゼロ」となる。
実際には、標本の体重差しかデータとしては得られない。ここで、以下の統計量t_valueは自由度=標本数-1のt分布に従う。t_value=(標本体重差の平均)×(標本数の平方根)÷(標本体重差の分散の平方根)。標本体重差の平均は一般正規分布に従うが、分母にある標本体重差の標準偏差と相殺されて、標準正規分布に従う事になる。また、標本体重差の分散は、同様の理由で自由度=(標本数-1)のカイ二乗分布に従う事による。
この例のように、同じ個体群に関する有意差についてのt検定は、「対応のあるt検定」と呼ばれる。

t検定の計算手順(対応のある一標本t検定)

3匹の犬が毎朝、散歩して一ヶ月経過した前後の体重(kg)が表のようになっていたとする。散歩はダイエット効果があると言えるだろうか?つまり、散歩前後の体重に有意差はあるだろうか?この結果を(標本体重差の平均)×(標本数の平方根)÷(標本体重差の分散の平方根)に代入してt_valueを求める式を作ると、下のようになる。
対応あるt検定の計算手順は、標本数がいくつであってもこれと同じになる。ここでは標本数は3だが、標本数がn個であれば、3の位置にnが代入される。標本差のdはn個出来る。標本差平均mを求める式の分子はその分、長さが変わる。t_valueを求める式の分母もその分、長さが変わる。この式の分母に出現する指数2は、標本差の分散を求める二乗なので、標本数がいくつでも変化しない。
このt値を求めると、約0.974になる。この場合、自由度は標本数-1=2となるので、t分布表から自由度2の所を見る(t分布表は、様々なサイトで公開されている)。自由度2のt分布では、有意水準5%のt値は約4.3、有意水準1%のt値は約9.93であるから、この例では、有意水準5%であっても有意差は検出されなかった事になる。標本数がもっと多ければ、同じような差平均でも検出されるかもしれない。
なお、ここで判定に用いたt値(4.3と9.93)は、両側検定で用いるt値である。差の正負が分からない場合は両側検定が用いられるが、ダイエットのように(体重が)一方向(マイナス)に振れる可能性が高い場合は、片側検定を用いる事も多い。

T検定計算手順の表と式

片側検定

下図は自由度30のt分布において、赤い線からグラフの端側(青の縦線のエリア)の面積が、全体の山の面積の5%になるように描かれている。両側検定の場合は、左右両方の面積の和が全体の5%になる。自由度30のt分布では、この様な面積を作る赤線の位置は、片側で絶対値約1.697、両側で同約2.042となる。同様に面積が1%になる位置は、片側で約2.457、両側で約2.75となる。
赤線から右端側の面積の割合(%)を上側確率、左端側を下側確率、両側を合わせた確率を両側確率と言う。また赤線の位置を、パーセント点(P点)と呼ぶ。詳しいt分布表には、例えば自由度1~30、60、120、∞(正規分布)における其々の5P点や10P点等が、両側と片側の場合に分けて記載されている。t分布は左右対称なので、上側と下側のP点の絶対値は等しく、両側の方が片側より値が大きい。
どのP点を使うかによって右片側検定、左片側検定、両側検定と呼んで区別している。仮説検定は、「仮説のもとでは起こりにくい現象が観測された」事により(帰無)仮説を棄却するものであるから、t値が正になる事が当然に予想される場合は右片側を(異常値はプラスのみという考え方)、負が予想される場合は左片側を、どちらとも判断出来ない場合は両側として使い分け、どれで行なったかを示す必要がある。

片側検定の図解