第2回:推計統計学

サンプリングと標本

例えば、名古屋市の成人男性の平均身長を調査しようとした場合。名古屋市の成人男性はものすごい数である。
また全員が調査に協力してくれるということはないだろう。
こういう場合、例えば1000人だけ調査して「もし、全員が調査できたら、おそらくこうなるだろう」ということを推定しなくてはならない。

あるいは、生鮮食品を扱う工場で、製品を全数調査すると鮮度に影響が出るなどということがあるかもしれない。
こういう場合も製品を適当にピックアップして、それを調査をして、「もし、全数が調査できたら、おそらくこうなるだろう」ということを推定することになる。

このように、全部のデータで統計処理をすることが理想であるが、現実にはそんなことはできないということがある。
こういうときは、いくつかの資料をピックアップして、それで調査をすることになる。
全体のデータの集団を母集団という。
母集団からランダムにデータをピックアップすることをサンプリングという。
サンプリングされたデータの集合を標本という。



前回、中間試験と期末試験の話で説明したが、全体の平均値と標準偏差(分散)がどうなっているのかを押さえておく必要がある。
今の場合、全体というのが母集団ということになる。

今回は標本を調べて、母集団の平均や標準偏差(分散)などがどうなっているのかを推定する方法をいくつか紹介する。



まず、今回使うExcelのシートをダウンロードしよう。
今回使うExcelファイルのダウンロード

サンプリングの例

標本1のタブを開くと、以下のような画面になっている。

左は10000個のデータである。(これが母集団)
まず、母集団の平均を=AVERAGE(B3:B10002)で、母集団の標準偏差を=STDEV.P(B3:B10002)で求めよう。

母集団の平均(母平均)は170.0156、母集団の標準偏差は30.23271である。 その右には、私が母集団からランダムに10個取り出すサンプリングを20回やったものがある。 各標本について、AVERAGE関数で平均を、STDEV.P関数で標準偏差を、STDEV.S関数で標本標準偏差をもとめよう。
(ひとつ計算したら、それをコピペするのが簡単)

  

20個の標本で平均、標準偏差、標本標準偏差 を求めて結果を見てみよう。

ある程度予想はつくことだが、母集団の平均値170.0156、母集団の標準偏差30.23271 と同じ数字を出したものは、標本1から標本20の中には存在しない。
しかし、標本の平均値がまったくのでたらめというわけでもない。
この20個の標本で、平均が一番小さいのは標本9の150.5841、一番大きいのは標本20の191.4103である。

標本から母集団の平均値と標準偏差を推計する

これは統計だけでなく確率論が必要だが、母集団の平均値は、標本の平均値に一致する可能性が高いということができる。
(やや面倒な数学が必要なので、数学的証明は省略する。)

「標本の平均値は母集団の平均値からはずれることもあるが、大きく外れることは確率的に小さい」と言ってもいいだろう。

だから、「標本の平均値を、母集団の平均値とみなす」ということをよくやる。

一方、母集団の標準偏差は、(STDEV.P関数で計算する)標本の標準偏差より、(STDEV.S関数で計算する)標本の標本標準偏差に一致する可能性が高いということができる。
(これも面倒な数学が必要なので、数学的証明は省略する。)

だから、「標本の(STDEV.S関数で計算する)標本標準偏差を、母集団の標準偏差とみなす」ということをよくやる。

推計についてはいろいろな応用ができるが、そのためにはまず分布関数の知識が必要であるので、応用の前にその説明をする。

:正規分布