基本統計量

今回の講義で使うExcelファイルを前回ダウンロードしてない人は以下からダウンロードしよう。
:今回使うファイルのダウンロード

平均、分散、標準偏差

ある鯖缶工場では、200gの鯖缶を作っている。
理想的にはすべて同じ重量であるが、原料の鯖がばらついているため、缶詰の重量もわずかにばらついてしまうのはある程度しかたがない。
ただ、あまりにばらつきが大きいと消費者からクレームが付くかもしれない。
そのためにも、まず、どれくらいばらついているのかを評価する必要がある。

平均(Average)

平均は全てのデータを合計して、データ数で割る。
式で書くと

となる。
ここで、Nはデータ数。xiはi番目のデータの値である。
Excelの鯖缶1のシートを開こう。



データ数は100個である。
上の式では、

N=100
x1=201.7189
x2=189.0178
x3=164.5509
x4=188.5314



ということになる。
データ数が多いと全てのデータを足してデータ数で割るという計算は電卓を使ってもかなり大変である。
Excelでは AVERAGE関数で簡単に計算できる。

AVERAGE関数は指定された範囲の数値で平均値を求める関数である。
=AVERAGE(範囲)
で指定する。
今の場合、範囲はB2セルからB101セルまでなので、

=AVERAGE(B2:B101)

となる。

200gの鯖缶なので、平均値の200.4756[g] というのは問題ないだろう。

分散(Variance)

平均を  と書くと、分散は

で与えられる。
言葉で説明すると、”それぞれのデータから平均値を引き、二乗して、合計して、データ数で割る”というものである。
これも、電卓で計算するとかなり面倒であるが、ExcelではVAR.P関数で計算できる。

VAR.P関数は指定された範囲の数値で分散を求める関数である。
(Excelの古いバージョンではVARPであった。、今のバージョンでもVARPが使えるのでVARPでもかまわない。)
=VAR.P(範囲)
で指定する。
今の場合、範囲はB2セルからB101セルまでなので、

=VAR.P(B2:B101)

となる。

標本分散、あるいは不偏分散

標本分散、あるいは不偏分散は

で与えられる。
(実は、不偏分散は統計の本によっては定義が違う場合があるので、ここでは標本分散で統一する)
言葉で説明すると、”それぞれのデータから平均値を引き、二乗して、合計して、(データ数-1)で割る”というものである。
( 普通の分散との違いは、データ数で割るか、データ数-1で割るかだけである。
今の場合、100で割るか、99で割るかと違いである)
使い方はの区別はあとで説明する。
ExcelではVAR.S関数で計算できる。
(古いバージョンのExcelではVARであった。最新バージョンでもVARは使える。)

VAR.S関数は指定された範囲の数値で標本分散を求める関数である。
=VAR.S(範囲)
で指定する。
今の場合、範囲はB2セルからB101セルまでなので、

=VAR.S(B2:B101)

となる。

ちなみに、PはPopulationのP、SはSampleのSである。
Populationは「人口」という意味もあるが、ここでは全個体群という意味である。
Sampleは標本、サンプルである。

標準偏差(Standard Deviation)

標準偏差は分散の平方根で求められる。

で与えられる。
ExcelではSTDEV.P関数で計算できる。
(古いバージョンのExcelではSTDEVPであった。最新バージョンでもSTDEVPは使える。)

STDEV.P関数は指定された範囲の数値で分散を求める関数である。
=STDEV.P(範囲)
で指定する。
今の場合、範囲はB2セルからB101セルまでなので、

=STDEV.P(B2:B101)

となる。

標本標準偏差、あるいは不偏標準偏差

標本標準偏差、あるいは不偏標準偏差は

で与えられる。
普通の標準偏差との違いは、データ数で割るか、データ数-1で割るかだけである。
今の場合、100で割るか、99で割るかと違いである)
使い方はの区別はあとで説明する。
(実は、不偏標準偏差は統計の本によっては定義が違う場合があるので、ここでは標本標準偏差で統一する)
ExcelではSTDEV.S関数で計算できる。
(古いバージョンのExcelではSTDEVであった。最新バージョンでもSTDEVは使える。)

STDEV.S関数は指定された範囲の数値で標本分散を求める関数である。
=STDEV.S(範囲)
で指定する。
今の場合、範囲はB2セルからB101セルまでなので、

=STDEV.S(B2:B101)

となる。



データのばらつきを表す数値はいくつかあるが、標準偏差、あるいは標本標準偏差が使われることが多い。
今の場合、標本標準偏差が26.28476である。
平均の200.4756を考えると、1割以上の大きさである。
ここまで重さがばらつくと、これは何らかの対処が必要な状態であろう。
(例えば、極端に軽いものはパッケージを変えて安く売るとか)

データの平均とばらつきが必要な理由

多くの場合、データの平均と標準偏差を求める。
なぜこの二つは重要なのだろうか?
試験成績の例で考えてみる。

学籍番号A0013の学生は頑張ったのだろうか1

中間試験のシートを開いて、A0013の学生の点数を見てみよう。

彼は85点だった。


それでは、期末試験1のシートを開き、A0013の学生の点数を見てみよう。

彼は72点だった。

中間試験で85点だったA0013さんは、期末試験で72点だった。
さて、A0013さんは成績を落としたのだろうか?

この問題を別の視点で考えてみよう。
中間試験のシートに戻って、得点順に並び変えてみよう。

A0013さんは24位である。

期末試験1のシートに戻って、これも得点順に並び変えてみよう。

A0013さんは5位である。

だから、A0013さんは決して成績を落としてはいない。
むしろかなり頑張ったことがわかる。


なぜ、点数は85点→72点と下げているのに、順位は上がっているのか?
理由は、中間試験 と 期末試験1 で平均を計算してみればわかる。
(並び替えをしたままでかまわない)

中間試験のシートで中間試験の平均点を計算してみよう。

範囲は B2からB501 である。
=AVERAGE(B2:B501)と打ち込む。

平均点は59,774点である。
期末試験1に行って、同じことをやってみる。

平均点は36.358点である。

期末試験1の平均点36.358点は中間試験59.774点よりかなり低い。
(要するに、期末試験は難しかった!)
みんなが軒並み得点を落とす中、A0013さんの85点→72点というのは、踏みとどまった方である。
だから、得点を落としても、順位は上がったのである。

平均点が違うということを意識せず、得点だけに注目するとこのように間違った判断をしてしまう可能性がある。

学籍番号A0013の学生は頑張ったのだろうか2

今度は、期末試験2のシートを開いて、中間試験期末試験2を比べてみよう。

A0013さんは、77点だった。

中間試験の85点と比べると、77点で得点を落としている。
前回やったように、順位を見てみよう。

A0013さんは4位である。

中間試験の順位は24位だったので、今回も、85点→77点 と得点を落としているにも関わらず、順位は上がっている。
A0013さんは頑張った。

前回やったように、期末試験2の平均点を計算してみよう。

期末試験2の平均点は59.53点である。
中間試験の平均点は平均点は59.774点であった。
ほとんど同じである。
前回、得点を落としたのに順位が上がったのは平均点が違うからであった。
しかし。今回は、平均点はほぼ同じである。
では、なぜ順位が変わったのだろうか?

今度は、標準偏差(STDEVP)を求めて見よう。

まず。中間試験のシートに行く。

=STDEVP(B2:B501)と打ち込んで、標準偏差を計算してみる。

中間試験の標準偏差は 15.54648 である。

次に期末試験2のシートに行って、同様に標準偏差を求めてみよう。

期末試験2の標準偏差は 7.511931 である。
これは、中間試験の標準偏差のほぼ半分である。

なぜ、標準偏差の違いが順位の違いになったのだろうか?

標準偏差というのは、データのばらつきを表す。
あとで正規分布の話で詳しく説明するが、簡単にいうと、

平均値-標準偏差×2 ~ 平均値+標準偏差×2 

の範囲のほとんどのデータが入る。
図で書くと、ほとんどの人の得点は以下の水色の範囲にはいる。

中間試験のA10013さんの得点の85点というのは悪くはないが、平均値-標準偏差×2~平均値+標準偏差×2 の範囲に入っており、割りと普通の得点ということになる。

それに対し、期末試験2の77点というのは、平均値-標準偏差×2~平均値+標準偏差×2 の範囲より高得点の位置にあり、普通ではなくかなり優秀ということになる。

このように、標準偏差が代わることで、得点を落としても順位は上がるということもある。

このように、全体の平均値と標準偏差(あるいは分散)がどうなっているのかを考慮せずに、特定の一つのデータだけに注目すると間違った判断をしてしまうことがあるので、全体の平均と標準偏差(分散)を押さえることが重要である。


:クロス集計とピボットテーブル