統計解析の基礎、平均と分散。

統計学で最も基礎的な指標は平均と分散(標準偏差)である

平均の役割

平均はよく知られている概念であるが、意味を確認する。

5教科のテストを学校で行うとして、クラスに50人の生徒がいるとすると、誰が最も良い成績なのか知るのが難しくなってくる。そこでまずは合計点を計算する。

個人の合計点を計算することで、総合力を容易に計算できる。

 

ただ、合計点の限界もある。1部科目を受験していない人がいる場合は比較が意味をなさない。そこで、合計点を受験科目数で割り1科目あたりの得点とすれば、総合力の指標として有効であると考える。

つまり平均点は、合計点と同じく相対的な総合力を図る指標である。

平均の定義としては、データの総和をデータ数で割った値ということになる。

平均の特性

・線型性の保持

全ての元データに対して一律の定数を加えたりかけたりした時、新しいデータの平均値もまた元の平均値に同じ定数を加えたりかけたりした値になる。

・平均からの偏差の総和はゼロ

・平均からの偏差平方和は他のいかなる一定値からの偏差平方和より小さい値になる。

幾何平均

データを全て掛け合わせて同次乗根をとった値をを幾何平均という。

分散及び標準偏差

分散や標準偏差は散らばりの程度をはかる指標。

各数値のばらつき具合が大きいほど、分散も標準偏差も大きくなる。

分散は元のデータとその差を2乗しているため、元の単位でなくなる。

元の単位にするために平方根をとったものが標準偏差である。

チェビシェフの不等式を使えば、どの範囲にどれくらいの割合のデータが含まれるかの概略を知ることができる。

アリと像を比較するなど、前提条件が違う場合は、標準偏差で比較すると意味のある判定はできない。

相対化する方法として、標準偏差の値を平均値で割り、それに100をかけて標準化する変動係数と呼ばれる指標が使われる。