母集団と標本の説明。

分析対象の特性は、データが揃ってさえいれば平均や標準偏差を知ることができる。しかし、実際にはデータを全て揃えることは難しい。(日本人全員の身長など。)

多くの場合は分析対象の全データのうちごく一部に過ぎない。

ごく一部のデータを活用して、本来なら全データを獲得した上で初めて知りうる分析対象を知り得るのが推測統計である。

推測統計を行う上で第一歩目の手順は母集団を規定すること。

母集団から抽出された一部のデータ(分析者が入手できたもの)のことを標本という。

母集団特性値を標本特性値から推測するために、正規分布を導入する。

正規分布

正規分布によって確率密度関数を使って、確率変数の値を求めることができる。

正規分布の中で平均が0、標準偏差が1の正規分布は特別に標準正規分布と呼ばれる。

標準化

正規分布は様々な平均や標準偏差を持つものだから、分析対象が正規分布に従うとしてもそれが標準正規分布であるとは限らない。

全ての正規分布は簡単な操作で標準正規分布に換算できる。

分布全体の中心を0に移動し、さらに全体を均等に縮小したり、拡大したりする操作を標準化と呼ぶ。

3種類の平均

母集団と標本を考える場合、平均には母平均、標本平均、標本平均の平均がある。

 

標本分散というと、通常は不偏分散を指す。

自由度

普遍分散は標本の偏差平方和をデータ数−1で割った値であるが、この分母は自由度と呼ばれる。

不偏標準偏差を使用するとき、標本平均を標準化した値は正規分布ではなく、それに類似したt分布と呼ばれる確率分布に従う。