統計学

[統計Day17] 標本分散と不偏分散

はじめに

今回は標本分散不偏分散の関係性について見ていきましょう。

なぜ標本分散には不偏性がないのか、

なぜ不偏分散は分母をマイナス1するのか

について考えていきます。

tota
tota
文系出身データアナリストのtotaです!初心者でも分かるように解説していきますね!

標本分散は母分散を過小評価

まず分散の式をもう一度確認すると

分散の公式

平均との距離の2乗の合計 ÷ 標本の大きさ

でした。

[統計Day11] 分散と標準偏差はじめに 今回は分散と標準偏差について見ていきましょう。 分散・標準偏差も平均偏差と同様に「ばらつき度合い」の指標の1つになりま...

実はこの式で計算される値は「標本分散」と呼ばれます。

そしてこの標本分散は母集団の母分散を少しだけ過小評価してしまうという性質があります。

母分散を少しだけ過小評価するということは、

標本分散は母分散よりも少しだけ小さくなるということです。

なぜ小さくなるかというのは後ほどまた考えるとして、

一方の不偏分散についての式も確認させてください。

不偏分散は過小評価分を補正

不偏分散は分母に標本の大きさではなく

標本の大きさからマイナス1した値をとっていました。

つまり

不偏分散の公式

平均との距離の2乗の合計 ÷ (標本の大きさ-1)

となります。

これを標本分散と比べてみると、

不偏分散の方が標本分散よりもマイナス1している分、

分母が少しだけ小さくなりますよね。

標本分散と不偏分散

標本分散=平均との距離の2乗の合計 ÷ 標本の大きさ

不偏分散=平均との距離の2乗の合計 ÷ (標本の大きさ-1)

実際に式を展開すると

標本分散と不偏分散

不偏分散 = 標本分散 × 標本の大きさ ÷ (標本の大きさ-1)

となり、不偏分散が標本分散よりも

標本の大きさ ÷ (標本の大きさ-1)

だけ大きくなっていることがわかります。

これはつまり不偏分散の方が標本分散よりも少しだけ大きくなると言うことです!

言い換えると

不偏分散は標本分散が母分散よりも少しだけ小さくなっている分を補正して、標本分散よりも少しだけ大きくなるようにしてあげている!

というふうに考えることができます。

これが不偏分散の分母のマイナス1に含まれた意味になります。

端的に言うと、標本分散よりも少しだけ大きくなるように補正したものが不偏分散と言うことです!

標本分散が過小評価となるイメージ

なぜ標本分散は母分散よりも少しだけ小さくなってしまうのか…

そのイメージを理解するため数直線を引いて具体的に考えてみます。

以前にも見た3人の身長を数直線上に並べ、標本分散の分子である「標本平均との距離の2乗の合計」について考えます。

まずこの3人の標本平均を計算すると169cmとなります。

これは平均ですので3人のデータとの「距離の2乗がもっとも近くなる値」になります。

この標本平均との距離について矢印で示してみると、164cmの人との距離、170cmの人との距離、そして173cmの人との距離ということでグレーの矢印で示すことができます。

ここで注意しないといけないのは母集団の真の平均、つまり母平均は必ずしも169cmとはならないということです。

(図を再掲します)

仮にいま母平均167cmだったとして上記の数直線に母平均を表示しています。

そして母平均167cmから各データとの距離を赤い矢印で示しています。

この母平均を基準として示した距離である赤色の矢印の総延長と、標本平均を基準として示した距離であるグレーの矢印の総延長とを比べると、グレーの矢印の方が短くなりますよね。

というのも私たちが知りたい母分散というのは母平均からの距離を元に計算されるべきですが、母平均はわからないので、標本平均という自分たちとの距離が最短となる値を母平均の代わりに使って標本分散は計算されています。

その分、距離(分子)を過小評価することになる

というのが標本分散が母分散を過小評価していることのイメージになります。

ポイント

標本分散は自分たちに近い標本平均を基準に距離を考えることで、本当の距離よりも短く距離を見積もることになり、その結果、母分散を過小に見積もることになる!

まとめ

最後に今回の記事のポイントを整理します。

  • 標本分散は母分散を過小評価してしまう
  • 不偏分散は標本分散が過小評価している分を補正(少し大きく)している
  • 標本分散は2乗距離の合計が標本に最も近い標本平均を基準に距離を考えるために過小評価となる

今回も最後までご覧いただきありがとうございました!

本ブログでの統計学講座は一旦ここまでとなります!おつかれさまでした!

ここまでの内容はまだ統計学の入り口にすぎません。

この先の確率分布や区間推定、仮説検定といった内容については以下のUdemyコースにて解説していますので、興味がある方は受講してみてくださいね!

それでは!

統計学ベーシック講座【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに20,000人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...