統計学

[統計Day9] 外れ値

はじめに

今回は外れ値について見ていきましょう。

外れ値というのは標本の他の各値からポツンと離れたような値のことを言い、

中央値や平均といった代表値に影響を与えるものです。

中央値と平均で外れ値の影響度合いが異なりますのでその辺も踏まえて見ていきましょう。

tota
tota
文系出身データアナリストのtotaです!初心者でも分かるように解説していきますね!

外れ値の影響

 

外れ値は代表値である中央値や平均に影響を与えるのですが、

結論から言うと中央値よりも平均への影響が大きくなります。

この点について今回も数直線を引いて考えていきましょう。

ここに前回同様にAさん、Bさん、Cさんそれぞれの身長である166cm、170cm、172cmというデータを並べています。

このとき中央値はちょうど真ん中の値ですので、170cmが中央値になります。

一方の平均は3人の身長を合計して、それを標本の大きさである3で割ってあげた約169.3cmとなります。

ここにもう1人のデータを追加したとします。

その人の身長が192cmだったとしましょう。

(図を再掲します)

これは他の3人の身長と比べてかなり離れたところに値がありますよね。

このように標本において他のデータと離れたところにポツンと位置する値を外れ値と呼びます。

ではこの外れ値が標本に加わったことで外れ値も含めた4人の中央値と平均はどのように変化するでしょうか。

まず中央値はもともと3人だったときは170cmだったものが、4人目として外れ値が加わった場合には171cmに変化します。

中央値は170cmから171cmに変化

真ん中の順位となるデータが170cmと172cmの2つですので、その平均をとった171cmが中央値となります。

一方の平均はどうかというと、平均はもともと169.3cmだったものが外れ値の4人目を加えて計算すると175cmと大きく右側にずれてしまいます。

平均は169.3cmから175cmに変化

この背景には、

中央値は順位が1つずれるだけなので外れ値の影響が順位1つ分にしか作用せず影響が小さいのに対して、

平均は「値の離れ度合い」も考慮されるので外れ値の影響を受けやすいという性質があるという理由があります。

このことは平均が距離の2乗をベースとした代表値であるという性質からもわかると思います。

距離の2乗というのは1つ離れた人の影響は1の2乗で1だけれども、

2つ離れた人の影響は2の2乗で4

3つ離れた人の影響は3の2乗で9と、

離れれば離れるほど加速度的に影響が大きくなっていきます。

そのため前回Day8でみたように「距離の2乗」を最短にしようとする平均というのは、離れた人により近づこうとする性質があるんですね。

したがって上記の例でも中央値が1cmしかずれなかったのに対して、

平均は5cm以上もずれているという結果になります。

平均は2乗をベースとしているため外れ値の影響が大きい!

外れ値は邪魔者?

上記のように平均は外れ値の影響を受けやすいという性質がありました。

であれば外れ値の影響を受けやすい平均よりも、中央値の方を代表値として採用するべきかというとそういうわけではありません。

というのも外れ値にも情報があるからです。

外れ値はときにデータの邪魔もののような扱いを受けることもありますが、

外れ値のおかげで計測ミスとか入力ミスに気づいたり、

あるいはこの外れ値が何かの重要な変化の兆しであったりする可能性もあります。

そういう意味では「外れていない値」よりもむしろ外れ値の方が情報として価値が高いようにすら思えますよね。

外れ値はときに重要な情報を持っている!

したがってデータの代表値を計算する場合は、中央値も平均も両方とも必ず確認するクセを身につけていきましょう。

このクセをつけるだけでデータから得られる示唆がかなり変わってくると思います。

まとめ

最後に今回の記事のポイントを整理します。

  • 外れ値は標本の他の各値からポツンと離れたような値
  • 外れ値の影響は中央値よりも平均の方が受けやすい
  • 平均が外れ値の影響を受けやすい背景には平均が「2乗」をベースとしているという点がある
  • 外れ値の影響を受けにくい中央値も、外れ値の影響を受けやすい平均も、代表値として両方確認するクセを身につけたい

次回の記事からは記述統計のもう1つの論点である「ばらつき度合い」を示す指標について見ていきたいと思います。

今回も最後まで読んでいただきありがとうございました!

統計学ベーシック講座【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに8,500人以上の方に受講いただきベストセラーとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...