統計学

[統計Day4] 散布図

はじめに

今回は散布図について見ていきます。

ヒストグラムが1つの変数を可視化していたのに対し、

散布図は2つの変数を1つの図で可視化することのできる図です。

2つの変数を1つの図で可視化することで、2つの変数の間の関係性をつかむことができます!

tota
tota
文系出身データアナリストのtotaです!初心者でも分かるように解説していきますね!

散布図の確認

例えばいま手元の標本として身長と体重という2つの変数がデータとして与えられていたとしましょう。

このとき身長という変数と体重という変数、この2つの変数を1つの図で可視化しようとするときに用いるのが散布図です。

散布図は以下のような図になります。

まず横軸をみると1つ目の変数である身長(x)の値となっています。

そして縦軸をみるともう1つの変数である体重(y)の値となっています。

つまり散布図は2つの変数を横軸と縦軸にとり、それぞれの人(サンプル)を対応する点にプロットした図となります。

散布図を見るコツ

散布図をみる際の1つのコツは平均を意識することです。

例えば仮に身長の平均が170cmだとして横軸が170cmとなるところに線を引いてみます。

同様に体重の平均が65kgぐらいだとして縦軸が65kgとなるところにも線を引いてみます。

すると散布図が4つの箱に分割されますよね。

この分割された4つの箱のなかでデータが平均に対してどれくらいばらついているかに注目します。

2つの変数の間に関係性がないのであれば分割された4つの箱のいずれもデータのばらつき方はあまり変わりません。

しかし2つの変数の間に関係性がある場合は、4つの箱のうち対角線上の2つの箱におけるばらつきが大きくなります。

例えば上記の身長と体重の散布図をみると、

左下右上2つの対角線上の箱のなかでデータがよくばらついているのがわかります。

ここから身長が高くなるほど体重が重たくなるという関係性を読み取ることができます。

このように散布図というのは2つの変数の関係性を可視化できる図であって、

平均を意識するとその関係性が見えやすくなるという特徴があります。

ちなみにR/RStudioを用いると以下のような属性別(性別)の散布図も簡単に描画できます!

今後はR/RStudioの記事も更新していきたいと思います!(R/RStudioの宣伝でした!)

まとめ

最後に今回の記事のポイントを整理します。

  • 散布図は2つの変数を同時に可視化する図
  • 横軸と縦軸に2つの変数の値をとり横軸と縦軸が対応する点にサンプルをプロットする
  • 散布図を見るコツは平均を意識してあげること
  • 散布図はとりわけデータのばらつきに着目する

前回Day3で見たヒストグラムと今回の散布図はどちらもデータの可視化に不可欠な図ですのでぜひ理解しておきましょう!

次回は記述統計について見ていきたいと思います。

最後まで読んでいただきありがとうございました!

統計学ベーシック講座【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに20,000人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...