機械学習

次元削減(主成分回帰)とは? [Day17]

はじめに

こちらの記事では説明変数を結合して単純化する「次元削減(縮小推定)」について考えていきます。

「次元削減ってどういうもの?」

「次元削減することでどんなメリットがあるの?」

といった疑問に答えていきたいと思います!

tota
tota
文系出身データアナリストのtotaです!初心者でも分かるように解説していきますね!

次元削減

次元削減について考えるにあたりいきなりですが以下の書籍販売に関するデータを見てみましょう。

説明変数が各媒体の広告費用、目的変数が販売部数となっています。

説明変数 電車広告10万円 電車広告150万円 電車広告290万円
説明変数 朝刊広告290万円 朝刊広告150万円 朝刊広告10万円
説明変数 夕刊広告200万円 夕刊広告100万円 夕刊広告10万円
目的変数 販売部数3万部 販売部数5万部 販売部数3万部

説明変数が電車広告コスト、新聞の朝刊広告コスト、そして夕刊広告コストと、全部で3種類あります。

ここで例えば新聞の朝刊広告コストと夕刊広告コストを何らかの方法で結合(合成)して「新聞広告コスト」といった1つの説明変数に変換するとします。

実はこれを次元削減と言います。

つまり複数の種類ある説明変数を結合(合成)し、より少ない種類に変換してあげようというのが次元削減です。

この次元削減により学習する説明変数を単純化することができます。

これは「単純思考型(未学習)」の学習スタンスを助長してしまう面がある一方で、

「丸暗記型(過学習)」の学習スタンスを是正してくれます。

とくに説明変数の種類がかなり多いときには過学習となりがちなので、

この次元削減によって学習効果が高まりやすくなります。

複数ある説明変数を結合して過学習を抑制しよう!

主成分回帰

次元削減にはいくつかの手法がありますが、ここでは代表的な主成分回帰について考えていきます。

主成分回帰とは主成分分析を用いて次元削減を行う手法です。

そして主成分分析とは、たくさんの種類の説明変数がある場合に

説明変数の間にまたがって存在する「特徴(主成分)」を抽出するために使われる手法です。

主成分分析により抽出したいくつかの特徴(主成分)を学習して回帰分析を行います。

ここで主成分分析がどのように特徴(主成分)を抽出するのかについて考えます。

そもそもデータが持つ特徴とは一体なんでしょうか。

データの特徴を表現するものとして代表的なものに平均値などの代表値があります。

データをよく代表する値≒中心が「どこ」に位置しているのかを平均値などから把握できます。

平均値に加えて重要なのがデータの「ばらつき」です。

データの中心が「どこ」にあるのかを示すのが平均値であるのに対し、

ばらつきはデータの「ひろがり」を表現するものです。

何からの「ひろがり」かというとデータの中心(つまり平均値)からの「ひろがり」です。

このデータの中心が「どこ」か、そしてそこからの「ひろがり」がどれくらいかでデータの特徴の多くを語ることができます。

主成分分析はとりわけデータのばらつき、すなわち、データの中心からの「ひろがり」に着目します。

複数の種類の説明変数が与えられたとき、それらの説明変数の「ひろがり」が維持(最大化)されるように重みづけした主成分スコアというものを(いくつか)算出します。

この主成分スコアこそが与えられた複数の種類の説明変数を同時に説明(要約)してくれる特徴であるとみなし、これを学習して回帰分析を行います。

まとめ

今回は短めですが以上になります。

ただ主成分分析については教師なし学習における重要トピックでもあるので、改めて別の記事で取り上げたいと思います。

最後に今回の記事のポイントを整理します。

  • 次元削減は複数ある説明変数を結合(合成)し、より少ない種類に変換してあげる手法
  • 次元削減は「単純思考型(未学習)」の学習スタンスとなってしまう面がある一方で、「丸暗記型(過学習)」の学習スタンスを是正してくれる
  • 主成分回帰とは主成分分析を用いて次元削減を行う手法
  • 主成分分析は問題の間にまたがって存在する特徴(主成分)を抽出する際に使われる手法
  • 主成分分析はデータの「ひろがり」が維持(最大化)されるように重みづけした主成分スコアを抽出する
  • この主成分スコアを複数の説明変数を要約してくれる特徴であるとみなし、これを学習して回帰分析(主成分回帰)を行う

今回も最後まで読んでいただきありがとうございました!

統計学ベーシック講座【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに20,000人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...