機械学習

分散とバイアスのトレードオフとは? [Day2]

はじめに

この記事では機械学習における最重要論点である「分散とバイアスのトレードオフ」について、受験勉強における過去問学習を例にあげながら平易な言葉で説明します。

「分散とバイアスのトレードオフってよく聞くけど実はわかっていない…」

「なんで分散とバイアスが機械学習には重要なの?」

といった疑問に答えていきたいと思います!

「分散とバイアスのトレードオフ」を制する者が機械学習を制する!
tota
tota
文系出身データアナリストのtotaです!初心者でも分かるように解説していきますね!

分散とバイアスを例える

今回のテーマは機械学習における分散とバイアスについてです。

ただ分散とバイアスという聞き慣れない言葉で説明を進めてしまうと嫌になってしまう方も多いと思います。

したがって今回も受験勉強における過去問学習に例えて考えていきましょう。

分散とバイアスもやっぱり受験勉強の過去問学習で例えられる!

なお、機械学習と過去問学習がどういう点で似ているかについては、以下の記事をご覧ください。

機械学習とは?いったい何が行われているの? [Day1]この記事では機械学習は一体何をしているのかについて、抽象的な表現をなるべく避け、具体例とともに考えていきます。...

機械学習は何をしているのか?

機械学習が本質的に何をしているのか、過去問学習に例えて具体的に説明します。

機械学習は例えるならば受験勉強の過去問学習であり、過去問学習のスタンスの悪い例として「丸暗記型」や「単純思考型」があるという話でした。

丸暗記型」というのは過去問の問題と答えを一言一句丸暗記して本質的な部分は全く理解しようとしないタイプ。

一方で、「単純思考型」というのは「こういう問題はこういう答えになるものだ」と物事を単純化して考えてしまうタイプです。

機械学習においても過去問学習と同様に、過去のデータを学習し過ぎるタイプ(つまり「丸暗記型」)や、単純化思考が強すぎて過去のデータを十分学べていないタイプ(つまり「単純思考型」)が悪い学習スタンスの例としてあげられます。

そして実はこの「丸暗記型」と「単純思考型」という悪い学習スタンスの例を通じて分散とバイアスの話を具体的に考えることができます。

受験勉強の過去問学習のスタンスの話で「分散とバイアス」が理解しやすくなる!

分散とは?

分散とは「ばらつき」のことです。英語ではバリアンスと呼びます。

では何がどう「ばらつく」のでしょうか。その答えは過去問学習における「丸暗記型」の学習スタンスをイメージすると見えてきます。

丸暗記型」は過去問に対して忠実なスタンスで、過去問の問題と答えを一言一句記憶してしまい、その記憶を頼りに本番の試験で解答を行います。

この丸暗記型の一番の弱点は、丸暗記であるがために「何を学習したか」によって解答が大きく変わってしまうことです。

以下では2人の受験生の例で「ばらつき」を考えてみよう!

例えばいま東京大学志望の丸暗記型の受験生が2人いたとします(Aくん、Bくんとします)。

Aくんは東大の直近20年の偶数年の過去問を、Bくんは奇数年の過去問を、それぞれ徹底的に暗記しました。

そして2人は2020年に東大の同じ本番試験を受けました。

もし2人が過去問から問題の本質を理解できていれば、2人の解答はおそらく大きくは違わず正解率も近しくなるはずです。

しかし実際には2人とも本質の理解はできておらずただ過去問を丸暗記しただけです。

なので、初めて見る本番試験の問題に対しては、それぞれ自分が学習した年の過去問の記憶のみを頼りに解答します。

その結果、偶数年と奇数年という異なる過去問を学習した2人の解答結果は大きく異なることになります。

この本番試験におけるAくんとBくんの解答結果のばらつきこそが、機械学習モデルにおける「ばらつき」です。

つまり「ばらつき」とは何を学習したかによって本番試験での解答結果に「ばらつき」が生じてしまうことを言うのです。

「丸暗記型」は学習内容で解答結果が大きくばらつく。そのばらつきこそが「分散」!

バイアスとは?

一方でバイアスですが、これは「単純化」です。

この「単純化」については過去問学習における「単純思考型」の学習スタンスをイメージすると考えやすくなります。

「バイアス=単純化」も過去問学習の例で考えてみよう!

単純思考型」は物事を単純化してしまおうという思いが強すぎて、過去問を十分に学べていないタイプでした。

単純思考型はせっかくたくさんの多種多様な過去問があったとしても、その問題の多種多様さを単純化してしまおうとします。

例えば大学受験の試験では毎年似たような問題ばかりが出題されるわけではありません。

頻度は少ないけれど数年おきに定期的に出題される問題があったり、何年かに一度はクセの強い独特な問題が出題されたり、出題される問題には多かれ少なかれ多様性があります。

単純思考型はそういった多様性というものを無視してしまいます。

そんな多様性まで気にしていては単純思考型が重視する単純化ができなくなってしまうからです。

つまり単純化のために多様性を捨てているのです。

機械学習におけるバイアスとはまさにこの「単純化のために多様性を捨てること」を言います。

データを学習する際、単純思考型の受験生のようにデータの多様性から目を背け可能な限り単純化してしまおうとする機械学習モデルはバイアスの大きいモデルとなります。

バイアスとは単純化のために多様性を捨てること!

分散とバイアスのトレードオフとは?

では最後に機械学習における「分散とバイアスのトレードオフ」を考えていきましょう(トレードオフというのは両立できないということです)。

ここで、ここまでの話を整理すると以下のようになります。

  • 分散とは「何を学習したかによって本番試験での解答結果に『ばらつき』が生じてしまうこと」で、丸暗記型の学習スタンスで分散は大きくなる。
  • バイアスとは「単純化のために多様性を捨てること」で、単純思考型の学習スタンスでバイアスは大きくなる。

実は上記の内容をよく読むと、分散とバイアスがトレードオフ(両立不可能)な関係にあるということが当然だとわかります。

というのも上記の内容から、分散はばらつき(多様性)のことであり、一方のバイアスは多様性(ばらつき)を捨てること、つまり両者はばらつき=多様性について正反対のスタンスをとっていることがわかるからです。

過去問学習の例で言うと、過去問を一言一句丸暗記してその多様性を全て受け入れようとする丸暗記型の学習スタンスと、過去問の多様性を切り捨て単純化することを優先する単純思考型の学習スタンスは、いわば真逆のスタンスと言えます。

つまり、機械学習における分散とバイアスのトレードオフとは、ばらつき(多様性)と単純化のどちらを優先して学習するかの選択だということになります。

分散とバイアスはばらつき=多様性に対して正反対のスタンス!

まとめ

今回の記事のポイントを整理します。

  • 分散とは何を学習したかによって本番試験での解答結果に「ばらつき」が生じてしまうこと
  • バイアスとは単純化のために多様性を捨てること
  • 丸暗記型では分散が大きく、単純思考型ではバイアスが大きくなる
  • 分散とバイアスはばらつき(多様性)に対して正反対のスタンス
  • 分散とバイアスのトレードオフとはばらつき(多様性)と単純化のどちらを優先して学習するかの選択

機械学習における分散とバイアスについてご理解いただけたでしょうか。

この話は機械学習を語る際に極めて重要な論点ですので、ぜひ一緒に覚えておきましょう。

今回は以上になります。

最後まで読んでいただきありがとうございました!

統計学ベーシック講座【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに8,500人以上の方に受講いただきベストセラーとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...