はじめに
この記事では機械学習について数式や専門用語を使わずに簡単な言葉で説明していきます。
機械学習というものが結局何をしているのものなのか、ぜひ一緒に見ていきましょう。
機械学習は抽象的?

昨今、あらゆるビジネスの現場に機械学習が用いられるようになってきました。
しかしその機械学習が一体何をしているものなのかについて自分の言葉で説明できる人はまだまだ少ないと思います。
実際、機械学習の理論は多種多様で、かつ、奥も深いものであるため、その概念をわかりやすく説明することは簡単ではありません。
背景には機械学習を説明しようとするとどうしても数式や専門用語を多用しがちになるという事情があります。
数式や専門用語は抽象的で、とくに機械学習に精通していない方にとってはそういった言葉を理解するどころか、聞くだけでも嫌になってしまうかもしれません。
そこで、この記事では機械学習は一体何をしているのかについて、抽象的な表現をなるべく避け、具体例とともに考えていきます。
機械学習は過去問勉強

機械学習がやっていることは例えると過去問の勉強です。
みなさんも学生時代の受験勉強を思い出してみてください。
おそらく多くの方が受験対策として過去問の勉強にかなりの時間を費やしたのではないでしょうか。
この受験勉強における過去問学習と機械学習の本質は非常に似ています。
では過去問学習の本質とは何でしょうか。
まず過去問学習の目的について考えてみると、これは当然のことながら「本番の試験で正解すること」です。
本番の試験で正解するためには本番の試験と類似する問題について正解できるようになっておく必要があります。
だから過去問を学習します。

実は機械学習も同様で「本番の試験で正解すること」、言い換えると「答えを知らない問題に対して正しい答えを導くこと」を目的としています。
これは「予測する」ということに他なりません。
ただ、「予測する」という言葉だけでは抽象的すぎるので、上記のように具体的な言葉で説明できるようにしておくことが重要ですね。
過去問は答えがわかる
過去問にはすでに答えがわかっているという特徴もあります。
本番の試験さながらの問題であると同時に、その答えも解答例といったかたちで明らかになっています。
むしろ答えがわかっているからこそ学習ができるのであって、答えが明らかになっていないのに問題文だけ覚えても本番の試験で良い点はとれないですよね。
機械学習においても同様です。機械学習では過去問として過去のたくさんのデータを学習します。
その学習する過去のデータというのは「問題」だけのデータではなく「問題と答え」のセットです(※)。
答えが明らかになっているからこそ「こういう問題のときはこういう答え」というように学習することができ、答えを知らない問題に対しての正答率も上がっていきます。
ここまでの話を一旦整理すると以下のようになります。
機械学習は受験勉強の過去問学習と同様「過去の問題と答えのセット」の学習により「答えを知らない問題に対しても正しい答えを導くこと」を目指すもの
※ちなみに「問題と答え」ではなく「問題」だけのデータを学習する機械学習の手法もありますが、ここではその話は割愛させていただきます。
過去問学習のスタンス
ここで受験勉強で過去問を学習したときのことをもう一度思い出してみてください。
みなさんはどのように過去問を学習していたでしょうか?
おそらく過去問の学習といってもいろんな方法があると思います。
質よりも量でとにかく多くの年次の過去問をひたすら解きまくるタイプの学習法もあれば、逆に質を重視して問題の本質を理解しようとするタイプの学習法もあると思います。
さまざまな学習スタンスがあるなかで、悪い例として「丸暗記型」と「単純思考型」の学習スタンスがあげられます。
「丸暗記型」というのは過去問の問題と答えを一言一句丸暗記して本質的な部分は全く理解しようとしないタイプです。
懸命に時間をかけて学習しようとするのですが、本質的な理解はできていません。
この学習スタンスは答えを丸暗記しているので過去問に対してはほぼ100%正解することができますが、本番はじめて目にする試験では良い結果を残せません。
一方「単純思考型」というのは「こういう問題はこういう答えになるものだ」と物事を単純化して考えてしまうタイプです。
「単純に言うとどういうことなのか?」ということばかりを重視し、過去問1問1問に対してはざっくりとアバウトな感じで学習を進めていきます。
学習不足な面が否めず、あらためて過去問を解くと不正解となることが比較的多くなります。
ただ単純化した自論が仮に問題の本質に近いものであったならば、本番の試験では正解率が高くなることもあります。

このような過去問学習のスタンスの話は機械学習にもあてはまります。
機械学習においてもいろいろなタイプがあり、それぞれ学習スタンスに違いがあります。
そして過去問学習と同様に、過去のデータを学習し過ぎるタイプ(つまり「丸暗記型」)や、単純化思考が強すぎて過去のデータを十分学べていないタイプ(つまり「単純思考型」)が悪い例としてあげられます。
機械学習と一口に言っても、その学習スタンスはさまざまあり、悪い学習スタンスに陥らないように気をつけることが重要だということをぜひ覚えておいておきましょう。
なお、この学習スタンスの「丸暗記型」「単純思考型」という論点は極めて重要なところなのでまた別の記事にて詳しく書きたいと思います。
機械学習は不完全
もうひとつ重要な話があります。
それは機械学習は不完全、つまり、答えを知らない問題に対して「完全に」正しい答えを導くことは不可能だということです。
その理由は、どんなにたくさんの過去のデータ(問題と答えのセット)を持っていても、本番の「想定外」まで完全に予測することはできないからです。
受験勉強の過去問学習の例で考えてみましょう。
大体の場合において本番の試験というのは、その出題範囲や設問構成など過去問と類似している部分が多くあります。
一方で過去問からは全く想定できないような問題が出題されることも少なくありません。
問題作成担当者がたまたま交代していて問題文のクセが変わったり、出題者のひらめきによって奇抜な問題が作成されたり、多かれ少なかれ「想定外」があるものです。
これを過去問から予測しようとすることは極めて困難です。
つまり機械学習は気まぐれに発生する想定外まで予測することはできないので、完全に正しい答えを導くということは不可能なのです。
これは機械学習が万能ではないと指摘される1つの理由でもあります。
まとめ
ここまでの話についてポイントを整理します。
- 機械学習の目的は「答えを知らない問題に対して答えを導くこと」
- そのために過去問勉強と同様に「過去の問題と答えのセット」を学習する
- 学習スタンスの悪い例として「丸暗記型」「単純思考型」がある
- 機械学習により気まぐれな「想定外」まで予測することは不可能
機械学習が受験勉強における過去問学習と似ているということをご理解いただけたでしょうか。
機械学習とは一体何をしているものなのか、ぜひ過去問学習を例にあげながら誰かに説明してみてくださいね。
なお、上記の内容について機械学習の専門用語を用いると、
- 過去問を「データ」
- 過去問の問題データを「説明変数」
- 過去問の答えデータを「目的変数」
- その学習スタイルを「モデリング」
- 丸暗記型の学習スタイルを「過学習モデル」
- 単純思考型の学習スタイルを「未学習モデル」
- 本番の試験の想定外を「予測不能な誤差項」
と呼ぶこともできます。頭の片隅に入れておいていただければと思います。
今回は以上になります。
最後まで読んでいただきありがとうございました!

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。
2021年3月リリース後すでに20,000人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!
※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。
