はじめに
この記事では機械学習における「教師あり学習」と「教師なし学習」について考えていきます。
「教師あり・なし学習ってよく聞くけど、そもそも教師って何?」
「教師なし学習って教師なしで何を学習できるの?」
といった疑問に答えていきたいと思います!
今回も受験勉強の過去問学習を例に考えていきたいと思います。
なお「機械学習が何をしているのか」については以下の記事もご覧ください。

「教師」とは何か?
機械学習とは例えるならば受験勉強の過去問学習であり、過去問として過去のたくさんのデータ(問題と答えのセット)から「こういう問題のときはこういう答え」というような学習を繰り返していきます。

そして機械学習の文脈では「問題」のことを「説明変数」「特徴量」、「答え」を「目的変数」「ターゲット」と呼ぶ、という話でした。

(以降は「説明変数」「目的変数」という用語を使っていきます)
この機械学習が学習する「説明変数と目的変数のセット」というのは、受験勉強の過去問の例で言うと以下のようになります。
説明変数 | 2017年度本試験の問題 | 2018年度本試験の問題 | 2019年度本試験の問題 |
---|---|---|---|
目的変数 | 2017年度本試験の解答 | 2018年度本試験の解答 | 2019年度本試験の解答 |
実は「教師あり/教師なし」の「教師」とは上記の「目的変数」のことを言います。
上記の過去問の例で言うと、各年度の【解答】が機械学習における「教師」ということになります。
したがって上記のような説明変数と目的変数のセットを学習することを「教師あり学習」と呼びます。
機械学習では多くの場合この教師あり学習を行います。
というのも、機械学習はある説明変数を与えたときの目的変数の値の予測が目的であることが多く、そのためには説明変数と目的変数をセットで学習していく必要があるからです。
「教師なし」とは?
では教師なし学習、つまり教師がないというのはどういうことか。
それは「目的変数」がない状態のデータを学習することを言います。
受験勉強の過去問の例で言うと以下のようになります。
説明変数 | 2017年度本試験の問題 | 2018年度本試験の問題 | 2019年度本試験の問題 |
---|---|---|---|
目的変数 | なし | なし | なし |
つまり教師なし学習というのは、過去問の学習をしようとする際にその解答がまったくわからない状態です。
この状態で一体何を学習できるのでしょうか。
過去問の「問題」だけをいくら学習したとしても、少なくとも本番の試験で良い成績を残すことは難しそうです。
つまり教師なし学習は目的変数の値を予測するという点においては役に立たなそうです。
一方で「問題=説明変数」だけからでも得られる情報があります。
それは説明変数同士の比較から得られる情報です。
例えば「2017年度の問題」と「2019年度の問題」を比較すると異なる部分が多かったり、
「2017年度の問題」と「2018年度の問題」を比較すると類似する部分が多かったりといった情報が得られます。
これは「グルーピング」につながります。

つまり、教師なし学習では「問題=説明変数」同士の比較を通じて「グルーピング」をすることができます。
過去問の話で言うと問題が類似する年度をグルーピングしたり、マーケティング調査などにおいては似たような購買行動の顧客をグルーピングしたりすることができます。
教師なし学習の注意点
教師なし学習は確かにグルーピングという面で役に立ちます。
しかし、グルーピングするだけでは「So What?(だから何?)」状態だということには注意すべきです。
教師あり学習では具体的な数値やYes/Noの結果を得ることができます。
しかし教師なし学習によるグルーピングの方は、データをその類似性に着目してグルーピングしているだけで、具体的な数値やYes/Noの結果を導くものではありません。
過去問をどんなにグルーピングできたとしても本番の試験での正答率があがるわけではないです。
また、顧客の購買行動をどんなにグルーピングできても新商品を買ってくれるかどうかは不明です。
つまりグルーピングそのものにはあまり意味がありません。
データを通じたグルーピングにはおもしろさがあります。
血液型占いや星座占いが好きと言われる日本人との相性も良さそうです(これもまたグルーピングですが…)。
しかしグルーピングして終わりではなく「So What?(だから何?)」をしっかり考えて分析を深掘りすることを忘れないようにしましょう。
まとめ
最後に今回の記事のポイントを整理します。
- 「教師」とは「説明変数と目的変数」の「目的変数」のこと
- 教師あり学習は「説明変数」と「目的変数」をセットで学習するもの
- 教師なし学習は「目的変数」のない「説明変数」のみを学習するもの
- 教師なし学習は「説明変数」同士を比較しグルーピングできる
- 教師なし学習は「So What?(だから何?)」に注意
今回は以上になります。
最後まで読んでいただきありがとうございました!

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。
2021年3月リリース後すでに20,000人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!
※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。
