機械学習

教師あり 教師なし学習とは? [Day4]

はじめに

この記事では機械学習における「教師あり学習」と「教師なし学習」について考えていきます。

「教師あり・なし学習ってよく聞くけど、そもそも教師って何?」

「教師なし学習って教師なしで何を学習できるの?」

といった疑問に答えていきたいと思います!

tota
tota
文系出身データアナリストのtotaです!初心者でも分かるように解説していきますね!

今回も受験勉強の過去問学習を例に考えていきたいと思います。

なお「機械学習が何をしているのか」については以下の記事もご覧ください。

機械学習とは?いったい何が行われているの? [Day1]この記事では機械学習は一体何をしているのかについて、抽象的な表現をなるべく避け、具体例とともに考えていきます。...
過去問学習を例に「教師あり学習」「教師なし学習」を考えていきましょう!

「教師」とは何か?

機械学習とは例えるならば受験勉強の過去問学習であり、過去問として過去のたくさんのデータ(問題と答えのセット)から「こういう問題のときはこういう答え」というような学習を繰り返していきます。

そして機械学習の文脈では「問題」のことを「説明変数」「特徴量」、「答え」を「目的変数」「ターゲット」と呼ぶ、という話でした。

(以降は「説明変数」「目的変数」という用語を使っていきます)

この機械学習が学習する説明変数と目的変数のセットというのは、受験勉強の過去問の例で言うと以下のようになります。

説明変数 2017年度本試験の問題 2018年度本試験の問題 2019年度本試験の問題
目的変数 2017年度本試験の解答 2018年度本試験の解答 2019年度本試験の解答

実は「教師あり/教師なし」の「教師」とは上記の「目的変数」のことを言います。

上記の過去問の例で言うと、各年度の【解答】が機械学習における「教師」ということになります。

したがって上記のような説明変数と目的変数のセットを学習することを「教師あり学習」と呼びます。

「教師あり学習」は「説明変数と目的変数のセット」を学習する!

機械学習では多くの場合この教師あり学習を行います。

というのも、機械学習はある説明変数を与えたときの目的変数の値の予測が目的であることが多く、そのためには説明変数と目的変数をセットで学習していく必要があるからです。

「教師なし」とは?

では教師なし学習、つまり教師がないというのはどういうことか。

それは「目的変数」がない状態のデータを学習することを言います。

受験勉強の過去問の例で言うと以下のようになります。

説明変数 2017年度本試験の問題 2018年度本試験の問題 2019年度本試験の問題
目的変数 なし なし なし
「目的変数」にあたるデータ(解答)がない!

つまり教師なし学習というのは、過去問の学習をしようとする際にその解答がまったくわからない状態です。

この状態で一体何を学習できるのでしょうか。

過去問の「問題」だけをいくら学習したとしても、少なくとも本番の試験で良い成績を残すことは難しそうです。

つまり教師なし学習は目的変数の値を予測するという点においては役に立たなそうです。

「教師なし学習」は「目的変数の予測」には効果がなさそう…

一方で「問題=説明変数」だけからでも得られる情報があります。

それは説明変数同士の比較から得られる情報です。

例えば「2017年度の問題」と「2019年度の問題」を比較すると異なる部分が多かったり、

「2017年度の問題」と「2018年度の問題」を比較すると類似する部分が多かったりといった情報が得られます。

これはグルーピングにつながります。

つまり、教師なし学習では「問題=説明変数」同士の比較を通じて「グルーピング」をすることができます。

過去問の話で言うと問題が類似する年度をグルーピングしたり、マーケティング調査などにおいては似たような購買行動の顧客をグルーピングしたりすることができます。

「教師なし学習」はグルーピングに使える!

教師なし学習の注意点

教師なし学習は確かにグルーピングという面で役に立ちます。

しかし、グルーピングするだけではSo What?(だから何?)状態だということには注意すべきです。

教師あり学習では具体的な数値やYes/Noの結果を得ることができます。

しかし教師なし学習によるグルーピングの方は、データをその類似性に着目してグルーピングしているだけで、具体的な数値やYes/Noの結果を導くものではありません。

過去問をどんなにグルーピングできたとしても本番の試験での正答率があがるわけではないです。

また、顧客の購買行動をどんなにグルーピングできても新商品を買ってくれるかどうかは不明です。

つまりグルーピングそのものにはあまり意味がありません。

「教師なし学習」でグルーピングをするだけでは自己満足で終わる!

データを通じたグルーピングにはおもしろさがあります。

血液型占いや星座占いが好きと言われる日本人との相性も良さそうです(これもまたグルーピングですが…)。

しかしグルーピングして終わりではなく「So What?(だから何?)」をしっかり考えて分析を深掘りすることを忘れないようにしましょう。

まとめ

最後に今回の記事のポイントを整理します。

  • 「教師」とは「説明変数と目的変数」の「目的変数」のこと
  • 教師あり学習は「説明変数」と「目的変数」をセットで学習するもの
  • 教師なし学習は「目的変数」のない「説明変数」のみを学習するもの
  • 教師なし学習は「説明変数」同士を比較しグルーピングできる
  • 教師なし学習はSo What?(だから何?)に注意

今回は以上になります。

最後まで読んでいただきありがとうございました!

統計学ベーシック講座【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに20,000人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...