機械学習

回帰と分類の違いとは?[Day5]

はじめに

この記事では機械学習における「回帰」と「分類」について考えていきます。

「機械学習の回帰と分類ってそもそも何?」

「回帰と分類って何がどう違うの?」

といった疑問に答えていきたいと思います!

tota
tota
文系出身データアナリストのtotaです!初心者でも分かるように解説していきますね!

今回は「マンションの販売」を例に考えていきたいと思います。

なお「機械学習が何をしているのか」については以下の記事もご覧ください。

機械学習とは?いったい何が行われているの? [Day1]この記事では機械学習は一体何をしているのかについて、抽象的な表現をなるべく避け、具体例とともに考えていきます。...
機械学習は「説明変数と目的変数のセット」を学習する!

「目的変数」のタイプ(回帰か分類か)

ここで「説明変数と目的変数のセット」のうち「目的変数」の方を考えてみましょう。

というのも、この「目的変数」のタイプの違いによってその機械学習が回帰なのか分類なのかが決まってくるからです。

機械学習は「目的変数」のタイプで回帰か分類が決まる!

機械学習が学習する「目的変数」とは具体的にどういったものでしたっけ?

例えば、マンション販売に関する以下のような2つのタイプの「説明変数と目的変数のセット」を考えてみます。

「目的変数」のタイプの異なる2つのデータを考えてみよう!

1つ目のデータは駅徒歩所要時間(以下「駅徒歩」)とマンションの価格に関するデータです。

説明変数 駅徒歩3分のときは? 駅徒歩6分のときは? 駅徒歩9分のときは?
目的変数 8,000万円 7,700万円 7,400万円

説明変数として駅徒歩が、目的変数としてマンション価格が与えられています。

2つ目のデータは駅徒歩とマンションの(価格ではなく)売れ行きに関するデータです。

説明変数 駅徒歩3分のときは? 駅徒歩6分のときは? 駅徒歩9分のときは?
目的変数 売れる! 売れない… 売れる!

駅徒歩が説明変数として与えられている点は先ほどと変わりないのですが、

目的変数としてはマンション価格ではなくマンションの売れ行き(売れる/売れない)に関する情報が与えられています。

この2つの「説明変数と目的変数のセット」の違いこそが機械学習の回帰と分類の違いになります!

以下で詳しく見ていきましょう。

量を導く回帰

説明変数 駅徒歩3分のときは? 駅徒歩6分のときは? 駅徒歩9分のときは?
目的変数 8,000万円 7,700万円 7,400万円

こちらの1つ目のデータ例の特徴は、目的変数にあたるマンションの価格が量的(数値的)な情報であるという点です。

このマンション価格は説明変数の値によって8,000万円、7,700万円、7,400万円…と変化し、とりうる数値の「量」が変化していきます。

したがってこのマンション価格のような情報を「量的変数」と呼びます。

マンション価格のような情報は「量的変数」!

マンション価格のような情報には大きく2つの特徴があります。

1つはその情報に「安い/高い」あるいは「小さい/大きい」といった量的な意味合いが含まれているという点です。

7,700万円よりも8,000万円の方が高い、というように量的に大小を語ることができます。

もう1つの特徴は情報が連続「的」な値をとりうるという点です。

上記の例では8,000万円、7,700万円、7,400万円の3パターンのみでしたが、実際にはマンション価格は7,401万円、7,402万円、7,403万円…と無数の値※をとりうるものです。

※厳密には7,401万円と7,402万円も連続しない離散「的」なものとも考えられますが、ここでは説明のため連続「的」と一括にして考えています。

このようにマンション価格は量的な意味を持つ連続的な値をとる情報(つまり「量的変数」)と言えます。

そしてこのような情報(量的変数)を「目的変数」として導こうとする機械学習の手法を回帰と呼びます。

機械学習で学習する「説明変数と目的変数のセット」における目的変数が上記のような量的変数の場合は「回帰」だというようにまずは理解しておきましょう。

目的変数が量的変数の場合は「回帰」!

質を導く分類

では先の例でマンションの価格ではなく、マンションの売れ行きに関しての情報が与えられた場合はどうでしょうか。

説明変数 駅徒歩3分のときは? 駅徒歩6分のときは? 駅徒歩9分のときは?
目的変数 売れる! 売れない 売れる!

こちらの目的変数にあたるマンションの「売れる/売れない」の情報には「安い/高い」あるいは「小さい/大きい」といった量的な意味は含まれていません。

また、売れるか売れないかの2パターンしかなく、連続的な値をとりうるものでもなさそうです。

このように情報に量的な意味合いが含まれず、とりうる情報のパターンが非連続的な情報を「質的変数」と呼びます。

「変数」という言葉にはそのとりうるパターン(質)が変化することが加味されています。

そして、マンションの「売れる/売れない」のような情報を「目的変数」として導こうとする機械学習の手法を「分類」と呼びます。

機械学習で学習する目的変数が量的な意味合いを持たず非連続的なパターンをとりうる情報の場合は「分類」だというように理解しておきましょう。

目的変数が質的変数の場合は「分類」!

回帰と分類の違い

ここまで機械学習が目的変数として学習する情報が量的な情報である場合が「回帰」質的な情報である場合が「分類」だということを見てきました。

この回帰と分類にはもう1つ重要な違いがあります。

それは学習した結果の評価の仕方の違いです。

回帰と分類で学習結果の評価の仕方に違いがある!

機械学習の目的は「説明変数と目的変数のセットを学習し、まだ知らない問題(説明変数の値)に対しても正しい答え(目的変数の値)を導くこと」です。

つまり学習して終わりではなく、学習した結果正しい目的変数の値を導けるようになったかどうかを評価してあげる必要があります。

回帰の場合は導く目的変数の値の本当の値との「差」に着目して評価します。

学習した後に説明変数の情報のみを与えて目的変数の値を導かせてみて、導いた目的変数の値と本当の値の差に着目して評価します。

学習した後に導けた値と本当の値が近しい値(つまりその差が小)となっていればうまく学習できていると言えます。

回帰の場合は予測した値と本当の値との差を評価!

一方で分類の場合は導く値が量的なものではないので「差」という概念では考えにくい面があります。

そこで分類の場合は導く値の「正誤」に着目して評価します。

つまり学習した後に導けた値と本当の値が同じ(正解)か異なる(不正解)かに着目します。

当然、正解となる割合が高いほどうまく学習できていると言えます(※)。

分類の場合は予測した値の「正誤」を評価!

※分類問題の評価方法は奥が深いので別の記事にて詳細な評価方法を書かせていただきます。

まとめ

最後に今回の記事のポイントを整理します。

  • 回帰か分類かは「目的変数」のタイプで決まる
  • 目的変数が量的な情報なら「回帰」
  • 目的変数が質的な情報なら「分類」
  • 回帰と分類は評価の仕方が異なる

 

今回は以上になります。最後まで読んでいただきありがとうございました。

統計学ベーシック講座【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに20,000人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...