機械学習

ロジスティック回帰とは? [Day10]

はじめに

こちらの記事では「ロジスティック回帰」について考えていきます。

「ロジスティック回帰ってそもそも何?線形回帰とどう違うの?」

「よく聞く「対数オッズ」ってどういうものなの?」

といった疑問に答えていきたいと思います!

tota
tota
文系出身データアナリストのtotaです!初心者でも分かるように解説していきますね!

なお「回帰と分類の違いとは?」については以下の記事もご覧ください。

回帰と分類の違いとは?[Day5]はじめに この記事では機械学習における「回帰」と「分類」について考えていきます。 「機械学習の回帰と分類ってそもそも何?」 ...

回帰と分類(おさらい)

ロジスティック回帰について考えていく前に、まずは回帰と分類の違いについておさらいしておきましょう。

というのもロジスティック回帰は「回帰」という名前でありながら「分類」を行う手法であるという少々混乱しやすい面があるからです。

回帰と分類の違いは一言で言うと「答え=目的変数」のタイプの違いです。

回帰か分類かは目的変数のタイプで決まる!

機械学習は受験勉強の過去問学習同様「過去の問題(説明変数)答え(目的変数)のセット」を学習し、説明変数と目的変数の間の関係性のルールを見出そうとするものでした。

その「説明変数と目的変数のセット」のうち「目的変数のタイプ」によって回帰なのか分類なのかが決まります。

そして、目的変数のタイプが量的に変化していくタイプの機械学習を「回帰」

目的変数のタイプが質的に変化するタイプの機械学習を「分類」と呼ぶとDay5で見てきましたね。

目的変数が量的なら回帰、質的なら分類!

ロジスティック回帰

ロジスティック回帰は「分類」を行うための手法です。

より具体的に言うと、線形回帰を用いて分類を行うために

線形な関係性のルールを少々変換してあげる手法です。

以下の住宅の所有形態(持家/賃貸)年収のデータで具体的に考えていきましょう。

住宅と年収のデータでロジスティック回帰分析を考えてみよう!
説明変数 年収500万円 年収800万円 年収900万円
目的変数 賃貸=0 持家=1 持家=1

「分類」は上記のように目的変数のタイプが質的(カテゴリー)なタイプの機械学習です。

上記の場合は住宅の所有形態について「持家」「賃貸」というカテゴリーがあることがわかります。

なお便宜上、賃貸=0、持家=1と数値で置き換えています。

このような場合に線形回帰で見出した関係性のルールではうまく当てはまりません。

例えば上記のデータから線形回帰分析により関係性のルールを導き、

改めて問題を解いて(目的変数を予測して)みると以下のような予測結果となります。

説明変数 年収500万円 800万円 900万円
目的変数 賃貸=0 持家=1 持家=1
予測値 0.04 0.85 1.12

年収900万円のときの予測結果をみると「1.12」となっています。

1に近いので持家(=1)と分類することもできそうですが、

これが2とか3などといったより大きな数字となってくると解釈が難しくなってきます。

そこで、賃貸(=0)か持家(=1)かの判断が難しくなるような予測結果(”2”とか”ー3”など)にならないように、

関係性のルールを変換してあげる分析手法がロジスティック回帰になります。

分類問題では線形回帰分析だと予測値の解釈が難しい!

0から1におさめる

ではどのように関係性のルールを変換するのでしょうか?

実はこれはとてもシンプルで、単に予測結果が0〜1におさまるように

関係性のルールを変換するだけです。

例えば先ほどのデータに対してロジスティック回帰でも関係性のルールを導き、

改めて問題を解いて目的変数の値を予測すると以下のようになります。

「予測値(線)」とあるのが線形回帰による目的変数の予測値で、

「予測値(ロ)」とあるのがロジスティック回帰による目的変数の予測値です。

説明変数 年収500万円 800万円 900万円
目的変数 賃貸=0 持家=1 持家=1
予測値(線) 0.04 0.85 1.12
予測値(ロ) 0 1 1

ロジスティック回帰の特徴は、予測結果が0〜1に収まることに加え、

上記のようになるべく0(賃貸)か1(持家)に近しくなるという点にあります。

上記の予測結果を見ると、

線形回帰の予測結果では0.04や0.85となっていたところが「0」、

あるいは、1.12となっていたところが「1」

確かに0もしくは1へと数値が変換されていることがわかります。

ロジスティック回帰分析は予測値を0または1に近しくなるよう変換している!

※上記の「0」や「1」は実際には0や1にほぼほぼ等しい数字で、0や1とイコールの関係ではありませんが便宜上「0」「1」と置いています。このような変換を行うことで、分類問題における予測結果の解釈をしやすくしているのです。

オッズ

ロジスティック回帰においては導き出した関係性のルールの解釈に注意する必要があります。

というのも直線的な関係性のルールを「変換」しているため、

そのままの状態では線形回帰のような「一定な傾き度合い」によって関係性を表現することができないからです。

そこでロジスティック回帰ではオッズという考え方を利用します。

例えば性別の例で言うと、

5人中4人が男性で1人が女性であれば

男性のオッズは4 ←4÷(5-4)

女性のオッズは0.25 ←1÷(5-1)

となります。

先の住宅の所有形態(持家/賃貸)と年収のデータの例で言うと、

持家となるオッズ※と年収の関係を一定の傾き度合いで説明できるようになります。

つまり、年収が増加するほど持家のオッズが増加する、

といった関係性を表現できるようになります。

※厳密にはオッズの「対数」となります。

ロジスティック回帰分析の解釈はオッズを用いる!

まとめ

最後に今回の記事のポイントを整理します。

  • ロジスティック回帰は「分類」を行う分析手法
  • 目的変数の予測値が「0〜1」におさまるように関係性のルールを変換する
  • その予測値は「0」か「1」に近しくなる(ように変換される)
  • 説明変数と目的変数の関係性を表現する際はオッズ(対数オッズ)を用いる

ロジスティック回帰は少々複雑な話も出てきますが、

目的変数が質的(カテゴリー)タイプの場合に、

線形回帰を変換しただけのものだと考えれば理解しやすいかと思います。

興味がある方は詳細な関数式なども調べてみてくださいね(ただ上記の概念だけ理解しておくだけでも十分だと思います)。

今回は以上になります。

最後まで読んでいただきありがとうございました!

統計学ベーシック講座【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに20,000人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...