機械学習

線形判別分析とは? [Day11]

はじめに

こちらの記事では「線形判別分析」について考えていきます。

確率密度関数ベイズの定理など専門的な話も関係してきますが、

なるべく専門用語を用いずに平易な言葉で一緒に考えていきましょう。

「線形判別分析のポイントは?」

「確率密度関数とかベイズの定理とかよくわからん!」

といった疑問や悩みに答えていきたいと思います!

tota
tota
文系出身データアナリストのtotaです!初心者でも分かるように解説していきますね!

確率関数

線形判別分析を理解するためには2つの概念について知っておく必要があります。

それは「確率関数」「ベイズの定理」です。

まずは確率関数(※)について考えていきます。

(※)正確には「確率密度関数」と言います。

確率(密度)関数について考えよう!

確率関数という言葉は「確率」「関数」という言葉に分解できます。

ここで「関数」については以下の「Day3:機械学習の関数式とは?」で

学んだことを覚えていますでしょうか?

機械学習の関数式とは? [Day3]この記事では機械学習における「関数式」について考えていきます。読み終えると機械学習の「中身」をイメージできるようになります。...

簡単におさらいすると、機械学習における関数とは

「説明変数」と「目的変数」の「関係性のルール」であり、

機械学習の「中身」とも言えるような部分だという話でした。

そして確率関数における「関数」も、関係性のルールということに変わりはありませんが、

何と何の関係性の話なのかについては頭を切り替えて考える必要があります。

例えば以下の年収(説明変数)住宅の所有形態(持家/賃貸)(目的変数)のデータを見てみましょう。

住宅データで確率関数について考えてみよう!
説明変数 年収500万円 600万円 600万円 700万円
目的変数 賃貸=0 賃貸=0 持家=1 持家=1

便宜上、賃貸を0、持家を1と数字に置き換えています。

上記の場合で言うと関数とは年収住宅所有形態(持家or賃貸)の関係性のルールということになりますが、

注意しないといけないのは「確率関数」と言った場合の関数とは

「年収の値そのもの」と「年収がその値となる確率」との関係性のルールになるという点です。

つまり確率関数の場合、目的変数である住宅所有形態については一旦置いておいて、

説明変数である年収がどういった値をとりやすいか(要は説明変数がその値をとる「頻度」)発生確率を考えます。

以下のデータを見てみましょう。

目的変数のカテゴリー別に、上に「賃貸」のデータ、下に「持家」のデータをまとめています。

カテゴリ別のデータで確率関数を考えてみよう!
説明変数 年収400万円 600万円 500万円 600万円
目的変数 賃貸=0 賃貸=0 賃貸=0 賃貸=0
説明変数 年収700万円 800万円 800万円 900万円
目的変数 持家=1 持家=1 持家=1 持家=1

このときの確率関数を考えてみると、

答えが「賃貸」となるときには年収500万円となる確率が最も高く、

500万円から離れていくほど確率が低くなっていきそうに思えます。

また「持家」となるときには年収800万円となる確率が最も高く、

800万円から離れていくほど確率が低くなっていきそうに思えます。

実は線形判別分析はこのような確率関数の考え方、

つまり「持家or賃貸(特定の目的変数のカテゴリ)となるときにある年収(ある説明変数の値)となる確率」を利用して分析を行うものです。

線形判別分析は目的変数のカテゴリ別に説明変数がどのような値となるかの確率を考える!

ここでいま私たちが知りたいのは

「ある年収(ある説明変数の値)のときに持家or賃貸(特定の目的変数のカテゴリ)となる確率」

です。

というのもその確率が分かれば年収から持家or賃貸の分類を予測することができるからです。

しかし先ほどの「持家or賃貸(特定の目的変数のカテゴリ)となるときにある年収(ある説明変数の値)となる確率」というのは

(説明変数と目的変数について)知りたいことと「逆」になってしまっています。

そこでベイズの定理を用いることになります。

知りたいことと「逆」の確率を考えるためにベイズの定理を用いる!

ベイズの定理

さて、ベイズの定理についてですが、

これは確率について説明変数と目的変数を逆に変換する(入れ替える)道具である

と思っていただくとよいと思います。

というのもベイズの定理は先の例で言うと以下のような関係性のことだからです。

【①ある年収となる確率】×【②ある年収のときの持家の確率】
=【③持家の確率】×【④持家のときにある年収となる確率】(※)

(※)実際には上記を変形した式をベイスの定理と呼びます。

つまりベイズの定理は【②ある年収のときの持家の確率】

その逆とも言える【④持家のときにある年収となる確率】から

導き出すことを可能にするのです(※)。

(※)①と③はデータから比較的容易に算出できるということもあり、②を④から導けるという点にフォーカスしています。

このようなベイズの定理を用いることで

推定してあげた確率関数、

すなわち【④持家のときにある年収となる確率】から、

知りたかった【②ある年収のときの持家の確率】を導く手法が

線形判別分析になります。

ベイズの定理により【②ある年収のときの持家の確率】【④持家のときにある年収となる確率】から導くのが線形判別分析

“線形”判別

ところでなぜ「線形」判別という名前なのでしょうか。

それは上記のような考え方のもとに関係性のルールを数式化して展開すると、

その数式が「一定の傾き度合い」を持つ数式となることに起因しています。

一定の傾き度合いということは「直線」になりますので「線形」判別というわけですね。

実は線形判別分析には変形版もあります。

その1つが2次判別分析というものです。

線形判別分析は「直線」を前提とするいわば単純思考型の機械学習です。

一方で2次判別分析は線形判別分析よりも丸暗記型の機械学習です。

つまり「直線」という前提よりもデータの多様性を優先して、

より柔軟にデータにあてはまるように変形した機械学習になります。

2次判別分析については少々応用的ですので、まずは線形判別分析が

「確率関数をベイズの定理で『逆』に変換することで、目的変数がどのカテゴリーとなるかの確率を導く」分析手法

だと理解しておけば大丈夫です(※)。

(※)関心のある方は線形判別分析や2次判別分析の関数式について調べてみてくださいね。

なお、機械学習の単純思考型、丸暗記型といった学習スタンスについては以下の記事もご覧ください。

分散とバイアスのトレードオフとは? [Day2]この記事では機械学習における最重要論点である「分散とバイアスのトレードオフ」について、受験勉強における過去問学習を例にあげながら平易な言葉で説明します。...

まとめ

最後に今回の記事のポイントを整理します。

  • 線形判別分析は「確率関数」「ベイズの定理」を用いた分析手法
  • 確率関数は「説明変数がどういった値をとりやすいかに関する確率」についてのルール
  • 線形判別分析ではまず持家(特定の目的変数のカテゴリ)となるときに、ある年収(ある説明変数の値)となる確率」を推定する
  • それをベイズの定理を用いてある年収(ある説明変数の値)のときの持家(特定の目的変数のカテゴリ)となる確率」変換する
  • ベイズの定理は「確率について説明変数と目的変数を逆に変換する道具」というイメージ
  • 線形判別分析よりも丸暗記型の2次判別分析という手法もある

今回は以上になります。

最後まで読んでいただきありがとうございました!

統計学ベーシック講座【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに8,500人以上の方に受講いただきベストセラーとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...