はじめに
こちらの記事では「線形判別分析」について考えていきます。
確率密度関数やベイズの定理など専門的な話も関係してきますが、
なるべく専門用語を用いずに平易な言葉で一緒に考えていきましょう。
「線形判別分析のポイントは?」
「確率密度関数とかベイズの定理とかよくわからん!」
といった疑問や悩みに答えていきたいと思います!
確率関数
線形判別分析を理解するためには2つの概念について知っておく必要があります。
それは「確率関数」と「ベイズの定理」です。
まずは確率関数(※)について考えていきます。
(※)正確には「確率密度関数」と言います。
確率関数という言葉は「確率」と「関数」という言葉に分解できます。
ここで「関数」については以下の「Day3:機械学習の関数式とは?」で
学んだことを覚えていますでしょうか?

簡単におさらいすると、機械学習における関数とは
「説明変数」と「目的変数」の「関係性のルール」であり、
機械学習の「中身」とも言えるような部分だという話でした。
そして確率関数における「関数」も、関係性のルールということに変わりはありませんが、
何と何の関係性の話なのかについては頭を切り替えて考える必要があります。
例えば以下の年収(説明変数)と住宅の所有形態(持家/賃貸)(目的変数)のデータを見てみましょう。
説明変数 | 年収500万円 | 600万円 | 600万円 | 700万円 |
---|---|---|---|---|
目的変数 | 賃貸=0 | 賃貸=0 | 持家=1 | 持家=1 |
便宜上、賃貸を0、持家を1と数字に置き換えています。
上記の場合で言うと関数とは年収と住宅所有形態(持家or賃貸)の関係性のルールということになりますが、
注意しないといけないのは「確率関数」と言った場合の関数とは
「年収の値そのもの」と「年収がその値となる確率」との関係性のルールになるという点です。
つまり確率関数の場合、目的変数である住宅所有形態については一旦置いておいて、
説明変数である年収がどういった値をとりやすいか(要は説明変数がその値をとる「頻度」)の発生確率を考えます。
以下のデータを見てみましょう。
目的変数のカテゴリー別に、上に「賃貸」のデータ、下に「持家」のデータをまとめています。
説明変数 | 年収400万円 | 600万円 | 500万円 | 600万円 |
---|---|---|---|---|
目的変数 | 賃貸=0 | 賃貸=0 | 賃貸=0 | 賃貸=0 |
説明変数 | 年収700万円 | 800万円 | 800万円 | 900万円 |
---|---|---|---|---|
目的変数 | 持家=1 | 持家=1 | 持家=1 | 持家=1 |
このときの確率関数を考えてみると、
答えが「賃貸」となるときには年収500万円となる確率が最も高く、
500万円から離れていくほど確率が低くなっていきそうに思えます。
また「持家」となるときには年収800万円となる確率が最も高く、
800万円から離れていくほど確率が低くなっていきそうに思えます。
実は線形判別分析はこのような確率関数の考え方、
つまり「持家or賃貸(特定の目的変数のカテゴリ)となるときにある年収(ある説明変数の値)となる確率」を利用して分析を行うものです。
ここでいま私たちが知りたいのは
「ある年収(ある説明変数の値)のときに持家or賃貸(特定の目的変数のカテゴリ)となる確率」
です。
というのもその確率が分かれば年収から持家or賃貸の分類を予測することができるからです。
しかし先ほどの「持家or賃貸(特定の目的変数のカテゴリ)となるときにある年収(ある説明変数の値)となる確率」というのは
(説明変数と目的変数について)知りたいことと「逆」になってしまっています。
そこでベイズの定理を用いることになります。
ベイズの定理
さて、ベイズの定理についてですが、
これは確率について説明変数と目的変数を逆に変換する(入れ替える)道具である
と思っていただくとよいと思います。
というのもベイズの定理は先の例で言うと以下のような関係性のことだからです。
【①ある年収となる確率】×【②ある年収のときの持家の確率】
=【③持家の確率】×【④持家のときにある年収となる確率】(※)
(※)実際には上記を変形した式をベイスの定理と呼びます。
つまりベイズの定理は【②ある年収のときの持家の確率】を
その逆とも言える【④持家のときにある年収となる確率】から
導き出すことを可能にするのです(※)。
(※)①と③はデータから比較的容易に算出できるということもあり、②を④から導けるという点にフォーカスしています。
このようなベイズの定理を用いることで
推定してあげた確率関数、
すなわち【④持家のときにある年収となる確率】から、
知りたかった【②ある年収のときの持家の確率】を導く手法が
線形判別分析になります。
“線形”判別
ところでなぜ「線形」判別という名前なのでしょうか。
それは上記のような考え方のもとに関係性のルールを数式化して展開すると、
その数式が「一定の傾き度合い」を持つ数式となることに起因しています。
一定の傾き度合いということは「直線」になりますので「線形」判別というわけですね。
実は線形判別分析には変形版もあります。
その1つが2次判別分析というものです。
線形判別分析は「直線」を前提とするいわば単純思考型の機械学習です。
一方で2次判別分析は線形判別分析よりも丸暗記型の機械学習です。
つまり「直線」という前提よりもデータの多様性を優先して、
より柔軟にデータにあてはまるように変形した機械学習になります。
2次判別分析については少々応用的ですので、まずは線形判別分析が
「確率関数をベイズの定理で『逆』に変換することで、目的変数がどのカテゴリーとなるかの確率を導く」分析手法
だと理解しておけば大丈夫です(※)。
(※)関心のある方は線形判別分析や2次判別分析の関数式について調べてみてくださいね。
なお、機械学習の単純思考型、丸暗記型といった学習スタンスについては以下の記事もご覧ください。

まとめ
最後に今回の記事のポイントを整理します。
- 線形判別分析は「確率関数」と「ベイズの定理」を用いた分析手法
- 確率関数は「説明変数がどういった値をとりやすいかに関する確率」についてのルール
- 線形判別分析ではまず「持家(特定の目的変数のカテゴリ)となるときに、ある年収(ある説明変数の値)となる確率」を推定する
- それをベイズの定理を用いて「ある年収(ある説明変数の値)のときの持家(特定の目的変数のカテゴリ)となる確率」に変換する
- ベイズの定理は「確率について説明変数と目的変数を逆に変換する道具」というイメージ
- 線形判別分析よりも丸暗記型の2次判別分析という手法もある
今回は以上になります。
最後まで読んでいただきありがとうございました!

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。
2021年3月リリース後すでに20,000人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!
※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。
