はじめに
この記事では機械学習における「関数式」について考えていきます。
「機械学習ってブラックボックスでよくわからん…」
「機械学習って何を学習して何ができるようになるの…?」
といった疑問に答えていきたいと思います!
読み終えると機械学習の「中身」をイメージできるようになります。
関数式とは関係性のルール
機械学習とは例えるならば受験勉強の過去問学習です。
機械学習では過去問として過去のたくさんのデータ(問題と答えのセット)から、「こういう問題のときはこういう答え」というような学習を繰り返します。
これにより答えを知らない問題に対しての正答率も上がっていきます。

※なお、「機械学習が何をしているのか」については以下の記事をご覧ください。

そして機械学習における関数式とは、上記の「問題」と「答え」の間にあると思われる両者の「関係性のルール」を表現したものと言えます。
機械学習はこの「問題」と「答え」の関係性のルールを作り出すことで「答えを知らない問題に対して正しい答え」を導こうとするのです。
ここでこれまで「問題」「答え」と表現していた用語について、
実はこの「問題」のことを「説明変数」とか「特徴量」と言い、
「答え」のことを「目的変数」とか「ターゲット」と言います。

これ以降では「問題」を「説明変数」、「答え」を「目的変数」と表現していきます。
それではその「説明変数」と「目的変数」の関係性のルールについて具体的な例で考えてみましょう。
例えばいま、ある駅周辺のマンション価格を予測したかったとします。
このとき過去のマンション取引のデータに関する以下のような3つのデータセットが手元にあったとします。
説明変数 | 駅徒歩3分のときは? | 駅徒歩6分のときは? | 駅徒歩9分のときは? |
---|---|---|---|
目的変数 | 8,000万円 | 7,700万円 | 7,400万円 |
このデータをみると、説明変数と目的変数の間に関係性が隠れていることがわかると思います。
それは駅徒歩所要時間(以下「駅徒歩」)が長くなると、マンション価格が下がっていくという関係性です。

さらにはその関係性は反比例の関係にあり、駅徒歩が1分長くなると、マンション価格が100万円下がるという具体的なルールも見つけることができます。
このような「説明変数」と「目的変数」の「関係性のルール」を機械学習では関数と呼びます。
この「関係性のルール」を作り出すことで、まだ学習していない説明変数の値(上記の例で言うと「駅徒歩4分の場合、5分の場合」など)に対しても目的変数の値を導くことができるようになります。
完全なルールは存在しない
この関係性のルールについて、重要な論点があります。
それは関係性のルールには必ず不完全性が残るということです。
先ほどのマンション価格の例(以下表)で考えます。
説明変数 | 駅徒歩3分のときは? | 駅徒歩6分のときは? | 駅徒歩9分のときは? |
---|---|---|---|
目的変数 | 8,000万円 | 7,700万円 | 7,400万円 |
先ほど私たちは駅徒歩とマンション価格に関する3つのデータから、駅徒歩が1分長くなるとマンション価格が100万円下がるという関係性のルールを見つけました。
しかしこの関係性のルールはあくまでマンション価格と駅徒歩のみとの関係性です。
逆に言うと、駅徒歩以外の無数の情報については考慮されていないことになります。

確かに駅徒歩だけでも考慮できる情報はたくさんあります。
駅徒歩が長いということは駅からの「距離」が離れているということもわかります。
また、駅徒歩が短ければ電車利用者が多いと想定され、マンションで確保されている駐車場が少ないということが言えるかもしれません。
しかし、駅徒歩とはまったくの無関係な情報については、駅徒歩データをどんなにいじくりまわしても考慮することができません。
例えばそのマンションが北向きか南向きかという情報は駅徒歩データから見出すことは難しいでしょう。
また、そもそも世の中にはデータ化できない情報もたくさんあります。
したがって、どうしても考慮できない情報が残ってしまい、関係性のルールは必ず不完全なものとなるのです。
ルールのタイプ
ここまで、機械学習の関数式とは説明変数と目的変数の間の関係性のルールであり、そのルールはいつも不完全なものになるということを見てきました。
ではこの関係性のルールについて、具体的にどんなタイプがあるのかを「ルールの複雑さ/単純さ」という視点で考えてみます。
まずあげられるのが「複雑タイプ」です。
このタイプは説明変数と目的変数の関係性というよりも、説明変数と目的変数のパターンそのものを丸暗記してしまうイメージです。
先ほどのマンション価格の例で言うと「駅徒歩3分のときは8,000万円」「駅徒歩6分のときは…」と1つ1つ場合分けするようにルール化します。
1つ1つの説明変数と目的変数のセットを丸暗記しているのでドンピシャな値を導き出してくれる一方、データの数だけ場合分けをすることになり複雑さが増してしまいます。
一方で「単純タイプ」のルールもあります。
このタイプの特徴はとにかくルールを単純化してしまうところにあります。
先ほどのマンション価格の例で言うと「駅徒歩が1分長くなると価格は必ず100万円下がる」と単純化し(決めつけ)てしまうイメージです。
ルールとして解釈はしやすいのですが、データに寄り添った細やかで柔軟なルール作りはできません。

この「複雑タイプ」と「単純タイプ」のどちらのルールが優れているか、それはケースバイケースです。
先ほどのマンション価格の例のように比較的単純な法則性(駅徒歩が長くなれば価格は反比例して安くなる)がありそうなら単純タイプが適しているかもしれません。
逆に単純な法則に落とし込むことが難しそうなケースでは複雑タイプのルールの方がよいかもしれません。
どんなタイプのルールを作り出すか、その見極めこそデータサイエンティストと呼ばれる人たちの腕の見せ所になります。
機械学習はブラックボックス?
よくAIや機械学習はブラックボックスだと言われます。
このブラックボックスかどうかという話は、ここまで見てきた説明変数と目的変数の間の関係性のルール(つまり、機械学習の関数式のことですね)がどれくらい複雑なものか、という話に置き換えることができます。
例えば先ほどのマンション価格の例ですと、単純タイプのルールは「駅徒歩が1分長くなると価格は必ず100万円下がる」と解釈がしやすいルールである一方、複雑タイプのルールはデータの数だけ1つ1つ場合分けしており「要はどういうことか」という解釈がしづらいルールとなっています。
この「解釈のしやすさ/しにくさ」こそがブラックボックスかどうかという話そのものです。
つまりは、説明変数と目的変数の間の関係性のルールの複雑さの度合いによって、その機械学習のブラックボックスさの度合いが決まってくるということが言えそうです。
AIや機械学習が決して「生まれながらにしてブラックボックス」というわけではないことをぜひ理解しておきましょう。
まとめ
最後に今回の記事のポイントを整理します。
- 機械学習の関数式とは「説明変数」と「目的変数」の「関係性のルール」
- 関係性のルールはいつも不完全
- 「複雑なタイプ」と「単純なタイプ」のルールがある
- ルールの複雑さは解釈のしづらさにつながる
- 解釈のしづらさは「ブラックボックス」につながる
今回は機械学習における関数式、つまり「説明変数」と「目的変数」の「関係性のルール」について具体的に見てきました。
この関係性のルールは機械学習のまさに「中身」とも言える部分ですので、ぜひ一緒に覚えておきましょう。
今回は以上になります。
最後まで読んでいただきありがとうございました。

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。
2021年3月リリース後すでに20,000人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!
※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。
