機械学習

重回帰分析とは? [Day7]

はじめに

この記事では機械学習における「重回帰分析」について考えていきます。

「重回帰分析ってどういうもの?」

「重回帰分析の注意点は?」

といった疑問に答えていきたいと思います!

tota
tota
文系出身データアナリストのtotaです!初心者でも分かるように解説していきますね!

今回も「マンションの販売」を例に考えていきたいと思います。

なお「線形回帰分析」については以下の記事もご覧ください。

線形回帰分析とは? [Day6]はじめに この記事では機械学習における「線形回帰分析」について考えていきます。 「線形回帰ってなんで線形というの?」 「線...

線形回帰分析について簡単におさらいすると、線とは直線であり、線形回帰分析では手元のデータから直線の水準と傾き度合いを推定して直線を導き出していました。

また、直線の信頼性を確認したり、推定した直線による予測値と実測値との差に着目して精度のテストを行う、といったことが重要でしたね。

重回帰分析とは?

さて、重回帰分析をイメージするために今回もマンション販売のデータを見てみましょう。

マンションデータで考えてみよう!
説明変数 駅徒歩3分 駅徒歩6分 駅徒歩9分
説明変数 面積80㎡ 面積70㎡ 面積65㎡
目的変数 8,000万円 7,700万円 7,200万円

これまで見てきたデータと同様に説明変数と目的変数のセットのデータです。

しかし、これまでと異なるのは説明変数が1種類ではないということです。

上記のデータを見ると「駅徒歩所要時間(以下「駅徒歩」)」「部屋の面積」という2種類の説明変数があることがわかります。

このように説明変数の種類が2種類以上ある場合の線形回帰分析を重回帰分析と呼びます。

重回帰分析は説明変数の種類が2種類以上!

そしてその特徴は説明変数の種類ごとに直線の傾き度合いを推定してあげる点です。

上記のデータで言うと、駅徒歩部屋面積という2種類の説明変数があります。

そこで、駅徒歩について考えたときの直線の傾き度合い、部屋面積について考えたときの直線の傾き度合いをそれぞれ推定します。

説明変数の種類ごとに直線の傾き度合いを推定してあげる!

線形回帰分析のうち、説明変数の種類が2種類以上あり、それぞれの説明変数について各々の傾き度合いを推定してあげる手法が重回帰分析だとイメージしておきましょう。

重回帰分析の注意点

重回帰分析のメリットはたくさんの種類の説明変数を考慮した分析を行える点です。

一方、注意しなければならないこともたくさんあります。

先ほどのデータをもう一度見てみましょう。

説明変数 駅徒歩3分 駅徒歩6分 駅徒歩9分
説明変数 面積80㎡ 面積70㎡ 面積65㎡
目的変数 8,000万円 7,700万円 7,200万円

このデータを見ると、駅徒歩が長くなるほど価格が安くなっていて、また、部屋面積が広くなるほど価格が高くなっています。

したがって縦軸に価格を設定しつつ、横軸に駅徒歩を設定した場合には右肩下がりの傾きの直線。

横軸に部屋面積を設定した場合には右肩上がりの傾きの直線を描きたいところです。

しかし実際には上記のデータについて重回帰分析を行うと、横軸を部屋面積に設定したときに直線が右肩下がりの直線になってしまいます。

つまり重回帰分析の結果、直感とは異なり部屋面積が大きいほど価格が安くなるという矛盾を感じる結果を読み取れてしまうのです。

このような直感と異なる結果が重回帰分析ではしばしば起こります。

重回帰分析は直感と異なる結果に注意!

これは重回帰分析を含む線形回帰分析が「線形性」「加法性」という前提を置いていることに起因します。

この辺の話については重要なので別の記事で考えていきたいと思います。

まずは上記のように直感とは異なる結果が生じうるという重回帰分析の注意点にはぜひ気をつけておきましょう。

説明変数は多いほうがよいか

重回帰分析においては、説明変数の種類の多さにも注意する必要があります。

以下のデータをもう一度確認してみましょう。

説明変数 駅徒歩3分 駅徒歩6分 駅徒歩9分
説明変数 面積80㎡ 面積70㎡ 面積65㎡
目的変数 8,000万円 7,700万円 7,200万円

このデータを分析した結果、直感とは異なり部屋面積が大きいほど価格が安くなるという矛盾を感じる結果になってしまいました。

しかし一方で「部屋面積」という説明変数があることで、実は分析結果のデータへの当てはまり自体はよくなるという性質があります。

説明変数の種類が増えれば”当てはまり”はどんどんよくなる?

“当てはまり”とは?

ここで「分析結果の当てはまり」とはどういうことでしょうか。

機械学習では「説明変数」と「目的変数」から「両者の関係性のルール」を学習します(この関係性のルールを関数式と言います。以下のDay3で学びましたね!)。

機械学習の関数式とは? [Day3]この記事では機械学習における「関数式」について考えていきます。読み終えると機械学習の「中身」をイメージできるようになります。...
説明変数 駅徒歩3分 駅徒歩6分 駅徒歩9分
説明変数 面積80㎡ 面積70㎡ 面積65㎡
目的変数 8,000万円 7,700万円 7,200万円

上記(再掲)のデータの例で言うと、駅徒歩と部屋面積という説明変数と、マンション価格という目的変数から、機械学習により両者の関係性のルールを学習していることになります。

したがって分析結果の当てはまりというのは、学習した関係性のルールが上記のデータと整合しているかどうかということになります。

“当てはまり”とは学習した関係性のルールと与えられた学習用のデータとの整合性

ここで注意すべきは、分析結果の当てはまりの良さはその分析結果の精度の高さとは別の話だという点です。

当てはまりというのはあくまで学習したデータへの当てはまりです。

それは機械学習の目的である「未知なる問題」に対して正しい答えを導けるかどうかとは別の話です。

確かに説明変数の種類が多い方が学習した関係性のルールの「当てはまりの良さ」は良くなります。

一方で「未知なる問題」に対して正しい答え(目的変数の予測値)を導けるとは限らないということに注意しましょう。

“当てはまり”がよくても”未知なる問題”に対して正しい答えを導けるとは限らない!

説明変数の種類の制限

加えて説明変数の種類がデータ数よりも多いとそもそも分析が不可能になるという注意点もあります。

先の例では説明変数の種類が「駅徒歩」と「部屋面積」の2種類であるのに対し、データ数はそれよりも多い3セットでした。

ここに例えば「部屋階数」と「ベランダの向き」という説明変数が追加されたとします。

そうすると説明変数が全4種類となりデータの数(3セット)よりも多くなってしまいます。

これは推定すべき対象(知りたい傾き度合い)が4つあるのに対して、ヒントとなるデータが3つしかない状態とイメージすると良いでしょう。

このような状態では傾き度合いを導き出せないですよね。

したがって、説明変数の種類はデータ数よりも少なくないといけないという制限があることになります。

説明変数の種類がデータの数を上回ると直線の傾きを導き出せない!

まとめ

最後に今回の記事のポイントを整理します。

  • 重回帰分析は説明変数が2種類以上
  • 説明変数の種類ごとに線の傾き度合いを推定
  • 分析結果が直感と異なることが多々ある
  • 説明変数の種類が多い方が学習した関係性のルールの当てはまりがよくなる
  • 一方でその関係性のルールが未知なるデータに通用するかは別の話
  • 説明変数の種類はデータの数より少なくないといけない

今回は以上になります。

最後まで読んでいただきありがとうございました!

統計学ベーシック講座【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに8,500人以上の方に受講いただきベストセラーとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...