機械学習

線形回帰分析(応用その2) [Day9]

はじめに

こちらの記事は「線形回帰分析」に関する応用的な内容「その2」です。

「線形回帰分析の「誤差」ってどうして大切なの?」

「外れ値が線形回帰分析に与える影響って何?」

「多重共線性はどうして問題なの?」

といった疑問に答えていきたいと思います!

tota
tota
文系出身データアナリストのtotaです!初心者でも分かるように解説していきますね!

なお「線形回帰分析(応用その1)」については以下の記事もご覧ください。

線形回帰分析(応用その1) [Day8]はじめに こちらの記事は「線形回帰分析」に関する応用的な内容となっております。 「線形回帰分析の加法性や線形性って何?」 ...

前回(Day8)は線形回帰分析の加法性線形性という2つの前提について考えていきました。

その前提のために「シナジー効果」「変化の加速・減速」を考慮できず、それらを考慮するためには分析の工夫が必要になるという話でした。

以下ではその他の線形回帰分析の注意点を見ていきたいと思います。

誤差のクセの強さ

線形回帰分析は過去のデータ(説明変数と目的変数のセット)を学習し、

各説明変数と目的変数との間に直線の関係性のルールを見出す分析手法でした。

この見出した直線の関係性のルールが、

学習したデータに対してちゃんと当てはまっているかどうか。

それを確認するために、見出した関係性のルールで学習済みのデータを再度解くことを考えてみます。

このとき重要なのが解答結果(予測値)と本当の答え(実測値)との誤差です。

もちろん誤差が小さくなっていることも重要ですが、誤差に「クセ」がないかどうかということも重要です。

というのも誤差にクセがあるということは、見出した関係性のルールではこの問題をうまく解けないことを示唆しているからです。

誤差にクセがある状態とはどういう状態でしょうか。

以下のマンションの価格と駅徒歩所要時間(以下「駅徒歩」)のデータで考えてみます。

マンションデータで「誤差のクセ」を考えてみよう!
説明変数 駅徒歩1分 5分 10分 15分 20分
目的変数 8,000万円 6,500万円 5,500万円 5,000万円 4,970万円
予測値 7,420万円 6,800万円 6,025万円 5,250万円 4,475万円
誤差 -580万円 +300万円 +525万円 +250万円 -495万円

学習用の問題と答えのデータ(上2行)に加えて、

見出した関係性のルールで予測した値と目的変数(実測値)との誤差(下2行)を表にしています。

上記の表の誤差には2つのクセがあることがわかります。

1つは両端の誤差のクセです。

駅徒歩5〜15分のときは誤差がプラスの値になっているのに対し、

両端の駅徒歩1分と20分のときの誤差はマイナスになっています。

このように誤差の値が両端部分だけ他の部分と変わってくることはしばしば起こりうることですので注意するようにしましょう。

データの端の部分に誤差のクセが生じやすい!

もう1つの誤差のクセは誤差の規則性です。

もう一度先ほどの表を見てみましょう。

説明変数 駅徒歩1分 5分 10分 15分 20分
目的変数 8,000万円 6,500万円 5,500万円 5,000万円 4,970万円
予測値 7,420万円 6,800万円 6,025万円 5,250万円 4,475万円
誤差 -580万円 +300万円 +525万円 +250万円 -495万円

上記の例では駅徒歩5〜15分のときの誤差の値を見ると連続してプラスになっています。

この区間では誤差がプラスになるという規則性を見い出せます。

このような誤差の規則性もしばしば見られる誤差のクセですので注意しておきましょう。

誤差の規則性も誤差のクセ!

外れ値は2タイプ

線形回帰分析では外れ値にも注意する必要があります。

というのも線形回帰分析が推定しようとする「直線の傾き度合い」は外れ値によって左右されやすいからです。

外れ値にも2つのタイプがあります。

1つは目的変数の値が「外れて」しまっているタイプ

もう1つは説明変数の値が「外れて」しまっているタイプです。

以下のマンション(価格と駅徒歩)のデータで考えてみましょう。

マンションデータで外れ値を考えてみよう!
説明変数 駅徒歩8分 9分 10分 11分 30分
目的変数 5,800万円 5,600万円 7,500万円 5,430万円 3,000万円

まず駅徒歩10分のときの価格(目的変数の値)が「外れて」います。

駅徒歩10分のときの価格は7,500万円で、

駅徒歩8、9、11分のときの価格と比べて金額がかなり高くなっています。

これが「目的変数の値が外れるタイプ」です。

また、説明変数を見ると駅徒歩30分というデータがあります。

これはその他の説明変数の値(駅徒歩8〜11分)から大きく外れています。

このような外れ値が「説明変数の値が外れるタイプ」です。

外れ値には説明変数の値が外れるタイプと目的変数の値が外れるタイプがある

なお、説明変数が複数種類あるときは説明変数を組み合わせたときの外れ具合も外れ値であるかどうかの判断材料となります。

このような外れ値は線形回帰分析により推定する「直線の傾き度合い」に大きな影響を与えます。

線形回帰分析は線形性、つまり傾き度合いは常に一定という前提を持っていますので、そのような傾き度合いへの影響は見過ごせません。

多重共線性

最後に多重共線性の話です。

多重共線性は説明変数が複数種類あるときに異なる説明変数間に強い関係性があることを言います。

前回(Day8)も見た以下のマンションに関するデータ(駅徒歩、面積、価格)を見てみましょう。

マンションデータで多重共線性を考えてみよう!
説明変数 駅徒歩3分 駅徒歩6分 駅徒歩9分
説明変数 面積80㎡ 面積70㎡ 面積65㎡
目的変数 8,000万円 7,700万円 7,200万円

多重共線性とは上記のデータで言うと、駅徒歩が長くなるほど面積は小さくなるというような説明変数間における関係性のことです。

多重共線性の問題点はどちらかの説明変数の影響力を打ち消してしまうことです。

上記の例では駅徒歩が長く、面積が小さくなるほど価格が安くなっています。

しかしこれを線形回帰分析すると、

駅徒歩が長くなるほど価格は安くなるという関係は抽出できるのですが、

面積が小さくなるほど価格が安くなると言う関係を見落とすことになります。

したがって線形回帰分析においては説明変数間に強い関係性がないかどうかをチェックした上で分析を行う必要があります。

まとめ

最後に今回の記事のポイントを整理します。

  • 線形回帰分析は予測と答えの「誤差のクセ」に注意
  • 外れ値は「説明変数の外れ値」「目的変数の外れ値」がある
  • 外れ値は推定する傾き度合いに大きな影響を与える
  • 多重共線性は説明変数間に関係性があること
  • 多重共線性は片方の説明変数の影響を打ち消してしまう

線形回帰分析はシンプルでわかりやすい一方で奥が深い分析手法です。

論点も多く理解が大変なところもあるかもしれませんが、

そんなときは線形回帰分析の本質である「加法性」「線形性」に立ち戻って考えてみるとよいかもしれません。

今回は以上になります。

最後まで読んでいただきありがとうございました!

統計学ベーシック講座【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに20,000人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...