はじめに
この記事では機械学習における「線形回帰分析」について考えていきます。
「線形回帰ってなんで線形というの?」
「線形回帰分析の精度ってどう測るの?」
といった疑問に答えていきたいと思います!
今回も「マンションの販売」を例に考えていきたいと思います。
なお、「機械学習は何をしているのか」については以下の記事もご覧ください。

“線”とは
線形回帰分析について考えていく前に、まずは「線」について考えてみましょう。
線形回帰分析でいうところの「線」というのは一体なんでしょうか。
いま画用紙に鉛筆で真っ直ぐな線を一本書いてみたとします。
線形回帰分析でいうところの「線」とはまさにこの直線のことを言います。
ただの線ではなく直線というところがポイントです。
機械学習においては直線を線形、直線でないものを非線形と明確に言葉を分けて考えます。
直線といってもいろいろな直線があります。
その直線を区別するためには直線に意味を与えてあげる必要があります。
直線の意味は2つの要素で決まります。
1つが直線の「水準」です。
先ほどの画用紙に引いた直線で考えると、その直線が画用紙の上の方にあるのか、下のほうにあるのかという水準です。
この直線の水準によって他の直線と区別できるようになります。
もう1つの要素は直線の「傾き度合い」です。
傾き度合いがどの程度か分かれば他の直線との区別ができるようになります。
先ほどの画用紙に書いた直線でいうと、画用紙のヨコに対して傾きのない(水平な)直線なのか、多少の傾きがある直線なのか、もしくは急な傾きのある直線なのか。
その「傾き度合い」によって直線の意味づけが可能になります。
“線”の推定
線形回帰分析の線とは直線でありその水準と傾き度合いで意味づけを行うものだということを見てきました。
それを理解した上で線形回帰分析とは何をするものなのかを考えていきます。
一言で言うと線形回帰分析は「線」の推定を行うものです。
具体的には「線の水準と傾き度合い」を推定するということです。
例えばマンションの価格と駅徒歩所要時間(以下「駅徒歩」)について以下のようなデータがあったとします。
説明変数 | 駅徒歩3分のときは? | 駅徒歩6分のときは? | 駅徒歩9分のときは? |
---|---|---|---|
目的変数 | 8,000万円 | 7,700万円 | 7,400万円 |
このデータを元に線の推定をしたいと思います。
そのためにはまずは線を引く画用紙を決める必要があります。
この画用紙には一般的に横軸に説明変数、縦軸に目的変数を設定するという決まりがあります。
今回の例では駅徒歩を横軸、マンション価格を縦軸とする画用紙になります。
説明変数 | 駅徒歩3分のときは? | 駅徒歩6分のときは? | 駅徒歩9分のときは? |
---|---|---|---|
目的変数 | 8,000万円 | 7,700万円 | 7,400万円 |
まず直線の傾き度合いを考えてみましょう。
データを見ると横軸の駅徒歩が3分増えるごとに、縦軸に設定したマンション価格が300万円減っていることが分かります。
つまり駅徒歩3分で300万円、1分で100万円減っていくような直線の傾き度合いになると推定することができそうです。
一方の直線の水準についてはデータから8,000万円〜7,400万円の水準となっていることが分かります。
なお、直線の水準はとくに画用紙の左端、今回の例では駅徒歩(分)が0分となる地点での水準で表現します。
駅徒歩が0分のときのデータは今回得られていませんが、1分ごとに100万円減っていくという傾き度合いを踏まえると、駅徒歩0分のときの価格水準は8,300万円と推定することができそうです。
以上から今回のデータからは駅徒歩0分のときに価格8,300万円という水準で、そこから駅徒歩1分増えるごとに価格が100万円ずつ減っていくような傾き度合いの直線を推定することができます。
このように、得られたデータ(問題と答えのセット)から直線の水準と傾き度合いを推定することで、どんな直線が描けるかを考えることが線形回帰分析ということになります。
”線”の信頼性
上記の線形回帰分析で推定した線、具体的には線の水準と線の傾き度合いはどの程度信頼できるものなのでしょうか。
これを考えるにあたり、マンション価格と駅徒歩のデータについて以下の2パターンのセットを見てみます。
説明変数 | 駅徒歩3分のときは? | 駅徒歩6分のときは? | 駅徒歩9分のときは? |
---|---|---|---|
目的変数 | 8,000万円 | 7,700万円 | 7,400万円 |
説明変数 | 駅徒歩5分のときは? | 駅徒歩6分のときは? | 駅徒歩7分のときは? |
---|---|---|---|
目的変数 | 7,800万円 | 7,700万円 | 7,600万円 |
お気づきかもしれませんが、上記のどちらのデータからも同じ直線を推定することになります。
というのもどちらもその直線の水準と傾き度合いが同じだからです。
具体的には駅徒歩0分のときは価格8,300万円で、そこから駅徒歩1分増えるごとに価格が100万円ずつ減っていくような傾き度合いの直線を両者ともに推定できます。
確かに同じ直線を推定することになりそうですが、実は1つ目のデータの方が2つ目のデータよりも信頼性は高くなります。
なぜなら1つ目のデータは駅徒歩3〜9分までの幅を持つのに対し、2つ目のデータは駅徒歩5〜7分とデータの幅が狭くなっているからです。
これは河川にかかる橋をイメージするとわかりやすいです。
河川にかかる橋が「直線」であり、それを支える柱(橋脚)の太さが「データの幅」にあたります。
幅が太い橋脚の方が狭い橋脚よりもそれを土台とする橋そのもの(直線)を安定させます。
先ほどの例で言うと駅徒歩のデータの幅が広い方が、それを元に推定する直線を安定させてくれるのです。
“線”のテスト
線形回帰分析においては線の水準と傾き度合いを推定し、その推定した線の信頼性を考えることが重要でした。
ここまでは手元のデータから線を推定する話です。
一方で機械学習の目的は「答えを知らない問題に対しても正しい答えを導くこと」です。
したがって、推定した線が未知の問題に対しても通用するかどうかをテストする必要があります。
例えば先ほどのマンション価格の例で、以下のようなデータを追加で取得できたとします。
説明変数 | 駅徒歩4分のときは? | 駅徒歩7分のときは? | 駅徒歩10分のときは? |
---|---|---|---|
目的変数 | 7,920万円 | 7,570万円 | 7,340万円 |
このデータについて先ほどの「駅徒歩0分のときは価格8,300万円で、そこから駅徒歩1分増えるごとに価格が100万円ずつ減っていく直線」で答えを予測してみます。
説明変数 | 駅徒歩4分のときは? | 駅徒歩7分のときは? | 駅徒歩10分のときは? |
---|---|---|---|
目的変数 | 7,920万円 | 7,570万円 | 7,340万円 |
予測結果 | 7,900万円 | 7,600万円 | 7,300万円 |
差 | -20万円 | +30万円 | -40万円 |
上記の通り目的変数の値(実測値)と推定した直線による予測との間に差が生じていることが分かります。
この「目的変数の値(実測値)と予測値との差」に着目して線のテストを行うのです。
具体的には、差が小さくなれば「精度の高い直線」、大きくなれば「精度の低い直線」と評価します。
詳細には目的変数の値と予測値との差を数値化・指標化(「決定係数」など)して評価するのですが、その計算式よりも上記の考え方自体の方がまずは重要ですので、ここまでの話をぜひ覚えておきましょう。
まとめ
最後に今回の記事のポイントを整理します。
- 線形回帰分析の線とは直線
- 直線は水準と傾き度合いに意味がある
- 線形回帰分析は手元のデータから水準と傾き度合いを推定すること
- 推定した直線の信頼性を確認する
- 推定した直線による予測値と目的変数の値(実測値)との差で直線をテストする
今回は以上になります。
最後まで読んでいただきありがとうございました!

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。
2021年3月リリース後すでに20,000人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!
※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。
