機械学習

一般化加法モデルとは? [Day19]

はじめに

こちらの記事では線形重回帰モデルを拡張した一般化加法モデル(GAM)について考えていきます。

「一般化加法モデルは重回帰モデルをどう拡張しているの?」

「一般化加法モデルのメリットやデメリットは?」

といった疑問に答えていきたいと思います!

tota
tota
文系出身データアナリストのtotaです!初心者でも分かるように解説していきますね!

線形回帰の拡張

Day16〜Day18では線形回帰分析を拡張させるいくつかの手法についてみてきました。

正則化(縮小推定)とは? [Day16]はじめに こちらの記事では線形回帰分析の傾き度合いを縮小する「正則化(縮小推定)」について考えていきます。 「正則化ってどんなも...
次元削減(主成分回帰)とは? [Day17]はじめに こちらの記事では説明変数を結合して単純化する「次元削減(縮小推定)」について考えていきます。 「次元削減ってどういうも...
平滑化スプラインとは? [Day18]こちらの記事では線形回帰分析の学びを踏まえ、非線形な分析手法である「平滑化スプライン」について考えていきます。 「平滑化スプライン...

それらは線形回帰分析の弱点を是正しようというものでしたが、その弱点には2種類あります。

1つは丸暗記型過ぎる(過学習)という弱点です。

たくさんの種類の説明変数を与えられたとき、線形回帰分析は学習効果の小さい説明変数についても過剰に学習してしまうという弱点があります。

この弱点を克服するために用いたのが正則化(リッジ回帰、Lasso回帰)であり次元削減(主成分回帰)でした。

これらにより説明変数ごとに学習度合いを調整(制限)して過学習を防いでいました。

もう1つの弱点は単純思考型過ぎる(未学習)という弱点です。

線形回帰分析の根底には「線形」という前提があり、それがバイアスとなってしまうという弱点があります。

この弱点克服のために基底関数平滑化スプラインを用いました。

これらにより線形回帰分析をベースとしながらも非線形な関係性を表現することが可能となりました。

まとめますと、丸暗記型過ぎる(過学習)という弱点を克服するための手法(正則化、次元削減)と、

単純思考型過ぎる(未学習)という弱点を克服するための手法(基底関数、平滑化スプライン)

という2つのアプローチを通じて線形回帰分析の拡張を行ってきたということになります。

一般化加法モデル(GAM)

一般化加法モデルは上記のうち単純思考型(未学習)過ぎるという弱点を克服するための手法(基底関数、平滑化スプライン)について、1つの説明変数だけではなく2種類以上の説明変数に対しても適用できるように一般化(拡張)するものです。

2種類以上の説明変数がある場合を線形重回帰分析と言いますので、一般化加法モデルは線形重回帰分析を拡張したものという言われ方をします。

例えばいまマンション販売について、目的変数として「マンション価格」、説明変数として「駅徒歩所要時間(以下「駅徒歩」)」「部屋の広さ」「ベランダの向き」というデータが手元にあったとして

このデータをもとに「マンション価格」を「駅徒歩」「部屋の広さ」「ベランダの向き」から導き出す関係性のルールを見出したいとします。

このとき一般化加法モデルでは「駅徒歩」「部屋の広さ」「ベランダの向き」の3つの説明変数について、各々に前提を変えて「マンション価格」との関係性ルールを考えることができます。

例えば「駅徒歩」については多項式回帰を、「部屋の広さ」については平滑化スプライン、「ベランダの向き」については階段関数…といった具合です。

そして各々の説明変数ごとに見出した関係性のルールを最後に合体(足し合わせ)します。

これによって線形回帰分析の「加法性」を維持しながら非線形性を考慮することができます。

イメージとしては回帰分析を足し合わせて構成されるとても大規模な回帰分析というものです。

GAMの利点

GAMの最大の利点は説明変数に応じて関係性のルールを適用できることです。

これにより説明変数ごとに「非線形性」を考慮でき予測の精度が高まる可能性があります。

つまり「線形」というバイアスを説明変数ごとに取り除いてあげることができるイメージです。

また、GAMは「加法性」を維持してくれます。

つまり説明変数ごとに個別に関係性のルールを見出すので、

各説明変数で別々に目的変数への影響度合いを確認することができます。

先のマンションデータの例でいうと

「駅徒歩」と「マンション価格」、

「部屋の広さ」と「マンション価格」、

「ベランダの向き」と「マンション価格」

という個別の関係性について確認することができます。

したがってGAMは予測のみならず説明や因果推論のためにも用いやすい手法と言えます。

GAMの限界

一方でGAMには限界があります。

それはあくまで「加法性」を前提としたモデルであるという点です。

「加法性」を前提としているので説明変数間の交互作用(シナジー効果)※については考慮しきれない面があります。

交互作用項を追加することもできますが、その場合関係性のルールがますます複雑になってしまうことは否めません。

※交互作用(シナジー効果)についてはDay8で説明しています。ご関心がありましたらDay8もご覧ください。

線形回帰分析(応用その1) [Day8]はじめに こちらの記事は「線形回帰分析」に関する応用的な内容となっております。 「線形回帰分析の加法性や線形性って何?」 ...

また確かに

「駅徒歩」と「マンション価格」、

「部屋の広さ」と「マンション価格」、

「ベランダの向き」と「マンション価格」

という個別の関係性について確認することができる一方で、

各々複雑で異なる関係性のルールを用いており人間の頭では少々理解がしづらいというのも事実です。

したがって説明や因果推論にも用いやすいものの、解釈しやすいとまでは言えない点に限界があります。

まとめ

最後に今回の記事のポイントを整理します。

  • 線形回帰分析の拡張は2つのアプローチ
  • 1つは丸暗記型過ぎる(過学習)という弱点を是正するアプローチ:正則化/次元削減…
  • もう1つは単純思考型過ぎる(未学習)という弱点を是正するアプローチ:基底関数/平滑化スプライン…
  • 一般化加法モデルは単純思考型過ぎる(未学習)という弱点を是正するアプローチを2種類以上の説明変数に対しても適用できるように一般化したもの
  • 説明変数ごとにバイアスを取り除いてあげることができる
  • 加法性は維持されるので説明や因果推論にも用いやすい
  • 一方で交互作用を考慮できない点や解釈しやすいとまでは言えない点などの限界がある

今回の一般化加法モデルは線形回帰分析、そしてその拡張モデルについての集大成と言えるテーマです。

この一般化加法モデルまで理解できれば線形回帰分析についての基礎はマスターできたと言えるでしょう!

ここまで本当にお疲れ様でした!

最後まで読んでいただきありがとうございました!

〈 おしらせ 〉
統計検定®2級合格を独学で目指す方のためのサイト『統計BASE』を公開しました!
統計検定®2級の過去問を丁寧に解説する過去問ブログと、計算力を高める数学ブログを更新しています。統計検定®2級の合格を目指す方は以下よりぜひのぞいてみてください!
『統計BASE』:htts://toukeibase.jp

統計学ベーシック講座【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに20,000人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...