2.1.9
PLS 回帰 (Partial Least Squares)
まとめ
- PLS 回帰は説明変数と目的変数の共分散を最大化する潜在因子を抽出し、その上で回帰を行う教師あり次元圧縮法である。
- PCA と異なり目的変数の情報を反映した軸を学習するため、予測性能を保ちながら次元削減できる。
- 潜在因子数を調整すると、多重共線性が強い場合でも安定したモデルを構築できる。
- ローディングを可視化すると、どの特徴量の組み合わせが目的変数と強く関係しているかを説明できる。
- 主成分分析(PCA) — PLS と PCA の違いを理解するための前提
- 主成分回帰(PCR) — PLS との比較対象
直感 #
主成分回帰は説明変数の分散だけを基準に軸を決めるため、目的変数に効く方向が削られてしまうことがあります。PLS 回帰では説明変数と目的変数の両方を見ながら潜在因子を構成し、予測に有効な情報を残したまま次元を圧縮します。その結果、少ない因子でも予測性能を維持しやすくなります。
具体的な数式 #
説明変数行列 \(\mathbf{X}\) と目的変数ベクトル \(\mathbf{y}\) に対し、潜在スコア \(\mathbf{t} = \mathbf{X} \mathbf{w}\) と \(\mathbf{u} = \mathbf{y} c\) を交互に更新しながら、共分散 \(\mathbf{t}^\top \mathbf{u}\) が最大となる \(\mathbf{w}, c\) を求めます。この操作を繰り返し、得られた潜在因子上で線形回帰を行います。潜在因子数を \(k\) とすると、最終的な回帰モデルは
$$ \hat{y} = \mathbf{t} \boldsymbol{b} + b_0 $$の形になります。潜在因子数はクロスバリデーションなどで選ぶのが一般的です。
Pythonを用いた実験や説明 #
運動データセットで潜在因子数ごとの性能を比較します。
| |

実行結果の読み方 #
- 潜在因子数を増やすにつれて CV MSE が下がり、最小となる点を過ぎると悪化し始める。
x_loadings_とy_loadings_を確認すると、どの特徴量が潜在因子に寄与しているかが分かる。- 標準化を行うことで単位の異なる特徴量でもバランスの良い潜在因子が得られる。
参考文献 #
- Wold, H. (1975). Soft Modelling by Latent Variables: The Non-Linear Iterative Partial Least Squares (NIPALS) Approach. In Perspectives in Probability and Statistics. Academic Press.
- Geladi, P., & Kowalski, B. R. (1986). Partial Least-Squares Regression: A Tutorial. Analytica Chimica Acta, 185, 1–17.
- 主成分回帰 — 教師なし次元削減の回帰
- 主成分分析(PCA) — 教師なし次元削減
- リッジ・ラッソ回帰 — 正則化による多重共線性対策
係数パスと正則化 #
正則化係数による係数の変化を確認できます。