2.1.2
Ridge & Lasso
Resumo
- A regressão Ridge encolhe os coeficientes suavemente com uma penalidade L2 e permanece estável mesmo quando as características são altamente correlacionadas.
- A regressão Lasso aplica uma penalidade L1 que pode levar alguns coeficientes exatamente a zero, fornecendo seleção de características integrada e interpretabilidade.
- O ajuste da intensidade de regularização \(\alpha\) controla o equilíbrio entre ajustar os dados de treinamento e generalizar para dados não vistos.
- Combinar padronização com validação cruzada ajuda a escolher hiperparâmetros que previnem o sobreajuste mantendo o desempenho forte.
Intuição #
Este método deve ser interpretado por meio de suas suposições, condições dos dados e como as escolhas de parâmetros afetam a generalização.
Explicação Detalhada #
Formulação Matemática #
Ambos os métodos minimizam a perda usual de erro quadrático mais um termo de regularização:
- Regressão Ridge $$ \min_{\boldsymbol\beta, b} \sum_{i=1}^{n} \left(y_i - (\boldsymbol\beta^\top \mathbf{x}_i + b)\right)^2 + \alpha \lVert \boldsymbol\beta \rVert_2^2 $$
- Regressão Lasso $$ \min_{\boldsymbol\beta, b} \sum_{i=1}^{n} \left(y_i - (\boldsymbol\beta^\top \mathbf{x}_i + b)\right)^2 + \alpha \lVert \boldsymbol\beta \rVert_1 $$
Valores maiores de \(\alpha\) impõem encolhimento mais forte. No caso do Lasso, quando \(\alpha\) excede um limiar, alguns coeficientes se tornam exatamente zero, produzindo modelos esparsos.
Experimentos em Python #
O exemplo abaixo aplica Ridge, Lasso e mínimos quadrados ordinários ao mesmo problema de regressão sintética. Comparamos as magnitudes dos coeficientes e as pontuações de generalização.
| |
Leitura dos resultados #
- A Ridge encolhe ligeiramente todos os coeficientes e permanece estável mesmo com multicolinearidade.
- A Lasso empurra alguns coeficientes para zero, mantendo apenas as características mais importantes.
- Selecione \(\alpha\) via validação cruzada para equilibrar viés e variância, e padronize as características para garantir uma comparação justa entre dimensões.
Referências #
- Hoerl, A. E., & Kennard, R. W. (1970). Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics, 12(1), 55–67.
- Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society: Series B, 58(1), 267–288.
- Zou, H., & Hastie, T. (2005). Regularization and Variable Selection via the Elastic Net. Journal of the Royal Statistical Society: Series B, 67(2), 301–320.