2.1.3
Regressão robusta
- O método dos mínimos quadrados ordinários (OLS) reage fortemente a outliers porque os resíduos quadrados explodem, de modo que uma única medição errônea pode distorcer todo o ajuste.
- A função de perda de Huber mantém a perda quadrática para resíduos pequenos, mas muda para uma penalidade linear para resíduos grandes, reduzindo a influência de pontos extremos.
- O ajuste do limiar \(\delta\) (epsilon no scikit-learn) e da penalidade L2 opcional \(\alpha\) equilibra robustez contra variância.
- A combinação de escalonamento com validação cruzada produz modelos estáveis em conjuntos de dados do mundo real que frequentemente misturam pontos nominais e anomalias.
Intuição #
Este método deve ser interpretado através de suas suposições, condições dos dados e como as escolhas de parâmetros afetam a generalização.
Explicação Detalhada #
Formulação Matemática #
Seja o resíduo \(r = y - \hat{y}\). Para um limiar escolhido \(\delta > 0\), a função de perda de Huber é
$$ \ell_\delta(r) = \begin{cases} \dfrac{1}{2} r^2, & |r| \le \delta, \\ \delta \bigl(|r| - \dfrac{1}{2}\delta\bigr), & |r| > \delta. \end{cases} $$Resíduos pequenos são elevados ao quadrado exatamente como no OLS, mas resíduos grandes crescem apenas linearmente. A função de influência (a derivada) portanto satura:
$$ \psi_\delta(r) = \begin{cases} r, & |r| \le \delta, \\ \delta\,\mathrm{sign}(r), & |r| > \delta. \end{cases} $$No scikit-learn, o limiar corresponde ao parâmetro epsilon. Adicionar uma penalidade L2 \(\alpha \lVert \boldsymbol\beta \rVert_2^2\) estabiliza ainda mais os coeficientes quando as variáveis estão correlacionadas.
Experimentos em Python #
Visualizamos as formas das funções de perda e comparamos OLS, Ridge e Huber em um pequeno conjunto de dados sintético que contém um único outlier extremo.
| |
Perda de Huber versus perda quadrática e absoluta #
| |
Conjunto de dados de exemplo com um outlier #
| |
Comparação entre OLS, Ridge e Huber #
| |
Interpretação dos resultados #
- O OLS (vermelho) é fortemente puxado pelo outlier.
- O Ridge (laranja) é ligeiramente mais estável graças à penalidade L2, mas ainda desvia.
- O Huber (verde) limita o impacto do outlier e segue melhor a tendência principal.
Referências #
- Huber, P. J. (1964). Robust Estimation of a Location Parameter. The Annals of Mathematical Statistics, 35(1), 73–101.
- Hampel, F. R. et al. (1986). Robust Statistics: The Approach Based on Influence Functions. Wiley.
- Huber, P. J., & Ronchetti, E. M. (2009). Robust Statistics (2nd ed.). Wiley.