2.1.3
Ρωμπάστ παλινδρόμηση
- Η μέθοδος ελαχίστων τετραγώνων (OLS) αντιδρά έντονα στις ακραίες τιμές, επειδή τα τετραγωνισμένα υπόλοιπα εκρήγνυνται, οπότε μια μόνο εσφαλμένη μέτρηση μπορεί να παραμορφώσει ολόκληρη την προσαρμογή.
- Η συνάρτηση απώλειας Huber διατηρεί τετραγωνική απώλεια για μικρά υπόλοιπα, αλλά μεταβαίνει σε γραμμική ποινή για μεγάλα, μειώνοντας την επιρροή ακραίων σημείων.
- Η ρύθμιση του κατωφλίου \(\delta\) (epsilon στο scikit-learn) και της προαιρετικής ποινής L2 \(\alpha\) εξισορροπεί την ανθεκτικότητα έναντι της διακύμανσης.
- Ο συνδυασμός κλιμάκωσης με διασταυρωτική επικύρωση αποδίδει σταθερά μοντέλα σε πραγματικά σύνολα δεδομένων που συχνά αναμειγνύουν κανονικά σημεία και ανωμαλίες.
Εισαγωγή #
Αυτή η μέθοδος πρέπει να ερμηνεύεται μέσω των υποθέσεών της, των συνθηκών δεδομένων και του τρόπου με τον οποίο οι επιλογές παραμέτρων επηρεάζουν τη γενίκευση.
Αναλυτική Επεξήγηση #
Μαθηματική Διατύπωση #
Έστω το υπόλοιπο \(r = y - \hat{y}\). Για ένα επιλεγμένο κατώφλι \(\delta > 0\), η συνάρτηση απώλειας Huber είναι
$$ \ell_\delta(r) = \begin{cases} \dfrac{1}{2} r^2, & |r| \le \delta, \\ \delta \bigl(|r| - \dfrac{1}{2}\delta\bigr), & |r| > \delta. \end{cases} $$Τα μικρά υπόλοιπα τετραγωνίζονται ακριβώς όπως στην OLS, αλλά τα μεγάλα υπόλοιπα αυξάνονται μόνο γραμμικά. Η συνάρτηση επιρροής (η παράγωγος) επομένως κορεσμένεται:
$$ \psi_\delta(r) = \begin{cases} r, & |r| \le \delta, \\ \delta\,\mathrm{sign}(r), & |r| > \delta. \end{cases} $$Στο scikit-learn, το κατώφλι αντιστοιχεί στην παράμετρο epsilon. Η προσθήκη ποινής L2 \(\alpha \lVert \boldsymbol\beta \rVert_2^2\) σταθεροποιεί περαιτέρω τους συντελεστές όταν τα χαρακτηριστικά συσχετίζονται.
Πειράματα σε Python #
Οπτικοποιούμε τα σχήματα απώλειας και συγκρίνουμε τις μεθόδους OLS, Ridge και Huber σε ένα μικρό συνθετικό σύνολο δεδομένων που περιέχει μία ακραία τιμή.
| |
Απώλεια Huber έναντι τετραγωνικής και απόλυτης απώλειας #
| |
Σύνολο δεδομένων-παιχνίδι με ακραία τιμή #
| |
Σύγκριση OLS, Ridge και Huber #
| |
Ερμηνεία αποτελεσμάτων #
- Η OLS (κόκκινη) επηρεάζεται σημαντικά από την ακραία τιμή.
- Η Ridge (πορτοκαλί) είναι ελαφρώς πιο σταθερή χάρη στην ποινή L2, αλλά εξακολουθεί να αποκλίνει.
- Η Huber (πράσινη) περιορίζει την επίδραση της ακραίας τιμής και ακολουθεί καλύτερα την κύρια τάση.
Αναφορές #
- Huber, P. J. (1964). Robust Estimation of a Location Parameter. The Annals of Mathematical Statistics, 35(1), 73–101.
- Hampel, F. R. et al. (1986). Robust Statistics: The Approach Based on Influence Functions. Wiley.
- Huber, P. J., & Ronchetti, E. M. (2009). Robust Statistics (2nd ed.). Wiley.