2.1.2
Ridge & Lasso
Σύνοψη
- Η παλινδρόμηση Ridge συρρικνώνει ομαλά τους συντελεστές με ποινή L2 και παραμένει σταθερή ακόμα και όταν τα χαρακτηριστικά είναι ισχυρά συσχετισμένα.
- Η παλινδρόμηση Lasso εφαρμόζει ποινή L1 που μπορεί να οδηγήσει ορισμένους συντελεστές ακριβώς στο μηδέν, παρέχοντας ενσωματωμένη επιλογή χαρακτηριστικών και ερμηνευσιμότητα.
- Η ρύθμιση της ισχύος κανονικοποίησης \(\alpha\) ελέγχει τον συμβιβασμό μεταξύ προσαρμογής στα δεδομένα εκπαίδευσης και γενίκευσης σε νέα δεδομένα.
- Ο συνδυασμός τυποποίησης με διασταυρωμένη επικύρωση βοηθά στην επιλογή υπερπαραμέτρων που αποτρέπουν την υπερπροσαρμογή διατηρώντας υψηλή απόδοση.
Εισαγωγή #
Αυτή η μέθοδος πρέπει να ερμηνεύεται μέσα από τις υποθέσεις της, τις συνθήκες των δεδομένων και τον τρόπο με τον οποίο οι επιλογές παραμέτρων επηρεάζουν τη γενίκευση.
Αναλυτική Επεξήγηση #
Μαθηματική Διατύπωση #
Και οι δύο μέθοδοι ελαχιστοποιούν τη συνήθη απώλεια τετραγωνικού σφάλματος προσθέτοντας έναν όρο κανονικοποίησης:
- Παλινδρόμηση Ridge $$ \min_{\boldsymbol\beta, b} \sum_{i=1}^{n} \left(y_i - (\boldsymbol\beta^\top \mathbf{x}_i + b)\right)^2 + \alpha \lVert \boldsymbol\beta \rVert_2^2 $$
- Παλινδρόμηση Lasso $$ \min_{\boldsymbol\beta, b} \sum_{i=1}^{n} \left(y_i - (\boldsymbol\beta^\top \mathbf{x}_i + b)\right)^2 + \alpha \lVert \boldsymbol\beta \rVert_1 $$
Μεγαλύτερες τιμές \(\alpha\) επιβάλλουν ισχυρότερη συρρίκνωση. Στην περίπτωση της Lasso, όταν η \(\alpha\) υπερβεί ένα κατώφλι, ορισμένοι συντελεστές γίνονται ακριβώς μηδέν, δίνοντας αραιά μοντέλα.
Πειράματα σε Python #
Το παρακάτω παράδειγμα εφαρμόζει Ridge, Lasso και μέθοδο ελαχίστων τετραγώνων στο ίδιο συνθετικό πρόβλημα παλινδρόμησης. Συγκρίνουμε τα μεγέθη των συντελεστών και τις βαθμολογίες γενίκευσης.
| |
Ανάγνωση των αποτελεσμάτων #
- Η Ridge συρρικνώνει ελαφρά όλους τους συντελεστές και παραμένει σταθερή ακόμα και με πολυσυγγραμμικότητα.
- Η Lasso ωθεί ορισμένους συντελεστές στο μηδέν, διατηρώντας μόνο τα πιο σημαντικά χαρακτηριστικά.
- Επιλέξτε \(\alpha\) μέσω διασταυρωμένης επικύρωσης για να ισορροπήσετε πόλωση και διακύμανση, και τυποποιήστε τα χαρακτηριστικά για να εξασφαλίσετε δίκαιη σύγκριση μεταξύ διαστάσεων.
Αναφορές #
- Hoerl, A. E., & Kennard, R. W. (1970). Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics, 12(1), 55–67.
- Tibshirani, R. (1996). Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society: Series B, 58(1), 267–288.
- Zou, H., & Hastie, T. (2005). Regularization and Variable Selection via the Elastic Net. Journal of the Royal Statistical Society: Series B, 67(2), 301–320.