Lda.el
Σύνοψη
- Ο LDA είναι μια επιβλεπόμενη μέθοδος μείωσης διαστάσεων που μεγιστοποιεί τη μεταξύ-κλάσεων διακύμανση ενώ ελαχιστοποιεί την εντός-κλάσεων διακύμανση.
- Επειδή χρησιμοποιούνται ετικέτες, ο LDA αποτελεί συχνά ένα ισχυρό βήμα προεπεξεργασίας για εργασίες ταξινόμησης.
- Η απόδοση εξαρτάται από την κατανομή κλάσεων και τις υποθέσεις συνδιακύμανσης.
Εισαγωγή #
Σε αντίθεση με τον PCA, ο LDA βελτιστοποιεί τη διαχωρισιμότητα κλάσεων, όχι απλώς τη συνολική διασπορά. Αναζητά κατευθύνσεις προβολής όπου οι κλάσεις είναι συμπαγείς και καλά διαχωρισμένες.
Αναλυτική Επεξήγηση #
1. PCA έναντι LDA #
- PCA: μη επιβλεπόμενος, διατηρεί τις κατευθύνσεις μέγιστης διακύμανσης ανεξάρτητα από τις ετικέτες κλάσης.
- LDA: επιβλεπόμενος, αναζητά κατευθύνσεις που μεγιστοποιούν τον λόγο της μεταξύ-κλάσεων διακύμανσης προς την εντός-κλάσεων διακύμανση.
2. Μαθηματική Διατύπωση #
Με ετικετοποιημένες κλάσεις (C_1, \dots, C_k):
- Εντός-κλάσεων διασπορά $$ S_W = \sum_{j=1}^k \sum_{x_i \in C_j} (x_i - \mu_j)(x_i - \mu_j)^\top $$
- Μεταξύ-κλάσεων διασπορά $$ S_B = \sum_{j=1}^k n_j (\mu_j - \mu)(\mu_j - \mu)^\top $$
- Βελτιστοποίηση $$ J(w) = \frac{w^\top S_B w}{w^\top S_W w} $$ Τα ιδιοδιανύσματα του (S_W^{-1} S_B) δίνουν τις διαχωριστικές κατευθύνσεις. Το πολύ (k-1) συνιστώσες μεταφέρουν πληροφορία.
3. Κατασκευή συνόλου δεδομένων #
| |
4. Εφαρμογή LDA #
| |
5. Σύγκριση με PCA #
| |
Ο PCA αναμειγνύει τις κλάσεις επειδή αγνοεί τις ετικέτες· ο LDA τις διατηρεί χωρισμένες.
6. Πρακτικές σημειώσεις #
- Ο αριθμός χρήσιμων διαχωριστικών στοιχείων είναι το πολύ
n_classes - 1. - Τυποποιήστε τα χαρακτηριστικά πριν την εκπαίδευση, ιδίως όταν αναμειγνύονται διαφορετικές μονάδες.
- Ο LDA υποθέτει περίπου ίση συνδιακύμανση εντός κλάσεων· όταν αυτό παραβιάζεται, σκεφτείτε QDA ή κανονικοποιημένο LDA.