Λογιστική Παλινδρόμηση

Ενημέρωση 2020-01-29 Ανάγνωση 3 λεπτά

Σύνοψη

Η λογιστική παλινδρόμηση περνάει έναν γραμμικό συνδυασμό των εισόδων μέσα από τη σιγμοειδή συνάρτηση για να προβλέψει την πιθανότητα ότι η ετικέτα είναι 1.
Η έξοδος βρίσκεται στο $[0, 1]$, επιτρέποντας ευέλικτο ορισμό κατωφλίων απόφασης και ερμηνεία των συντελεστών ως συνεισφορές στα λογ-πηλίκα.
Η εκπαίδευση ελαχιστοποιεί την απώλεια διασταυρούμενης εντροπίας (ισοδύναμα μεγιστοποιεί τη λογαριθμική πιθανοφάνεια)· η κανονικοποίηση L1/L2 αποτρέπει την υπερπροσαρμογή.
Η LogisticRegression του scikit-learn χειρίζεται προεπεξεργασία, εκπαίδευση και οπτικοποίηση ορίων απόφασης με λίγες γραμμές κώδικα.

Εισαγωγή #

Αυτή η μέθοδος πρέπει να ερμηνεύεται μέσα από τις υποθέσεις της, τις συνθήκες δεδομένων και τον τρόπο με τον οποίο οι επιλογές παραμέτρων επηρεάζουν τη γενίκευση.

Αναλυτική Επεξήγηση #

Μαθηματική Διατύπωση #

Η πιθανότητα της κλάσης 1 δεδομένου $\mathbf{x}$ είναι

$$ P(y=1 \mid \mathbf{x}) = \sigma(\mathbf{w}^\top \mathbf{x} + b) = \frac{1}{1 + \exp\left(-(\mathbf{w}^\top \mathbf{x} + b)\right)}. $$

Η μάθηση μεγιστοποιεί τη λογαριθμική πιθανοφάνεια

$$ \ell(\mathbf{w}, b) = \sum_{i=1}^{n} \Bigl[ y_i \log p_i + (1 - y_i) \log (1 - p_i) \Bigr], \quad p_i = \sigma(\mathbf{w}^\top \mathbf{x}_i + b), $$

ή ισοδύναμα ελαχιστοποιεί την αρνητική απώλεια διασταυρούμενης εντροπίας. Η προσθήκη κανονικοποίησης L2 αποτρέπει τους συντελεστές από το να εκρήγνυνται, ενώ η κανονικοποίηση L1 μπορεί να οδηγήσει τα μη σχετικά βάρη στο μηδέν.

Πειράματα σε Python #

Το παρακάτω απόσπασμα κώδικα προσαρμόζει τη λογιστική παλινδρόμηση σε ένα συνθετικό δισδιάστατο σύνολο δεδομένων και οπτικοποιεί το προκύπτον όριο απόφασης. Τα πάντα — από την εκπαίδευση μέχρι τη σχεδίαση — χωρούν σε λίγες γραμμές χάρη στο scikit-learn.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
from __future__ import annotations

import japanize_matplotlib
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.colors import ListedColormap
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

def run_logistic_regression_demo(
    n_samples: int = 300,
    random_state: int = 2,
    label_class0: str = "class 0",
    label_class1: str = "class 1",
    label_boundary: str = "decision boundary",
    title: str = "Logistic regression decision boundary",
) -> dict[str, float]:
    """Train logistic regression on a synthetic 2D dataset and visualise the boundary.

    Args:
        n_samples: Number of samples to generate.
        random_state: Seed for reproducible sampling.
        label_class0: Legend label for class 0.
        label_class1: Legend label for class 1.
        label_boundary: Legend label for the separating line.
        title: Title for the plot.

    Returns:
        Dictionary containing training accuracy and coefficients.
    """
    japanize_matplotlib.japanize()
    X, y = make_classification(
        n_samples=n_samples,
        n_features=2,
        n_redundant=0,
        n_informative=2,
        random_state=random_state,
        n_clusters_per_class=1,
    )

    clf = LogisticRegression()
    clf.fit(X, y)

    accuracy = float(accuracy_score(y, clf.predict(X)))
    coef = clf.coef_[0]
    intercept = float(clf.intercept_[0])

    x1, x2 = X[:, 0], X[:, 1]
    grid_x1, grid_x2 = np.meshgrid(
        np.linspace(x1.min() - 1.0, x1.max() + 1.0, 200),
        np.linspace(x2.min() - 1.0, x2.max() + 1.0, 200),
    )
    grid = np.c_[grid_x1.ravel(), grid_x2.ravel()]
    probs = clf.predict_proba(grid)[:, 1].reshape(grid_x1.shape)

    cmap = ListedColormap(["#aec7e8", "#ffbb78"])
    fig, ax = plt.subplots(figsize=(7, 6))
    contour = ax.contourf(grid_x1, grid_x2, probs, levels=20, cmap=cmap, alpha=0.4)
    ax.contour(grid_x1, grid_x2, probs, levels=[0.5], colors="k", linewidths=1.5)
    ax.scatter(x1[y == 0], x2[y == 0], marker="o", edgecolor="k", label=label_class0)
    ax.scatter(x1[y == 1], x2[y == 1], marker="x", color="k", label=label_class1)
    ax.set_xlabel("feature 1")
    ax.set_ylabel("feature 2")
    ax.set_title(title)
    ax.legend(loc="best")
    fig.colorbar(contour, ax=ax, label="P(class = 1)")
    fig.tight_layout()
    plt.show()

    return {
        "accuracy": accuracy,
        "coef_0": float(coef[0]),
        "coef_1": float(coef[1]),
        "intercept": intercept,
    }

metrics = run_logistic_regression_demo(
    label_class0="class 0",
    label_class1="class 1",
    label_boundary="decision boundary",
    title="Logistic regression decision boundary",
)
print(f"Training accuracy: {metrics['accuracy']:.3f}")
print(f"Coefficient feature 1: {metrics['coef_0']:.3f}")
print(f"Coefficient feature 2: {metrics['coef_1']:.3f}")
print(f"Intercept: {metrics['intercept']:.3f}")

Τα πάντα — από την εκπαίδευση μέχρι τη σχεδίαση — χωρούν σε λίγες γραμμές χάρη στο scikit-learn σχήμα

Αναφορές #

Agresti, A. (2015). Foundations of Linear and Generalized Linear Models. Wiley.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning. Springer.