Δείκτες αξιολόγησης

Eval

Δείκτες αξιολόγησης

Τι θα μάθετε σε αυτό το κεφάλαιο #

  1. Συνολική εικόνα των δεικτών
    Θα οργανώσουμε τις βασικές έννοιες για παλινδρόμηση, ταξινόμηση, κατάταξη και ανίχνευση ανωμαλιών.
  2. Παραδείγματα Python 3.13
    Με scikit-learn / matplotlib, θα δείξουμε πώς υπολογίζουμε και οπτικοποιούμε δείκτες με λίγο κώδικα.
  3. Επιλογή δεικτών ανά χρήση
    Θα συνδέσουμε επιχειρησιακές απαιτήσεις (π.χ. έμφαση στο recall ή στο κέρδος) με το κατάλληλο σύνολο δεικτών.
まとめ
  • Πίνακες δεικτών ανά στόχο και μοτίβα οπτικοποίησης με βάση τον πίνακα σύγχυσης
  • Συνταγές υπολογισμού για MAE/MSE/RMSE, Accuracy/F1/AUC, MAP@K κ.ά.
  • Συνδυασμοί διαδικασίας αξιολόγησης (holdout / CV) και δεικτών

Δομή ενότητας #

ΣελίδαΣκοπόςΚύρια θέματα
Δείκτες παλινδρόμησηςΑξιολόγηση σφάλματος αριθμητικής πρόβλεψηςMAE, MSE, RMSE, MAPE, R², residual plots
Δείκτες δυαδικής ταξινόμησηςΕτικέτες 0/1Precision, Recall, F1, AUC, PR curve
Πολυκλασική / πολυετικετικήΠολλαπλές ετικέτεςMacro/Micro averaging, confusion matrix heatmap
Δείκτες κατάταξηςΣύσταση/αναζήτησηMAP@K, NDCG, Hit@K
Ανίχνευση ανωμαλιώνΛίγες ή χωρίς ετικέτεςROC/PR, κατανομή score, ψευδο-ετικέτες

Σε κάθε σελίδα ακολουθούμε τη ροή «έννοια δείκτη → παράδειγμα υπολογισμού → οπτικοποίηση → πότε τον χρησιμοποιούμε».


Συνολική διαδικασία αξιολόγησης #

  1. Διαχωρισμός δεδομένων
    • Holdout: Train / Validation / Test
    • Cross-validation: KFold, StratifiedKFold, TimeSeriesSplit
  2. Υπολογισμός δεικτών
    • Χρήση συναρτήσεων του sklearn.metrics
    • Με make_scorer ενσωμάτωση σε GridSearchCV
  3. Σύνοψη και οπτικοποίηση
    • Συγκέντρωση σε pandas.DataFrame, boxplot / ROC / PR
    • Συνδυασμός με feature importance και residual analysis

Οδηγός επιλογής δεικτών #

ΟπτικήΕρώτησηΠροτεινόμενοι δείκτες
Μονάδα σφάλματοςΘέλεις απόλυτο μέγεθος ή ποσοστό;MAE / RMSE / MAPE
Δομή κόστουςΠοιο είναι ακριβότερο: false positive ή false negative;Precision/Recall, Fβ, cost-sensitive loss
Αναλογία ετικετώνΥπάρχει ανισορροπία κλάσεων;PR-AUC, Balanced Accuracy, ROC-AUC
Στόχος κατάταξηςΣε ενδιαφέρουν οι Top-K προτάσεις;MAP@K, NDCG, Hit@K
Monitoring/alertingΘες έγκαιρο εντοπισμό υποβάθμισης;Χρονική παρακολούθηση δεικτών και drift metrics

Μετά την ολοκλήρωση του κεφαλαίου #

  • Μπορείς να εξηγείς «γιατί F1 σε αυτό το πρόβλημα» σε αναφορές.
  • Θα επιλέγεις δείκτες χωρίς αμφιβολία σε competitions ή A/B tests.
  • Θα στήνεις alerts βάσει μεταβολών των δεικτών.

Από την επόμενη σελίδα, εμβαθύνουμε στους δείκτες ανά task.