ตัวชี้วัดการประเมินผล

Eval

ตัวชี้วัดการประเมินผล

บทนี้เรียนอะไร #

  1. ภาพรวมของตัวชี้วัด
    จัดระเบียบแนวคิดของตัวชี้วัดสำหรับ regression, classification, ranking และ anomaly detection
  2. ตัวอย่าง Python 3.13
    ใช้ scikit-learn / matplotlib เพื่อคำนวณและแสดงผลด้วยโค้ดสั้น ๆ
  3. การเลือกตัวชี้วัดตามงาน
    ผูกความต้องการธุรกิจ (เน้น recall, เน้นกำไร ฯลฯ) กับตัวชี้วัดที่เหมาะสม
まとめ
  • สรุปตัวชี้วัดตามเป้าหมาย พร้อมรูปแบบการมองผลจาก confusion matrix
  • สูตรคำนวณสำหรับ MAE/MSE/RMSE, Accuracy/F1/AUC, MAP@K เป็นต้น
  • รูปแบบการประเมิน (holdout / CV) และการจับคู่กับตัวชี้วัด

โครงสร้างของส่วนนี้ #

หน้าวัตถุประสงค์เนื้อหาหลัก
ตัวชี้วัด regressionประเมินความคลาดเคลื่อนเชิงตัวเลขMAE, MSE, RMSE, MAPE, R², residual plot
ตัวชี้วัด binary classificationป้ายกำกับ 0/1Precision, Recall, F1, AUC, PR curve
Multi-class / multi-labelหลายป้ายกำกับMacro/Micro averaging, heatmap ของ confusion matrix
ตัวชี้วัด rankingแนะนำ/ค้นหาMAP@K, NDCG, Hit@K
Anomaly detectionป้ายกำกับน้อยหรือไม่มีROC/PR, การกระจายของ score, pseudo-label

ทุกหน้าจะเรียงลำดับ “ความหมาย → ตัวอย่างคำนวณ → การแสดงผล → ใช้เมื่อไร”


ภาพรวมกระบวนการประเมิน #

  1. การแบ่งข้อมูล
    • Holdout: Train / Validation / Test
    • Cross-validation: KFold, StratifiedKFold, TimeSeriesSplit
  2. การคำนวณตัวชี้วัด
    • ใช้ฟังก์ชันจาก sklearn.metrics
    • make_scorer สำหรับใช้กับ GridSearchCV
  3. สรุปและแสดงผล
    • รวมคะแนนใน pandas.DataFrame แล้ววาด boxplot / ROC / PR
    • รวมกับ feature importance และ residual analysis เพื่อหาจุดปรับปรุง

แนวทางเลือกตัวชี้วัด #

มุมมองคำถามตัวชี้วัดที่แนะนำ
หน่วยของความผิดพลาดต้องการค่าจริงหรือสัดส่วน?MAE / RMSE / MAPE
โครงสร้างต้นทุนfalse positive หรือ false negative สำคัญกว่า?Precision/Recall, Fβ, cost-sensitive loss
สัดส่วนคลาสข้อมูลไม่สมดุลหรือไม่?PR-AUC, Balanced Accuracy, ROC-AUC
เป้าหมายเป็น rankingสนใจ Top-K หรือไม่?MAP@K, NDCG, Hit@K
เฝ้าระวัง/แจ้งเตือนต้องการตรวจความเสื่อมเร็ว?ติดตามตัวชี้วัดตามเวลา + drift metrics

หลังจบบทนี้จะทำอะไรได้ #

  • อธิบายได้ว่า “งานนี้ใช้ F1 เพราะอะไร” ในรายงานประจำ
  • เลือกตัวชี้วัดในการแข่งหรือ A/B test ได้อย่างมั่นใจ
  • ตั้ง alert จากการเปลี่ยนแปลงของตัวชี้วัดได้

หน้าถัดไปจะเริ่มเจาะลึกตัวชี้วัดตามประเภทงาน