4.3.10
Brier Score
- Brier Score | Medir la calibración de probabilidadesの概要を押さえ、評価対象と読み取り方を整理します。
- Python 3.13 のコード例で算出・可視化し、手順と実務での確認ポイントを確認します。
- 図表や補助指標を組み合わせ、モデル比較や閾値調整に活かすヒントをまとめます。
1. Definición #
En una clasificación binaria el Brier Score se expresa como \mathrm{Brier} = \frac{1}{n} \sum_{i=1}^{n} (p_i - y_i)^2, donde \(p_i\) es la probabilidad predicha de la clase positiva y \(y_i\) es la etiqueta real (0 o 1). En problemas multiclase se calcula el error cuadrático por clase y se promedia.
2. Implementación y visualización en Python 3.13 #
| |
El siguiente script entrena una regresión logística sobre el conjunto Breast Cancer, imprime el Brier Score y dibuja un diagrama de fiabilidad. La figura se guarda en static/images/eval/classification/brier-score/reliability_curve.png, lista para regenerarse con generate_eval_assets.py.
| |

Cuanto más se aleja de la diagonal, más sobre- o infra-confianza muestran las probabilidades.
3. Interpretación del puntaje #
- Probabilidades perfectamente calibradas producen 0.
- Un modelo que siempre devuelve 0.5 en un conjunto balanceado se queda en 0.25.
- Cuanto más pequeño sea el valor, mejor: el error cuadrático penaliza especialmente las probabilidades alejadas del resultado real.
4. Diagnóstico con diagramas de fiabilidad #
El diagrama de fiabilidad agrupa las predicciones por bins, coloca la probabilidad media predicha en el eje x y la tasa real de positivos en el eje y.
- Puntos por debajo de la diagonal → el modelo es sobreconfidente (probabilidades demasiado altas).
- Puntos por encima de la diagonal → el modelo es subconfidente.
- Tras aplicar técnicas de calibración (Platt scaling, isotonic regression, etc.), vuelva a calcular el Brier Score y el gráfico para confirmar la mejora.
Resumen #
- El Brier Score mide el error cuadrático medio de las probabilidades; valores menores indican mejor calibración.
- En Python 3.13, rier_score_loss más el diagrama de fiabilidad proporcionan una comprobación rápida.
- Combínelo con ROC-AUC y métricas Precision/Recall para evaluar tanto la capacidad de ranking como la calidad de la probabilidad.