2.2.6
Naive Bayes
Resumen
- Naive Bayes asume independencia condicional entre características y combina la probabilidad a priori con la verosimilitud mediante el teorema de Bayes.
- El entrenamiento y la inferencia son muy rápidos, lo que lo vuelve una potente línea base para datos dispersos y de alta dimensión como texto o spam.
- El suavizado de Laplace y las características TF-IDF ayudan frente a palabras no vistas y diferencias de frecuencia.
- Cuando la suposición de independencia es demasiado fuerte, conviene aplicar selección de características o ensamblarlo con otros modelos.
Intuicion #
Este metodo se entiende mejor al conectar sus supuestos con la estructura de los datos y su efecto en la generalizacion.
Explicacion Detallada #
Formulación matemática #
Para una clase \(y\) y un vector de características \(\mathbf{x} = (x_1, \ldots, x_d)\),
$$ P(y \mid \mathbf{x}) \propto P(y) \prod_{j=1}^{d} P(x_j \mid y). $$Existen distintas variantes según el tipo de datos: el modelo multinomial para frecuencias de palabras, el bernoulli para presencia/ausencia y el gaussiano para valores continuos.
Experimentos con Python #
El ejemplo siguiente entrena un clasificador Naive Bayes multinomial sobre un subconjunto del conjunto 20 Newsgroups usando TF-IDF. Aun con miles de características el entrenamiento es veloz, y el informe de clasificación resume el desempeño.
| |
Referencias #
- Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
- Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press.