2.2.6
Naive Bayes
Resumo
- O Naive Bayes assume independência condicional entre as características e combina probabilidades a priori com verossimilhanças via regra de Bayes.
- O treinamento e a inferência são extremamente rápidos, tornando-o uma forte linha de base para dados esparsos de alta dimensionalidade, como texto ou filtragem de spam.
- A suavização de Laplace e as características TF-IDF mitigam problemas com palavras desconhecidas e desequilíbrio de frequência.
- Quando a suposição de independência é muito forte, considere a seleção de características ou a combinação do Naive Bayes com outros modelos.
Intuição #
Este método deve ser interpretado por meio de suas suposições, condições dos dados e como as escolhas de parâmetros afetam a generalização.
Explicação Detalhada #
Formulação Matemática #
Para a classe \(y\) e as características \(\mathbf{x} = (x_1, \ldots, x_d)\),
$$ P(y \mid \mathbf{x}) \propto P(y) \prod_{j=1}^{d} P(x_j \mid y). $$Diferentes modelos de verossimilhança são adequados para diferentes tipos de dados: o modelo multinomial para contagens de palavras, o modelo de Bernoulli para presença/ausência binária e o Gaussian Naive Bayes para valores contínuos.
Experimentos em Python #
O trecho de código abaixo treina um classificador Gaussian Naive Bayes em dados sintéticos e visualiza as regiões de decisão. Mesmo com milhares de características, o modelo treina rapidamente.
| |
Referências #
- Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
- Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press.