2.5.2
k-means++
Resumo
- O k-means++ espalha os centroides iniciais, reduzindo a chance de o k-means convencional convergir para um ótimo local ruim.
- Centroides adicionais são amostrados com probabilidade proporcional à distância quadrática dos centroides existentes, desencorajando agrupamentos densos de sementes.
- No
scikit-learn,KMeans(init="k-means++")ativa o método, facilitando a comparação com inicialização puramente aleatória. - Variantes de grande escala como o mini-batch k-means se baseiam no k-means++ e são comuns em cenários de streaming ou big data.
Intuição #
Este método deve ser interpretado por meio de suas suposições, condições dos dados e como as escolhas de parâmetros afetam a generalização.