k-means++

2.5.2

k-means++

Actualizado 2020-02-12 Lectura 1 min
Resumen
  • k-means++ separa los centroides iniciales, lo que reduce la probabilidad de que k-means termine en un óptimo local desfavorable.
  • Cada nuevo centro se elige con probabilidad proporcional al cuadrado de su distancia a los centroides ya seleccionados, evitando semillas demasiado juntas.
  • En scikit-learn, basta con usar KMeans(init="k-means++") para comparar con la inicialización aleatoria.
  • Variantes a gran escala como mini-batch k-means se basan en k-means++ y son muy usadas en flujos y datasets masivos.

Intuicion #

Este metodo se entiende mejor al conectar sus supuestos con la estructura de los datos y su efecto en la generalizacion.

Explicacion Detallada #