k-means++

Name: k-means++ | Inicialización inteligente para mejorar el clustering k-means
Uploaded: 2020-02-12
Description: k-means++ separa los centroides iniciales, lo que reduce la probabilidad de que k-means termine en un óptimo local desfavorable.

Actualizado 2020-02-12 Lectura 1 min

Resumen

k-means++ separa los centroides iniciales, lo que reduce la probabilidad de que k-means termine en un óptimo local desfavorable.
Cada nuevo centro se elige con probabilidad proporcional al cuadrado de su distancia a los centroides ya seleccionados, evitando semillas demasiado juntas.
En scikit-learn, basta con usar KMeans(init="k-means++") para comparar con la inicialización aleatoria.
Variantes a gran escala como mini-batch k-means se basan en k-means++ y son muy usadas en flujos y datasets masivos.

Intuicion #

Este metodo se entiende mejor al conectar sus supuestos con la estructura de los datos y su efecto en la generalizacion.

Intuicion #

Explicacion Detallada #