2.5.1
k-means
Resumen
- k-means parte de una idea sencilla —agrupar puntos cercanos— y actualiza repetidamente los centroides (representantes) hasta que las asignaciones dejan de cambiar.
- El objetivo que minimiza es la suma de cuadrados intraclúster (WCSS), es decir la distancia cuadrática entre cada muestra y el centroide de su clúster.
- Con
KMeansdescikit-learnes sencillo visualizar la convergencia, experimentar con inicializaciones y estudiar cómo cambian las asignaciones. - Para decidir \(k\) suelen combinarse criterios como el método del codo o la puntuación de silueta junto con el conocimiento del dominio.
Intuicion #
Este metodo se entiende mejor al conectar sus supuestos con la estructura de los datos y su efecto en la generalizacion.