Capítulo 5 #
Agrupación #
Agrupa observaciones similares para descubrir estructura, resumir conjuntos de datos o impulsar tareas posteriores. Elige algoritmos según supuestos de forma, robustez y escalabilidad.
Algoritmos de un vistazo #
- k‑means / k‑means++ / X‑means: rápidos para clústeres esféricos; sensibles a escala e inicialización.
- DBSCAN / HDBSCAN: basados en densidad; encuentran formas arbitrarias y atípicos; requieren
eps/minPtsrazonables. - Mezclas gaussianas (GMM): clústeres probabilísticos; asignaciones blandas y elipsoides.
- Jerárquico: dendrogramas para estructura multi‑escala; el enlace (linkage) importa.
Consejos de práctica #
- Estandariza variables; usa PCA/UMAP para visualizar y reducir ruido.
- Elige k con silhouette, codo o estabilidad en remuestreos.
- Valida con etiquetas si existen; si no, reporta índices internos y revisión cualitativa.