T Sne.id
Ringkasan
- t-SNE menjaga struktur tetangga lokal dengan mencocokkan kemiripan pasangan titik antara ruang asli dan ruang rendah.
- Metode ini kuat untuk visualisasi eksploratif klaster.
- Hasil sensitif terhadap perplexity, learning rate, dan inisialisasi, jadi perlu uji stabilitas.
Intuisi #
t-SNE menekankan siapa yang bertetangga dekat, bukan jarak global absolut. Interpretasi terbaiknya adalah peta kedekatan lokal untuk eksplorasi data.
Penjelasan Rinci #
1. Intuisi #
- Hitung probabilitas kesamaan (P_{ij}) di ruang asli dengan kernel Gaussian (diatur oleh perplexity).
- Definisikan (Q_{ij}) di ruang rendah memakai distribusi t-Student berekor panjang.
- Minimalkan (\mathrm{KL}(P \parallel Q)) menggunakan gradien.
- Ekor panjang mencegah titik menumpuk di pusat.
2. Contoh Python #
| |
3. Parameter utama #
perplexity: jumlah tetangga efektif (sekitar 5–50).learning_rate: pilih nilai 100–1000; terlalu kecil lambat, terlalu besar tidak stabil.n_iter: minimal 1000 iterasi plus faseearly_exaggeration.
4. Tips #
- Standarkan fitur dan buang duplikasi.
- Untuk dataset besar gunakan Barnes–Hut atau implementasi cepat seperti openTSNE/FIt-SNE.
- Jarak pada hasil bersifat kualitatif: hanya tetangga lokal yang terjaga.
5. Catatan #
- t-SNE cocok untuk eksplorasi visual, bukan transformasi yang bisa dievaluasi ulang pada data baru.
- Coba beberapa seed/perplexity untuk memastikan pola stabil.
- Pertimbangkan UMAP bila memerlukan kecepatan atau embedding yang bisa diaplikasikan ke sampel baru.