4.4
距離
まとめ
- ベクトル空間の距離(コサイン類似度)、確率分布間の距離(KL/JSD/ヘリンガー)、最適輸送(ワッサースタイン)の3カテゴリーを学ぶ。
- 対称性・三角不等式・ゼロ確率への感度など、距離の数学的性質と実用上の注意点を理解する。
- クラスタリング・レコメンド・異常検知・生成モデル評価など、タスクに応じた距離の選び方を身に付ける。
直感 #
距離(類似度)は「データ同士がどれだけ近いか」を定量化する基盤であり、クラスタリング・レコメンド・異常検知・生成モデル評価など多くのタスクで用いられる。しかし距離の定義を変えるだけで近傍関係が逆転することがある。コサイン距離ではAとBがもっとも近いのに、ユークリッド距離ではAとCがもっとも近い、というケースは珍しくない。このチャプターでは5つの代表的な距離指標を3つのカテゴリーに整理し、データの性質に合わせた選び方を身に付ける。
詳細な解説 #
このチャプターで学べること #
- コサイン類似度とコサイン距離の定義、テキスト埋め込みや疎ベクトルでの活用
- KLダイバージェンスの非対称性とゼロ確率問題、スムージングの必要性
- Jensen-Shannonダイバージェンスによる対称化と、距離としての利用方法
- ヘリンガー距離の平方根変換による計量性と、ベイズ推論での応用
- ワッサースタイン距離による分布の位置と形状の同時評価、Sinkhorn近似による高速化
これがわかるとできること #
- データがベクトルか確率分布かに応じて適切な距離を選択できる
- 距離の前提条件(対称性・三角不等式・スケール依存性)を把握し、誤用を回避できる
- 高次元データや大規模データでの計算コストを見積もり、近似手法を選択できる
指標間の関係マップ #
graph LR
VS["ベクトル空間"] --> COS["コサイン類似度"]
PD["確率分布"] --> KL["KLダイバージェンス"]
KL --> JSD["JS ダイバージェンス"]
PD --> HL["ヘリンガー距離"]
OT["最適輸送"] --> WS["ワッサースタイン距離"]
指標クイックリファレンス #
| 指標 | 対称性 | 計量性 | 主な用途 |
|---|---|---|---|
| コサイン類似度 | ✓ | テキスト埋め込み・レコメンド | |
| KLダイバージェンス | 確率分布の情報量差 | ||
| JSダイバージェンス | ✓ | ✓ | 分布間距離の対称比較 |
| ヘリンガー距離 | ✓ | ✓ | ベイズ推論・分布比較 |
| ワッサースタイン距離 | ✓ | ✓ | 最適輸送・生成モデル評価 |
学習の進め方 #
- まずコサイン類似度でベクトル空間の距離の基本を押さえる
- 次にKLダイバージェンスとJensen-Shannonダイバージェンスで、確率分布間の距離を学ぶ
- ヘリンガー距離で計量性を備えた分布距離の特徴を理解する
- 最後にワッサースタイン距離で最適輸送の考え方と応用を確認する
まとめ #
このチャプターでは、ベクトル空間(コサイン類似度)・確率分布(KL/JSD/ヘリンガー)・最適輸送(ワッサースタイン)の3カテゴリー5指標を学んだ。 対称性・計量性・ゼロ確率への感度といった数学的性質を理解し、クラスタリング・レコメンド・生成モデル評価などタスクに応じた距離を選択できるようになることがゴールである。