6.2.5
箱ひげ図で分布の要約を示す
まとめ
- 箱ひげ図で中央値・四分位数・外れ値を比較する。
sns.boxplotでカテゴリ別の分布差を表示。- 散らばりや外れ値を素早く確認したいときに使う。
箱ひげ図は中央値・四分位数・外れ値を 1 本で表せる定番チャートです。カテゴリごとに比較すると、分散の違いが見えます。
| |

読み方のポイント #
- 箱は四分位範囲(IQR)、中央線は中央値。ひげは通常 1.5×IQR の範囲を示す。
- 外れ値が多すぎる場合は、別図で詳細を確認するか上限を調整する。
- 箱ひげ図を横にするとラベルが長い場合でも読みやすくなる。
いつ使うか #
- 適している場面: 複数カテゴリの中央値・散らばり・外れ値をコンパクトに比較したいとき。
- 不向きな場面: 分布が多峰性(ピークが複数ある)場合、箱ひげ図では形状が見えないため誤った解釈になりがちです。
- 代替手段: バイオリンプロットを使えば分布形状を保ったまま比較できます。
よくある失敗パターン #
- 外れ値マーカーの過信: 1.5×IQR ルールは便利ですが、歪んだ分布では正常なデータも外れ値として表示されます。分布の形状をヒストグラム等で確認してください。
- 分布の形状を無視: 箱ひげ図は要約統計量しか示さないため、多峰性の分布でも単峰性に見えてしまいます。バイオリンプロットで補完しましょう。