6.7.32
モザイクプロットでカテゴリの交差割合を面積で表す
まとめ
- 2つのカテゴリ変数の分割表を矩形の面積で可視化し、変数間の関連を直感的に読み取る。
statsmodels.graphics.mosaicplot.mosaicで分割表データから直接描画できる。- アンケート分析やカイ二乗検定の結果を視覚的に補足したいときに使う。
モザイクプロットは分割表(クロス集計表)を面積で表現するチャート。横幅が行カテゴリの周辺度数、高さが列カテゴリの条件付き割合を表す。セルの面積が観測度数に比例するため、カテゴリ間の関連の有無をひと目で判断できる。
| |

読み方のポイント #
- 横幅が年代の周辺度数(全体に占める割合)を表す。30 代の幅が最も広ければ、サンプル数が最も多い。
- 各列の中の高さの比率が、その年代における利用サービスの条件付き割合を示す。
- もし変数間に関連がなければ、すべての列で高さの比率が同じになる。比率がずれているほど変数間に関連がある。
いつ使うか #
- 適している場面: 2つのカテゴリ変数の関連性をカイ二乗検定とセットで見せたいとき。アンケートの年代別嗜好や、A/B テストのセグメント別結果など。
- 不向きな場面: カテゴリ数がそれぞれ 6 以上あるとセルが小さすぎて判読困難。3 変数以上のクロス集計には向かない。
- 代替手段: カテゴリが少なければグループ化棒グラフ、独立性の検定結果を色で見せたいなら残差ヒートマップ。
よくある失敗パターン #
- ラベルの重なり: セルが小さいとラベルが読めない。フォントサイズを下げるか、少数カテゴリをまとめて「その他」に集約する。
- 色の意味の不統一: 同じサービスなのに列によって色が変わると混乱する。1 つの変数に色を割り当て、もう 1 つの変数は軸で区別するのが基本。