3.5
テーブルデータ全般
まとめ
- 複数テーブルの結合(merge/join)パターンと、キー設計の注意点を学ぶ。
- ピボット・メルトによる縦横変換で、分析目的に合った形へデータを整形する。
- グループ集計と窓関数を活用し、特徴量生成やKPI算出を効率化する方法を身に付ける。
直感 #
実務のデータは1枚のテーブルに収まることはまれで、複数のマスターやトランザクションを結合してはじめて分析可能な状態になる。このチャプターでは、結合・縦横変換・集計という3つの基本操作を押さえ、どのデータセットでも再利用できる整形パターンを身に付ける。
詳細な解説 #
このチャプターで学べること #
- inner/left/outer/cross joinの使い分けとキーの多重性への対処
pivot_tableとmeltによる縦横変換の設計パターンgroupby+aggによる一括集計と、transformによる行レベル特徴量の生成- 窓関数(rolling/expanding/shift)を使った時系列特徴量の作成
これがわかるとできること #
- 複数テーブルを安全に結合し、行の増減を検証できる
- 分析やモデリングの目的に合わせてテーブル形状を自在に変換できる
- 集計ベースの特徴量を体系的に設計し、パイプラインに組み込める
学習の進め方 #
- まず結合の4パターン(inner/left/outer/cross)をサンプルデータで試し、キーの多重性が結果行数に与える影響を確認する
- 次にピボットとメルトで縦横変換を行い、分析目的に合ったテーブル形状を作る
- 最後にグループ集計と窓関数を組み合わせて、実務で使える特徴量生成のテンプレートを組み立てる