3.2
データの読み込みと整形
まとめ
- CSV/Excelの読み込みからtidy形式への整形、品質チェックまでの基本フローを学ぶ。
- pandasのDataFrame操作と集計関数を使いこなし、分析に使える状態へデータを加工する。
- pandasからSQLを実行する方法を押さえ、既存クエリ資産との連携手段を身に付ける。
直感 #
分析プロジェクトの大半の時間はデータの取得と整形に費やされる。このチャプターでは、総務省のオープンデータを例に「取得、整形、集計、SQL操作」までを一気通貫で学び、どのデータでも再現できる整形テンプレートを身に付ける。
詳細な解説 #
このチャプターで学べること #
- サンプルデータの取得手順とクリーニングの基本フロー
- pandasのDataFrame操作(列選択・フィルタリング・型変換)
aggによる一括集計とレポート用KPIの算出- pandas上でSQLiteを使ったSQL実行の方法
これがわかるとできること #
- 外部公開データを取り込んで分析可能な形に整形できる
- 欠損・型・桁の異常を検出し、補完や除外の方針を定められる
- SQLに慣れたメンバーと共通言語で作業できる
学習の進め方 #
- まずサンプルデータの取得とクリーニング手順を実行する
- 次にpandasの基本操作でデータの確認・加工方法を押さえる
- 集計関数でレポート用の統計量をまとめて算出する
- 最後にpandas上でSQLを実行し、クエリとの連携を確認する