データの読み込みと整形

3.2

データの読み込みと整形

まとめ

CSV/Excelの読み込みからtidy形式への整形、品質チェックまでの基本フローを学ぶ。
pandasのDataFrame操作と集計関数を使いこなし、分析に使える状態へデータを加工する。
pandasからSQLを実行する方法を押さえ、既存クエリ資産との連携手段を身に付ける。

直感 #

分析プロジェクトの大半の時間はデータの取得と整形に費やされる。このチャプターでは、総務省のオープンデータを例に「取得、整形、集計、SQL操作」までを一気通貫で学び、どのデータでも再現できる整形テンプレートを身に付ける。

詳細な解説 #

このチャプターで学べること #

サンプルデータの取得手順とクリーニングの基本フロー
pandasのDataFrame操作（列選択・フィルタリング・型変換）
aggによる一括集計とレポート用KPIの算出
pandas上でSQLiteを使ったSQL実行の方法

これがわかるとできること #

外部公開データを取り込んで分析可能な形に整形できる
欠損・型・桁の異常を検出し、補完や除外の方針を定められる
SQLに慣れたメンバーと共通言語で作業できる

学習の進め方 #

まずサンプルデータの取得とクリーニング手順を実行する
次にpandasの基本操作でデータの確認・加工方法を押さえる
集計関数でレポート用の統計量をまとめて算出する
最後にpandas上でSQLを実行し、クエリとの連携を確認する