データの読み込みと整形

3.2

データの読み込みと整形

まとめ
  • CSV/Excelの読み込みからtidy形式への整形、品質チェックまでの基本フローを学ぶ。
  • pandasのDataFrame操作と集計関数を使いこなし、分析に使える状態へデータを加工する。
  • pandasからSQLを実行する方法を押さえ、既存クエリ資産との連携手段を身に付ける。

直感 #

分析プロジェクトの大半の時間はデータの取得と整形に費やされる。このチャプターでは、総務省のオープンデータを例に「取得、整形、集計、SQL操作」までを一気通貫で学び、どのデータでも再現できる整形テンプレートを身に付ける。

詳細な解説 #

このチャプターで学べること #

  • サンプルデータの取得手順とクリーニングの基本フロー
  • pandasのDataFrame操作(列選択・フィルタリング・型変換)
  • aggによる一括集計とレポート用KPIの算出
  • pandas上でSQLiteを使ったSQL実行の方法

これがわかるとできること #

  • 外部公開データを取り込んで分析可能な形に整形できる
  • 欠損・型・桁の異常を検出し、補完や除外の方針を定められる
  • SQLに慣れたメンバーと共通言語で作業できる

学習の進め方 #

  1. まずサンプルデータの取得とクリーニング手順を実行する
  2. 次にpandasの基本操作でデータの確認・加工方法を押さえる
  3. 集計関数でレポート用の統計量をまとめて算出する
  4. 最後にpandas上でSQLを実行し、クエリとの連携を確認する