データの読み込みと整形

Prep

データの読み込みと整形

データ準備が分析の 8 割 #

公共データや社内ログを分析に使う前には、以下の作業が欠かせません。

  1. 入手元の把握 – ライセンス条項・取得方法・アップデート頻度を確認する
  2. 構造化 – ヘッダー行のズレや単位に注意しながら tidy 形式へ整形する
  3. 品質チェック – 欠損・型・桁の異常を検出し、補完/除外方針を定める
  4. 再現性の確保 – Notebook での手作業をスクリプト化し、再実行できるようにする

このセクションでは、総務省のオープンデータを例に「取得→整形→集計→SQL 操作」までを一気通貫で学びます。
扱う主なページは以下のとおりです。

ページ何を扱うかこんなときに役立つ
sample-dataデータ入手〜クリーニング手順外部公開データを Notebook に取り込む際のテンプレ
pandas-basicDataFrame の基本操作欲しい列・行を素早く確認/加工するとき
read-number-from-dataagg でまとめて統計量を算出レポート用の KPI を一括で出したいとき
sql-pandaspandas × SQLite で SQL を実行SQL 派と共通言語を持ちたい/既存クエリを流用したいとき

各ページでは

  • サンプルコードを実行するための前提(ファイル配置・ライブラリ)
  • 実務で陥りやすい落とし穴
  • 追加で試してほしい発展タスク

をセットで紹介しています。読み終えた頃には「どのデータでも最低限の整形が再現できる」状態を目指しましょう。