データ準備が分析の 8 割 #
公共データや社内ログを分析に使う前には、以下の作業が欠かせません。
- 入手元の把握 – ライセンス条項・取得方法・アップデート頻度を確認する
- 構造化 – ヘッダー行のズレや単位に注意しながら tidy 形式へ整形する
- 品質チェック – 欠損・型・桁の異常を検出し、補完/除外方針を定める
- 再現性の確保 – Notebook での手作業をスクリプト化し、再実行できるようにする
このセクションでは、総務省のオープンデータを例に「取得→整形→集計→SQL 操作」までを一気通貫で学びます。
扱う主なページは以下のとおりです。
| ページ | 何を扱うか | こんなときに役立つ |
|---|---|---|
| sample-data | データ入手〜クリーニング手順 | 外部公開データを Notebook に取り込む際のテンプレ |
| pandas-basic | DataFrame の基本操作 | 欲しい列・行を素早く確認/加工するとき |
| read-number-from-data | agg でまとめて統計量を算出 | レポート用の KPI を一括で出したいとき |
| sql-pandas | pandas × SQLite で SQL を実行 | SQL 派と共通言語を持ちたい/既存クエリを流用したいとき |
各ページでは
- サンプルコードを実行するための前提(ファイル配置・ライブラリ)
- 実務で陥りやすい落とし穴
- 追加で試してほしい発展タスク
をセットで紹介しています。読み終えた頃には「どのデータでも最低限の整形が再現できる」状態を目指しましょう。