3.2.1
サンプルデータの取得と整形
まとめ
- 総務省オープンデータ(CSV/Excel)をダウンロードし、pandas で読み込み・整形する。
pd.read_csvでヘッダー調整、to_numericで型変換、to_csvで整形後ファイルを保存する。- 分析プロジェクトの最初のステップとして、再現性のあるデータ取得・整形パイプラインを構築するときに使う。
使うデータとライセンス #
- 出典: 総務省「地方財政白書」公開資料
- URL: https://www.soumu.go.jp/menu_seisaku/hakusyo/chihou/
- 利用条件: 二次利用可。出典明記と利用ルールへの同意が必要。
Notebook / Python スクリプトで扱うときは、
- ダウンロードした元ファイル(CSV・Excel)を
data/raw/に置く - 整形後のファイルを
data/processed/に書き出す - ライセンス表記・入手先 URL を README か Notebook 冒頭に記載する
といった運用にしておくと再現性のあるデータ基盤になります。
1. ダウンロードとヘッダー整形 #
| |
多くの公開資料は「1 行目=タイトル」「2 行目=単位」といった構成になっています。header=None で読み込んでから、必要な行をヘッダーに差し替えます。
| |
Column 名の正規化 #
| |
日本語列をそのまま残す場合でも、全角スペースや括弧揺れを先に揃えておくと後続処理が安定します。
2. 型の見直し・基本統計 #
| |
errors="coerce"で数値化できないセルをNaNに。describe().Tで列方向の統計を一覧化し、欠損や桁違いを早期発見。
欠損の所在は df[numeric_cols].isna().sum() でチェックし、補完方針を決めます。
3. 保存とメタデータ #
| |
整形後の CSV と一緒にメタデータ(取得日、加工内容、単位)を JSON で残しておくと、将来の再取得・差分チェックが容易になります。
4. Notebook での表示ユーティリティ(任意) #
| |
大きなテーブルでも今回追加した .table-scroll スタイルにより横スクロールで閲覧できます。
チェックリスト #
- 出典 URL と利用条件を Notebook / レポートに明記した
- 整形プロセスをスクリプト化し、再実行しても同じ結果になる
- ヘッダー・単位のズレを修正し、日本語列名も統一した
- オリジナルと加工後どちらも保存し、ファイル名規約を決めた
- 欠損値・型変換ログをメタデータとして残した
このページで作成した soumu-gdp-clean.csv は、後続の pandas / SQL 例で利用します。