Section 3: データ前処理 #
出典: Wikipedia – Data pre-processing
“データを使用する前に加工・削除して性能を確保 / 向上させること”
機械学習ではモデリングの前に データ取得 → 整形 → 変換 → 特徴量生成 を一気通貫で行う必要があります。日本語データでは和暦・全角/半角・特殊記号など独特の課題が多く、テンプレ化と自動化が成果につながります。
学ぶ範囲 #
| カテゴリ | ページ | 目的 |
|---|---|---|
| データ取得 | prep/data | CSV/Excel を pandas で読み込み、整形・集計・SQL で再利用 |
| 数値前処理 | prep/numerical | スケーリング / 変換 / 外れ値処理 / 欠損補完のパターン |
| カテゴリカル | prep/categorical | One-Hot / Count / Target / Ordered Statistics |
| 日本語特有の課題 | prep/japanese | 和暦→西暦変換、表記揺れ、住所・法人名の正規化など |
| 付録 | 監査テンプレート、チェックリスト | 前処理のレビュー観点・ドキュメント化のヒント |
データ前処理のフレーム #
- データ監査: ファイル構造・ライセンス・欠損・型を把握
- 整形・クリーニング: ヘッダー整備、単位、スケール合わせ
- 特徴量生成: 数値/カテゴリ/テキスト/日付の特徴量を追加
- 可視化・検証: プロファイルレポート、トレンド・残差分析
- 再現性の確保: スクリプト化、パイプライン化、メタデータ管理
各セクションでは、このフレームを下敷きにしたコード例とチェックリストを掲載し、再利用可能なテンプレートを提供しています。
日本語データでハマりやすいポイント #
- 和暦 / 西暦 / 年度の混在
- 全角・半角、漢数字、機種依存文字
- 住所・法人名・商品名の表記揺れ
- Excel 特有のセル結合・コメント
- オープンデータ PDF / HTML のスクレイピング
これらに対する正規化レシピや便利なライブラリ(jaconv、janome、geopy など)も順次紹介しています。
チェックリスト #
- 元データの取得手順・ライセンス・更新頻度を記録した
- 整形スクリプトを Notebook / Python ファイルで維持し、再実行できる
- 数値 / カテゴリ / テキストごとに前処理ポリシーを定めた
- 前処理結果をバージョン管理し、特徴量の由来を追跡できる
- モデル学習前にサマリーレポートを生成し、異常値を検知した
この章を通じて「どの案件でも使える前処理テンプレート」を手元に持てるようにしましょう。