データ前処理

Prep

データ前処理ガイド | 特徴量設計とクレンジング

Section 3: データ前処理 #

出典: Wikipedia – Data pre-processing
“データを使用する前に加工・削除して性能を確保 / 向上させること”

機械学習ではモデリングの前に データ取得 → 整形 → 変換 → 特徴量生成 を一気通貫で行う必要があります。日本語データでは和暦・全角/半角・特殊記号など独特の課題が多く、テンプレ化と自動化が成果につながります。


学ぶ範囲 #

カテゴリページ目的
データ取得prep/dataCSV/Excel を pandas で読み込み、整形・集計・SQL で再利用
数値前処理prep/numericalスケーリング / 変換 / 外れ値処理 / 欠損補完のパターン
カテゴリカルprep/categoricalOne-Hot / Count / Target / Ordered Statistics
日本語特有の課題prep/japanese和暦→西暦変換、表記揺れ、住所・法人名の正規化など
付録監査テンプレート、チェックリスト前処理のレビュー観点・ドキュメント化のヒント

データ前処理のフレーム #

  1. データ監査: ファイル構造・ライセンス・欠損・型を把握
  2. 整形・クリーニング: ヘッダー整備、単位、スケール合わせ
  3. 特徴量生成: 数値/カテゴリ/テキスト/日付の特徴量を追加
  4. 可視化・検証: プロファイルレポート、トレンド・残差分析
  5. 再現性の確保: スクリプト化、パイプライン化、メタデータ管理

各セクションでは、このフレームを下敷きにしたコード例とチェックリストを掲載し、再利用可能なテンプレートを提供しています。


日本語データでハマりやすいポイント #

  • 和暦 / 西暦 / 年度の混在
  • 全角・半角、漢数字、機種依存文字
  • 住所・法人名・商品名の表記揺れ
  • Excel 特有のセル結合・コメント
  • オープンデータ PDF / HTML のスクレイピング

これらに対する正規化レシピや便利なライブラリ(jaconvjanomegeopy など)も順次紹介しています。


チェックリスト #

  • 元データの取得手順・ライセンス・更新頻度を記録した
  • 整形スクリプトを Notebook / Python ファイルで維持し、再実行できる
  • 数値 / カテゴリ / テキストごとに前処理ポリシーを定めた
  • 前処理結果をバージョン管理し、特徴量の由来を追跡できる
  • モデル学習前にサマリーレポートを生成し、異常値を検知した

この章を通じて「どの案件でも使える前処理テンプレート」を手元に持てるようにしましょう。