3
データ前処理
まとめ
- データ取得から整形・変換・特徴量生成までの前処理パイプラインを体系的に学ぶ。
- 数値・カテゴリカル・日本語テキストそれぞれの前処理パターンと選択基準を身に付ける。
- 再現可能なスクリプトとして前処理を管理し、本番運用に耐える設計を押さえる。
直感 #
モデルの精度はデータの品質で決まる。前処理はモデリングの前段でありながら、プロジェクト全体の成否を左右する最重要工程。このセクションでは、データの読み込みからスケーリング・エンコーディング・日本語固有の正規化までを一気通貫で扱い、どの案件でも再利用できるテンプレートを組み立てる。
詳細な解説 #
このセクションで学べること #
- データ読み込みと整形 — CSV/Excelの取り込みからpandasの基本操作、SQLとの連携まで
- 数値データ前処理 — StandardScaler/MinMaxScaler/RobustScalerの使い分け、Box-Cox変換、外れ値処理
- カテゴリカルデータ前処理 — One-Hot/Count/Target Encodingの特性と、リーク防止の設計
- テーブルデータ全般 — 複数テーブルの結合やピボット、集計パターン
- 特殊なデータ — 画像・テキスト・時系列など表形式以外のデータの取り扱い
- 日本語データの前処理 — 全角半角正規化、和暦変換、住所分割、漢数字変換など10種のレシピ
- よくあるエラー — pandas read_csvで発生しやすい6つのエラーと対処法
これがわかるとできること #
- データ型(数値・カテゴリ・テキスト)に応じて適切な前処理手法を選択できる
- 前処理パイプラインをスクリプト化し、再現性のある分析基盤を構築できる
- 日本語データ固有の表記揺れや形式混在を体系的に処理できる
学習の進め方 #
- まずデータ読み込みと整形でpandasの基本操作を押さえる
- 数値・カテゴリカルの前処理でモデル投入前の変換パターンを理解する
- 日本語データの前処理で実務固有の課題への対応力を広げる
- よくあるエラー集で実装時のトラブルシューティング力を身に付ける