特殊なデータ

まとめ

画像・テキスト・時系列など、表形式以外のデータの前処理フローを概観する。
データ種別ごとに適した表現形式（ベクトル化・埋め込み・スペクトログラム等）を理解する。
非構造データを表形式に変換し、既存のMLパイプラインに統合する手法を学ぶ。

直感 #

現実のプロジェクトでは、CSVやRDBに収まらないデータを扱う場面が増えている。画像は数百万ピクセルの数値配列であり、テキストは可変長のトークン列であり、時系列はサンプリング間隔が不均一なことも多い。このチャプターでは、こうした非構造データをMLモデルが受け取れる形に変換するための基本的な考え方を整理する。

詳細な解説 #

このチャプターで学べること #

画像データのリサイズ・正規化・データ拡張の基本フロー
テキストデータの前処理（トークン化、TF-IDF、埋め込みベクトル化）
時系列データのリサンプリング・ラグ特徴量・窓関数による特徴量抽出
音声・センサーデータのスペクトログラム変換と周波数領域の特徴量設計

これがわかるとできること #

データ種別に応じた前処理パイプラインの全体像を設計できる
非構造データを表形式の特徴量に変換し、既存のワークフローに組み込める
各データ型の前処理で発生しやすい落とし穴（リーク・情報損失）を回避できる

学習の進め方 #

まず各データ種別（画像・テキスト・時系列）の入力形式と前処理の目的を整理する
次にデータ種別ごとの代表的な変換手法をコード例で確認する
最後に複数のデータ型を組み合わせたマルチモーダルな特徴量設計の考え方を押さえる