Section 2: 機械学習 #
“経験(データ)から自動で改善するアルゴリズム” – Wikipedia: 機械学習
このセクションでは、教師あり/教師なし/強化学習の位置づけから代表モデル、実装時の勘所までを段階的に学びます。Python 3.13 + scikit-learn を使い、学術用語と現場運用を結び付けることを目的にしています。
学ぶ内容 #
| ページ | 目的 | 主なトピック |
|---|---|---|
| 教師あり学習の基本 | 数値・カテゴリ予測 | 線形回帰、ロジスティック回帰、決定木、KNN |
| モデル評価と改善 | 汎化性能の確認 | ホールドアウト vs KFold、正則化、アンサンブル |
| 教師なし学習 | 構造探索 | K-means、階層クラスタリング、次元削減 |
| 特徴量エンジニアリング | 学習を支える前処理 | スケーリング、エンコーディング、特徴選択 |
| 応用編 | 実務タスクへの接続 | 時系列、異常検知、推薦、AutoML の使いどころ |
各ページでは「概念 → 数式/図解 → コード例 → 応用アイデア」の順で解説し、練習問題と追加リソース(論文・ブログ)を添付しています。
ユースケースで考える #
| 課題 | 代表指標 | モデル例 | この章で扱う観点 |
|---|---|---|---|
| 売上予測(回帰) | RMSE / MAPE | 線形回帰, LightGBM | 特徴量設計、外れ値対策 |
| 不正検知(二値分類) | Recall / PR-AUC | ロジスティック回帰, IsolationForest | クラス不均衡、しきい値調整 |
| 顧客セグメント(クラスタリング) | シルエット係数 | KMeans, GMM | スケール統一、クラスタ数の決め方 |
| レコメンド(ランキング) | MAP@K / NDCG | MF, LightFM | 交互作用特徴量、評価セット作成 |
学習の流れ #
- 直感をつかむ – 日常例(スパムメール判定、動画推薦など)で目的を理解
- アルゴリズムの構造 – 損失関数・最適化・バイアス/バリアンスを図解
- コードに落とし込む – Notebook で
fit → predict → evaluateのテンプレートを定着 - 改善サイクル – ハイパーパラメータ、特徴量追加、アンサンブルを試す
- 運用を見据える – 再学習パイプライン、モデル監視、デプロイメント戦略
チェックリスト #
- 課題の種類(回帰/分類/クラスタリング等)と評価指標をセットで説明できる
- scikit-learn で代表モデルを実装し、学習→推論→評価を再現できる
- 過学習/アンダーフィッティングを診断する可視化を準備できる
- 特徴量エンジニアリングと前処理の重要性を理解し、前章との接続を意識できる
- モデル改善の優先順位(データ拡張 / ハイパーパラメータ / アンサンブル)を整理できる
この章を通じて、機械学習プロジェクトの基本サイクルを体験し、後続の評価・運用章につなげていきましょう。