機械学習の基礎

Basic

機械学習基礎ガイド | 代表アルゴリズムと概念

Section 2: 機械学習 #

“経験（データ）から自動で改善するアルゴリズム” – Wikipedia: 機械学習

このセクションでは、教師あり/教師なし/強化学習の位置づけから代表モデル、実装時の勘所までを段階的に学びます。Python 3.13 + scikit-learn を使い、学術用語と現場運用を結び付けることを目的にしています。

学ぶ内容 #

ページ	目的	主なトピック
教師あり学習の基本	数値・カテゴリ予測	線形回帰、ロジスティック回帰、決定木、KNN
モデル評価と改善	汎化性能の確認	ホールドアウト vs KFold、正則化、アンサンブル
教師なし学習	構造探索	K-means、階層クラスタリング、次元削減
特徴量エンジニアリング	学習を支える前処理	スケーリング、エンコーディング、特徴選択
応用編	実務タスクへの接続	時系列、異常検知、推薦、AutoML の使いどころ

各ページでは「概念 → 数式/図解 → コード例 → 応用アイデア」の順で解説し、練習問題と追加リソース（論文・ブログ）を添付しています。

ユースケースで考える #

課題	代表指標	モデル例	この章で扱う観点
売上予測（回帰）	RMSE / MAPE	線形回帰, LightGBM	特徴量設計、外れ値対策
不正検知（二値分類）	Recall / PR-AUC	ロジスティック回帰, IsolationForest	クラス不均衡、しきい値調整
顧客セグメント（クラスタリング）	シルエット係数	KMeans, GMM	スケール統一、クラスタ数の決め方
レコメンド（ランキング）	MAP@K / NDCG	MF, LightFM	交互作用特徴量、評価セット作成

学習の流れ #

直感をつかむ – 日常例（スパムメール判定、動画推薦など）で目的を理解
アルゴリズムの構造 – 損失関数・最適化・バイアス/バリアンスを図解
コードに落とし込む – Notebook で fit → predict → evaluate のテンプレートを定着
改善サイクル – ハイパーパラメータ、特徴量追加、アンサンブルを試す
運用を見据える – 再学習パイプライン、モデル監視、デプロイメント戦略

チェックリスト #

課題の種類（回帰/分類/クラスタリング等）と評価指標をセットで説明できる
scikit-learn で代表モデルを実装し、学習→推論→評価を再現できる
過学習/アンダーフィッティングを診断する可視化を準備できる
特徴量エンジニアリングと前処理の重要性を理解し、前章との接続を意識できる
モデル改善の優先順位（データ拡張 / ハイパーパラメータ / アンサンブル）を整理できる

この章を通じて、機械学習プロジェクトの基本サイクルを体験し、後続の評価・運用章につなげていきましょう。