サイト全体で登場する主要な用語を日本語・英語対訳付きでまとめたリファレンスです。各用語から関連ページへのリンクを付けています。
基礎統計・データ準備
#
| 用語 | 英語 | 説明 | 関連ページ |
|---|
| 特徴量 | Feature | モデルの入力変数。説明変数とも呼ぶ | 特徴選択 |
| 目的変数 | Target / Label | 予測したい出力変数 | — |
| 欠損値 | Missing value | データ中の未記録・不明値 | 前処理 |
| 外れ値 | Outlier | 他の観測値から大きく外れたデータ点 | Isolation Forest |
| 正規化 | Normalization | 値を 0–1 の範囲にスケーリングする処理 | 前処理 |
| 標準化 | Standardization | 平均0・標準偏差1にスケーリングする処理 | 前処理 |
| ワンホットエンコーディング | One-hot encoding | カテゴリ変数をバイナリベクトルに変換 | 前処理 |
| 次元の呪い | Curse of dimensionality | 高次元空間でデータが疎になる現象 | PCA |
教師あり学習 — 回帰
#
| 用語 | 英語 | 説明 | 関連ページ |
|---|
| 線形回帰 | Linear Regression | 入出力の線形関係をモデル化 | 線形回帰 |
| 正則化 | Regularization | 過学習を防ぐためにモデルの複雑さにペナルティを課す | Ridge / Lasso |
| L1 正則化 | L1 Regularization (Lasso) | 係数の絶対値の和をペナルティに加える。スパースな解を得る | Ridge / Lasso |
| L2 正則化 | L2 Regularization (Ridge) | 係数の二乗和をペナルティに加える。係数を縮小する | Ridge / Lasso |
| 多重共線性 | Multicollinearity | 説明変数間に強い相関があり推定が不安定になる問題 | PCA、PLS |
| 残差 | Residual | 実測値と予測値の差 | MAE・RMSE |
教師あり学習 — 分類
#
| 用語 | 英語 | 説明 | 関連ページ |
|---|
| ロジスティック回帰 | Logistic Regression | シグモイド関数で確率を推定する線形分類 | ロジスティック回帰 |
| 決定境界 | Decision boundary | クラスを分ける超平面や曲面 | SVM |
| 混同行列 | Confusion matrix | TP / FP / FN / TN の4セルで分類結果を整理 | 混同行列 |
| 適合率 | Precision | 陽性予測のうち実際に陽性だった割合 | 適合率・再現率 |
| 再現率 | Recall / Sensitivity | 実際の陽性のうち正しく検出できた割合 | 適合率・再現率 |
| F1スコア | F1-score | 適合率と再現率の調和平均 | F1スコア |
| ROC-AUC | ROC-AUC | 閾値を変化させたときの感度と偽陽性率のトレードオフ曲線下面積 | ROC-AUC |
| 不均衡データ | Imbalanced data | クラス間のサンプル数に大きな偏りがあるデータ | Balanced Accuracy |
決定木・アンサンブル
#
| 用語 | 英語 | 説明 | 関連ページ |
|---|
| 決定木 | Decision tree | ルールベースの分岐で予測する木構造モデル | 決定木 |
| ジニ不純度 | Gini impurity | ノードの不純度を測る指標。分割基準に使う | パラメータ |
| 情報利得 | Information gain | 分割によるエントロピーの減少量 | パラメータ |
| バギング | Bagging | ブートストラップサンプルで複数モデルを並列訓練し平均化 | バギング |
| ブースティング | Boosting | 弱学習器を逐次追加して残差を減らす手法 | 勾配ブースティング |
| ランダムフォレスト | Random Forest | バギング+特徴量のランダム選択 | Random Forest |
| 勾配ブースティング | Gradient Boosting | 損失関数の勾配方向に弱学習器を追加する手法 | 勾配ブースティング |
| XGBoost | XGBoost | 正則化と近似を組み込んだ高速勾配ブースティング実装 | XGBoost |
| LightGBM | LightGBM | ヒストグラムベースの高速勾配ブースティング | LightGBM |
| スタッキング | Stacking | 複数モデルの予測をメタモデルで統合 | スタッキング |
クラスタリング・次元削減
#
| 用語 | 英語 | 説明 | 関連ページ |
|---|
| k-means | k-means | セントロイドベースの距離最小化クラスタリング | k-means |
| DBSCAN | DBSCAN | 密度ベースのクラスタリング。任意形状のクラスターを検出 | DBSCAN |
| シルエットスコア | Silhouette score | クラスタリングの品質を -1〜1 で評価する指標 | k-means |
| 主成分分析 | PCA (Principal Component Analysis) | 分散が最大となる直交軸に射影して次元を削減 | PCA |
| 固有値 | Eigenvalue | 主成分が説明する分散の大きさ | PCA |
| t-SNE | t-SNE | 高次元データの局所構造を保ちながら2D/3Dに写像 | t-SNE |
モデル選択・評価
#
| 用語 | 英語 | 説明 | 関連ページ |
|---|
| 交差検証 | Cross-validation | データを分割して汎化性能を推定する手法 | 交差検証 |
| ホールドアウト法 | Hold-out | データを訓練用とテスト用に一度だけ分割 | — |
| 過学習 | Overfitting | 訓練データに適合しすぎて未知データの性能が低下する現象 | 検証曲線 |
| 未学習 | Underfitting | モデルが単純すぎてデータのパターンを捉えられない状態 | ラーニングカーブ |
| バイアス-バリアンス | Bias-Variance tradeoff | モデルの偏りと分散のバランス。複雑さの調整に関わる | ラーニングカーブ |
| ハイパーパラメータ | Hyperparameter | 学習前に設定するモデルの構造パラメータ | 検証曲線 |
| 決定係数 | R² (Coefficient of determination) | 予測がどの程度目的変数のばらつきを説明しているか | R² |
| MAE | Mean Absolute Error | 予測誤差の絶対値の平均 | MAE・RMSE |
| RMSE | Root Mean Squared Error | 予測誤差の二乗平均の平方根。大きな誤差を強く罰する | MAE・RMSE |
| AIC / BIC | AIC / BIC | 尤度とパラメータ数のバランスでモデルを比較する情報量基準 | AIC・BIC |
時系列分析
#
| 用語 | 英語 | 説明 | 関連ページ |
|---|
| 定常性 | Stationarity | 統計的性質が時間によって変化しない性質 | 時系列 |
| トレンド | Trend | 時系列の長期的な上昇・下降の傾向 | 時系列 |
| 季節性 | Seasonality | 一定周期で繰り返すパターン | Holt-Winters |
| 自己相関 | Autocorrelation | 過去の自分の値との相関 | 時系列 |
| ARIMA | ARIMA | 自己回帰+差分+移動平均を組み合わせた古典モデル | ARIMA |
| 指数平滑法 | Exponential Smoothing | 過去の値に指数的に減衰する重みをかけて平滑化 | 指数平滑法 |
距離・類似度
#
| 用語 | 英語 | 説明 | 関連ページ |
|---|
| コサイン類似度 | Cosine similarity | ベクトルの方向の一致度を -1〜1 で測る | コサイン類似度 |
| KL ダイバージェンス | KL Divergence | 確率分布間の情報量的な非対称距離 | KLD |
| ワッサースタイン距離 | Wasserstein distance (EMD) | 分布を別の分布に変換する最小輸送コスト | Wasserstein |
可視化
#
| 用語 | 英語 | 説明 | 関連ページ |
|---|
| ヒストグラム | Histogram | 連続値の度数分布をビンで表すグラフ | ヒストグラム |
| 散布図 | Scatter plot | 2変数の関係を点でプロットするグラフ | 散布図 |
| ヒートマップ | Heatmap | 値の大小を色で表す行列的な可視化 | 相関ヒートマップ |
| 箱ひげ図 | Box plot | 四分位数と外れ値を要約するグラフ | 可視化 |
| バイオリンプロット | Violin plot | 箱ひげ図+カーネル密度推定を組み合わせた分布可視化 | バイオリンプロット |