用語集

用語集

サイト全体で登場する主要な用語を日本語・英語対訳付きでまとめたリファレンスです。各用語から関連ページへのリンクを付けています。


基礎統計・データ準備 #

用語英語説明関連ページ
特徴量Featureモデルの入力変数。説明変数とも呼ぶ特徴選択
目的変数Target / Label予測したい出力変数
欠損値Missing valueデータ中の未記録・不明値前処理
外れ値Outlier他の観測値から大きく外れたデータ点Isolation Forest
正規化Normalization値を 0–1 の範囲にスケーリングする処理前処理
標準化Standardization平均0・標準偏差1にスケーリングする処理前処理
ワンホットエンコーディングOne-hot encodingカテゴリ変数をバイナリベクトルに変換前処理
次元の呪いCurse of dimensionality高次元空間でデータが疎になる現象PCA

教師あり学習 — 回帰 #

用語英語説明関連ページ
線形回帰Linear Regression入出力の線形関係をモデル化線形回帰
正則化Regularization過学習を防ぐためにモデルの複雑さにペナルティを課すRidge / Lasso
L1 正則化L1 Regularization (Lasso)係数の絶対値の和をペナルティに加える。スパースな解を得るRidge / Lasso
L2 正則化L2 Regularization (Ridge)係数の二乗和をペナルティに加える。係数を縮小するRidge / Lasso
多重共線性Multicollinearity説明変数間に強い相関があり推定が不安定になる問題PCAPLS
残差Residual実測値と予測値の差MAE・RMSE

教師あり学習 — 分類 #

用語英語説明関連ページ
ロジスティック回帰Logistic Regressionシグモイド関数で確率を推定する線形分類ロジスティック回帰
決定境界Decision boundaryクラスを分ける超平面や曲面SVM
混同行列Confusion matrixTP / FP / FN / TN の4セルで分類結果を整理混同行列
適合率Precision陽性予測のうち実際に陽性だった割合適合率・再現率
再現率Recall / Sensitivity実際の陽性のうち正しく検出できた割合適合率・再現率
F1スコアF1-score適合率と再現率の調和平均F1スコア
ROC-AUCROC-AUC閾値を変化させたときの感度と偽陽性率のトレードオフ曲線下面積ROC-AUC
不均衡データImbalanced dataクラス間のサンプル数に大きな偏りがあるデータBalanced Accuracy

決定木・アンサンブル #

用語英語説明関連ページ
決定木Decision treeルールベースの分岐で予測する木構造モデル決定木
ジニ不純度Gini impurityノードの不純度を測る指標。分割基準に使うパラメータ
情報利得Information gain分割によるエントロピーの減少量パラメータ
バギングBaggingブートストラップサンプルで複数モデルを並列訓練し平均化バギング
ブースティングBoosting弱学習器を逐次追加して残差を減らす手法勾配ブースティング
ランダムフォレストRandom Forestバギング+特徴量のランダム選択Random Forest
勾配ブースティングGradient Boosting損失関数の勾配方向に弱学習器を追加する手法勾配ブースティング
XGBoostXGBoost正則化と近似を組み込んだ高速勾配ブースティング実装XGBoost
LightGBMLightGBMヒストグラムベースの高速勾配ブースティングLightGBM
スタッキングStacking複数モデルの予測をメタモデルで統合スタッキング

クラスタリング・次元削減 #

用語英語説明関連ページ
k-meansk-meansセントロイドベースの距離最小化クラスタリングk-means
DBSCANDBSCAN密度ベースのクラスタリング。任意形状のクラスターを検出DBSCAN
シルエットスコアSilhouette scoreクラスタリングの品質を -1〜1 で評価する指標k-means
主成分分析PCA (Principal Component Analysis)分散が最大となる直交軸に射影して次元を削減PCA
固有値Eigenvalue主成分が説明する分散の大きさPCA
t-SNEt-SNE高次元データの局所構造を保ちながら2D/3Dに写像t-SNE

モデル選択・評価 #

用語英語説明関連ページ
交差検証Cross-validationデータを分割して汎化性能を推定する手法交差検証
ホールドアウト法Hold-outデータを訓練用とテスト用に一度だけ分割
過学習Overfitting訓練データに適合しすぎて未知データの性能が低下する現象検証曲線
未学習Underfittingモデルが単純すぎてデータのパターンを捉えられない状態ラーニングカーブ
バイアス-バリアンスBias-Variance tradeoffモデルの偏りと分散のバランス。複雑さの調整に関わるラーニングカーブ
ハイパーパラメータHyperparameter学習前に設定するモデルの構造パラメータ検証曲線
決定係数R² (Coefficient of determination)予測がどの程度目的変数のばらつきを説明しているか
MAEMean Absolute Error予測誤差の絶対値の平均MAE・RMSE
RMSERoot Mean Squared Error予測誤差の二乗平均の平方根。大きな誤差を強く罰するMAE・RMSE
AIC / BICAIC / BIC尤度とパラメータ数のバランスでモデルを比較する情報量基準AIC・BIC

時系列分析 #

用語英語説明関連ページ
定常性Stationarity統計的性質が時間によって変化しない性質時系列
トレンドTrend時系列の長期的な上昇・下降の傾向時系列
季節性Seasonality一定周期で繰り返すパターンHolt-Winters
自己相関Autocorrelation過去の自分の値との相関時系列
ARIMAARIMA自己回帰+差分+移動平均を組み合わせた古典モデルARIMA
指数平滑法Exponential Smoothing過去の値に指数的に減衰する重みをかけて平滑化指数平滑法

距離・類似度 #

用語英語説明関連ページ
コサイン類似度Cosine similarityベクトルの方向の一致度を -1〜1 で測るコサイン類似度
KL ダイバージェンスKL Divergence確率分布間の情報量的な非対称距離KLD
ワッサースタイン距離Wasserstein distance (EMD)分布を別の分布に変換する最小輸送コストWasserstein

可視化 #

用語英語説明関連ページ
ヒストグラムHistogram連続値の度数分布をビンで表すグラフヒストグラム
散布図Scatter plot2変数の関係を点でプロットするグラフ散布図
ヒートマップHeatmap値の大小を色で表す行列的な可視化相関ヒートマップ
箱ひげ図Box plot四分位数と外れ値を要約するグラフ可視化
バイオリンプロットViolin plot箱ひげ図+カーネル密度推定を組み合わせた分布可視化バイオリンプロット