4.6
言語モデルの評価指標
まとめ
- n-gramベース指標(BLEU/ROUGE)の計算方法と翻訳・要約タスクでの使い分けを学ぶ。
- 語彙一致では捉えられない意味的類似度を評価するための埋め込みベース指標を理解する。
- 自動指標の限界と、人手評価やLLM評価との組み合わせ方を押さえる。
直感 #
翻訳や要約のように「正解が1つではない」タスクでは、評価が難しい。同じ意味の文でも表現は無数にあり、語彙の一致だけで品質を測ると優れた言い換えが低スコアになってしまう。一方で、意味的に近いだけでは事実の正確さや流暢さは保証されない。このチャプターではn-gramベースと埋め込みベースの2つのアプローチを学び、タスクと計算コストに応じた評価戦略を組み立てる力を身に付ける。
詳細な解説 #
このチャプターで学べること #
- BLEUのn-gram Precision計算と短縮ペナルティの仕組み、翻訳タスクでの標準的な使い方
- ROUGE-1/2/Lの違い、Recall重視の要約評価での活用パターン
- BERTScore・BLEURT・COMETなど埋め込みベース指標の概要と、n-gram指標との相補関係
- LLM-as-a-Judge(LLMによる自動採点)の手法とバイアスへの対処
これがわかるとできること #
- 翻訳・要約・生成タスクに応じて適切な自動評価指標を選択できる
- 語彙一致と意味的類似度の両面からモデルの出力品質を多角的に診断できる
- 自動指標と人手評価を組み合わせた評価パイプラインを設計できる
指標間の関係マップ #
graph LR
NG["n-gram ベース"] --> BLEU["BLEU"]
NG --> ROUGE["ROUGE"]
EMB["埋め込みベース"] --> BS["BERTScore"]
EMB --> BL["BLEURT"]
HU["人手 / LLM"] --> LJ["LLM-as-Judge"]
学習の進め方 #
- まずBLEUでn-gramベース評価の基本概念と計算方法を押さえる
- 次にROUGEでRecall重視の評価と要約タスクへの適用を学ぶ
- 埋め込みベース指標やLLM評価との使い分けを理解し、評価戦略の幅を広げる