| расшифровка | Bilingual Evaluation Understudy |
| тип | автоматическая метрика · reference-based |
| ввели | Papineni et al. · ACL · 2002 |
| диапазон | 0.0 — 1.0 (или 0–100%) |
| формула | BLEU = BP × exp(Σ wₙ · log pₙ) · BP = brevity penalty · pₙ = n-gram precision |
| применение | машинный перевод · суммаризация · генерация текста |
| ограничения | не учитывает семантику · чувствителен к порядку слов |
| связано | LLM eval · Cohen's κ · размер эффекта |
Считаем совпадения n-грамм.
самая используемая метрика для оценки текстовых моделей.
BLEU — самая используемая метрика для оценки текстовых моделей. Идея простая: насколько n-граммы (последовательности из n слов) в сгенерированном тексте совпадают с эталонным переводом?
Пример:
эталон: «the cat is on the mat»
гипотеза: «the cat the cat on the mat»
1-gram precision: 6/7 совпадений (но «the cat» повторяется). С clip: не более 2 раз «the» (столько в эталоне). Precision = 5/7.
BLEU считает 1-gram, 2-gram, 3-gram, 4-gram precision и усредняет логарифмически. Brevity penalty штрафует за слишком короткие ответы1.
BLEU не понимает смысл — только форму. «Кошка сидит на мате» и «мат сидит на кошке» для BLEU могут быть одинаковы.
BLEU от 0 до 1. Выше — лучше. На практике для машинного перевода: BLEU > 0.6 — отличное качество, 0.3–0.6 — приемлемое, < 0.3 — плохое.
Ограничения: BLEU не понимает смысл — только форму. Синонимы не засчитываются: «автомобиль» ≠ «машина». Высокий BLEU не всегда коррелирует с человеческой оценкой.
Альтернативы: ROUGE (для суммаризации)2 · BERTScore (семантическое сходство через эмбеддинги)3 · METEOR (учитывает синонимы) · chrF (символьные n-граммы).
Несмотря на ограничения, BLEU остаётся стандартом де-факто — потому что воспроизводим, быстр и легко сравнивать между работами.