null
BLEU
мера · №003
BLEU score
bilingual evaluation understudy · n-gram overlap · метрика качества текста
расшифровкаBilingual Evaluation Understudy
типавтоматическая метрика · reference-based
ввелиPapineni et al. · ACL · 2002
диапазон0.0 — 1.0 (или 0–100%)
формулаBLEU = BP × exp(Σ wₙ · log pₙ) · BP = brevity penalty · pₙ = n-gram precision
применениемашинный перевод · суммаризация · генерация текста
ограниченияне учитывает семантику · чувствителен к порядку слов
связаноLLM eval · Cohen's κ · размер эффекта

эссе · ~400 слов · 3 мин

Считаем совпадения n-грамм.

самая используемая метрика для оценки текстовых моделей.

BLEU — самая используемая метрика для оценки текстовых моделей. Идея простая: насколько n-граммы (последовательности из n слов) в сгенерированном тексте совпадают с эталонным переводом?

Пример:

эталон: «the cat is on the mat»
гипотеза: «the cat the cat on the mat»

1-gram precision: 6/7 совпадений (но «the cat» повторяется). С clip: не более 2 раз «the» (столько в эталоне). Precision = 5/7.

BLEU считает 1-gram, 2-gram, 3-gram, 4-gram precision и усредняет логарифмически. Brevity penalty штрафует за слишком короткие ответы1.

BLEU не понимает смысл — только форму. «Кошка сидит на мате» и «мат сидит на кошке» для BLEU могут быть одинаковы.

BLEU от 0 до 1. Выше — лучше. На практике для машинного перевода: BLEU > 0.6 — отличное качество, 0.3–0.6 — приемлемое, < 0.3 — плохое.

Ограничения: BLEU не понимает смысл — только форму. Синонимы не засчитываются: «автомобиль» ≠ «машина». Высокий BLEU не всегда коррелирует с человеческой оценкой.

Альтернативы: ROUGE (для суммаризации)2 · BERTScore (семантическое сходство через эмбеддинги)3 · METEOR (учитывает синонимы) · chrF (символьные n-граммы).

Несмотря на ограничения, BLEU остаётся стандартом де-факто — потому что воспроизводим, быстр и легко сравнивать между работами.