null
κ
мера · №004
каппа Коэна
inter-annotator agreement · согласие разметчиков · поправка на случайность
обозначениеκ (каппа)
типмера согласия · classification
ввёлJacob Cohen · 1960
формулаκ = (po − pe) / (1 − pe)
диапазонот −1 до 1 · обычно 0…1
интерпретацияκ > 0.8 отличное · 0.6–0.8 хорошее · < 0.4 слабое
применениеразметка данных · NLP · медицинская диагностика
связаноLLM eval · BLEU · размер эффекта

эссе · ~400 слов · 3 мин

Насколько аннотаторы согласны?

сырое согласие обманывает. поправка на случайность — обязательна.

Два разметчика смотрят на 100 текстов и классифицируют: позитивный / негативный / нейтральный. Они согласились в 80 случаях из 100. Хорошо? Зависит от того, сколько они совпали бы случайно.

Если классов поровну и оба разметчика выбирают случайно — они совпадут в 33% случаев (для трёх классов). Согласие 80% при случайном 33% — это одно. Согласие 80% при случайном 75% — это совсем другое.

Каппа Коэна делает поправку на случайность1:

κ = (po − pe) / (1 − pe)
po = наблюдаемое согласие
pe = ожидаемое случайное согласие

Если pe = 0.33: κ = (0.8 − 0.33) / (1 − 0.33) = 0.70 — хорошее. Если pe = 0.75: κ = (0.8 − 0.75) / (1 − 0.75) = 0.20 — слабое. Сырое согласие одинаковое — выводы противоположные.

Если аннотаторы плохо согласуются — задача плохо определена. Нельзя обучить модель тому, чего люди сами не понимают одинаково.

В LLM evaluation κ критична: κ < 0.4 — сигнал пересмотреть инструкцию разметки. Не модель плохая — задача нечёткая.

Взвешенная каппа — для порядковых шкал (1–5). Несогласие «1 vs 2» штрафуется меньше, чем «1 vs 5». Альфа Криппендорфа — обобщение на любые шкалы и больше двух аннотаторов2.