| обозначение | κ (каппа) |
| тип | мера согласия · classification |
| ввёл | Jacob Cohen · 1960 |
| формула | κ = (po − pe) / (1 − pe) |
| диапазон | от −1 до 1 · обычно 0…1 |
| интерпретация | κ > 0.8 отличное · 0.6–0.8 хорошее · < 0.4 слабое |
| применение | разметка данных · NLP · медицинская диагностика |
| связано | LLM eval · BLEU · размер эффекта |
Насколько аннотаторы согласны?
сырое согласие обманывает. поправка на случайность — обязательна.
Два разметчика смотрят на 100 текстов и классифицируют: позитивный / негативный / нейтральный. Они согласились в 80 случаях из 100. Хорошо? Зависит от того, сколько они совпали бы случайно.
Если классов поровну и оба разметчика выбирают случайно — они совпадут в 33% случаев (для трёх классов). Согласие 80% при случайном 33% — это одно. Согласие 80% при случайном 75% — это совсем другое.
Каппа Коэна делает поправку на случайность1:
κ = (po − pe) / (1 − pe)
po = наблюдаемое согласие
pe = ожидаемое случайное согласие
Если pe = 0.33: κ = (0.8 − 0.33) / (1 − 0.33) = 0.70 — хорошее. Если pe = 0.75: κ = (0.8 − 0.75) / (1 − 0.75) = 0.20 — слабое. Сырое согласие одинаковое — выводы противоположные.
Если аннотаторы плохо согласуются — задача плохо определена. Нельзя обучить модель тому, чего люди сами не понимают одинаково.
В LLM evaluation κ критична: κ < 0.4 — сигнал пересмотреть инструкцию разметки. Не модель плохая — задача нечёткая.
Взвешенная каппа — для порядковых шкал (1–5). Несогласие «1 vs 2» штрафуется меньше, чем «1 vs 5». Альфа Криппендорфа — обобщение на любые шкалы и больше двух аннотаторов2.