каппа Коэна — null/objects/statistics

мера · №004

каппа Коэна

inter-annotator agreement · согласие разметчиков · поправка на случайность

обозначение	κ (каппа)
тип	мера согласия · classification
ввёл	Jacob Cohen · 1960
формула	κ = (p_o − p_e) / (1 − p_e)
диапазон	от −1 до 1 · обычно 0…1
интерпретация	κ > 0.8 отличное · 0.6–0.8 хорошее · < 0.4 слабое
применение	разметка данных · NLP · медицинская диагностика
связано	LLM eval · BLEU · размер эффекта

эссе · ~400 слов · 3 мин

Насколько аннотаторы согласны?

сырое согласие обманывает. поправка на случайность — обязательна.

Два разметчика смотрят на 100 текстов и классифицируют: позитивный / негативный / нейтральный. Они согласились в 80 случаях из 100. Хорошо? Зависит от того, сколько они совпали бы случайно.

Если классов поровну и оба разметчика выбирают случайно — они совпадут в 33% случаев (для трёх классов). Согласие 80% при случайном 33% — это одно. Согласие 80% при случайном 75% — это совсем другое.

Каппа Коэна делает поправку на случайность1:

κ = (p_o − p_e) / (1 − p_e)
p_o = наблюдаемое согласие
p_e = ожидаемое случайное согласие

Если p_e = 0.33: κ = (0.8 − 0.33) / (1 − 0.33) = 0.70 — хорошее. Если p_e = 0.75: κ = (0.8 − 0.75) / (1 − 0.75) = 0.20 — слабое. Сырое согласие одинаковое — выводы противоположные.

Если аннотаторы плохо согласуются — задача плохо определена. Нельзя обучить модель тому, чего люди сами не понимают одинаково.

В LLM evaluation κ критична: κ < 0.4 — сигнал пересмотреть инструкцию разметки. Не модель плохая — задача нечёткая.

Взвешенная каппа — для порядковых шкал (1–5). Несогласие «1 vs 2» штрафуется меньше, чем «1 vs 5». Альфа Криппендорфа — обобщение на любые шкалы и больше двух аннотаторов2.