Question 1

В чём разница между precision и recall?

Accepted Answer

Precision отвечает на вопрос «из всех положительных предсказаний сколько было верными?», а recall — «из всех реальных положительных объектов сколько модель нашла?». Высокая precision означает мало ложноположительных срабатываний (модель осторожно помечает объект как положительный). Высокий recall означает мало ложно отрицательных (модель редко пропускает истинно положительный объект). Обычно между ними есть компромисс, который задаётся порогом решения.

Question 2

Почему accuracy не всегда лучшая метрика?

Accepted Answer

Accuracy может вводить в заблуждение на несбалансированных данных. Например, если лишь 1% транзакций мошеннические, модель, которая всегда предсказывает «не мошенничество», получит 99% accuracy, но не обнаружит ни одного случая мошенничества. В таких сценариях precision, recall, F1-score или MCC дают гораздо более информативную картину качества модели.

Question 3

Что такое коэффициент корреляции Мэттьюса (MCC)?

Accepted Answer

MCC — это единая сбалансированная метрика, учитывающая все четыре ячейки матрицы ошибок (TP, FP, TN, FN). Она принимает значения от −1 до +1, где +1 означает идеальное предсказание, 0 — не лучше случайного, а −1 — полное несогласие. MCC считается одной из самых информативных метрик для бинарной классификации, особенно на несбалансированных данных, потому что он не завышается большими перекосами классов.

Question 4

Что измеряет specificity и когда она важна?

Accepted Answer

Specificity (True Negative Rate) = TN / (TN + FP) измеряет, насколько хорошо модель избегает ложноположительных срабатываний среди реальных отрицательных случаев. Особенно важна в медицинском скрининге: тест с высокой specificity минимизирует число здоровых людей, ошибочно помеченных как больные, сокращая ненужные дополнительные обследования и тревожность пациентов. Sensitivity (recall) и specificity вместе определяют ROC-кривую.

Question 5

Как F1-score связан с precision и recall?

Accepted Answer

F1-score — это гармоническое среднее precision и recall: F1 = 2 × (P × R) / (P + R). Гармоническое среднее гарантирует, что F1 будет низким, если низок либо precision, либо recall — нельзя получить высокий F1, жертвуя одним ради другого. F1 принимает значения от 0 (хуже всего) до 1 (лучше всего) и является самой распространённой одиночной метрикой, когда нужно сбалансировать и ложноположительные, и ложно отрицательные ошибки.

Question 6

В чём разница между чувствительностью и specificity в медицинских тестах?

Accepted Answer

Чувствительность (recall) — это вероятность того, что тест правильно распознает больного пациента: TP / (TP + FN). Очень чувствительный тест пропускает очень мало больных, поэтому он хорош для исключения заболевания. Specificity — это вероятность того, что тест правильно распознает здорового человека: TN / (TN + FP). Очень специфичный тест даёт мало ложноположительных результатов, поэтому он хорош для подтверждения заболевания. Большинство диагностических тестов требуют компромисса между этими двумя величинами, который отображается ROC-кривой.

TP, FP, TN, FN	Ключевые метрики	Тип модели
TP=92, FP=8, TN=88, FN=12	Accuracy=90%, F1=0.9020, MCC=0.801	Хорошо сбалансированная модель с высокой эффективностью
TP=45, FP=5, TN=95, FN=25	Accuracy=82.35%, Precision=90%, Recall=64.29%	Высокая precision, консервативные предсказания
TP=85, FP=30, TN=70, FN=10	Accuracy=79.5%, Recall=89.5%, Specificity=70%	Высокий recall, чувствительная модель
TP=48, FP=12, TN=188, FN=2	Accuracy=94%, Sensitivity=96%, Specificity=94%	Медицинский диагностический тест — высокая чувствительность

Калькулятор матрицы ошибок - Метрики классификации

О калькуляторе матрицы ошибок

Примеры

Как пользоваться калькулятором матрицы ошибок

Часто задаваемые вопросы