Калькулятор матрицы ошибок - Метрики классификации
Анализируйте качество классификации с помощью accuracy, precision, recall, F1 и MCC
Введите значения матрицы ошибок, чтобы вычислить accuracy, precision, recall, specificity, F1-score и другие метрики качества для анализа бинарной классификации.
Калькулятор матрицы ошибок - Метрики классификации
Анализируйте качество классификации с помощью accuracy, precision, recall, F1 и MCC
О калькуляторе матрицы ошибок
Матрица ошибок — это таблица 2×2, которая суммирует качество бинарной классификационной модели, перечисляя четыре исхода: истинно положительные (TP), ложно положительные (FP), истинно отрицательные (TN) и ложно отрицательные (FN). Из этих четырёх чисел можно вывести богатый набор метрик качества, каждая из которых измеряет отдельный аспект поведения классификатора.
Истинно положительные (TP) — это случаи, когда модель правильно предсказала положительный класс. Ложно положительные (FP) — это случаи, когда модель предсказала положительный класс, но истинная метка была отрицательной; также называются ошибками первого рода. Истинно отрицательные (TN) — правильные отрицательные предсказания. Ложно отрицательные (FN) — это случаи, когда модель пропустила положительный объект; также называются ошибками второго рода.
Основные метрики, выводимые из матрицы ошибок:
• Accuracy = (TP + TN) / Итого — доля всех предсказаний, которые верны. Простая для понимания, но может вводить в заблуждение на несбалансированных данных.
• Precision (Positive Predictive Value) = TP / (TP + FP) — из всех положительных предсказаний сколько действительно положительные. Высокая precision означает мало ложных тревог.
• Recall (Sensitivity, True Positive Rate) = TP / (TP + FN) — из всех реальных положительных объектов сколько обнаружено. Высокий recall означает мало пропущенных положительных.
• Specificity (True Negative Rate) = TN / (TN + FP) — из всех реальных отрицательных объектов сколько правильно идентифицировано. Особенно важна в медицинском скрининге.
• F1-score = 2 × (Precision × Recall) / (Precision + Recall) — гармоническое среднее precision и recall, балансирующее обе метрики. Полезно при несбалансированных классах.
• Коэффициент корреляции Мэттьюса (MCC) = (TP×TN − FP×FN) / √((TP+FP)(TP+FN)(TN+FP)(TN+FN)) — сбалансированная метрика, учитывающая все четыре ячейки матрицы ошибок. Значения лежат от −1 (полное несогласие) до +1 (полное согласие), а 0 означает случайный уровень.
Выбор подходящей метрики зависит от задачи. Для обнаружения мошенничества критичен recall (нельзя пропустить мошенничество). Для спам-фильтров важнее precision (не блокировать легитимные письма). Для скрининга редких заболеваний важны и recall, и specificity. MCC и F1-score обычно информативнее, чем одна только accuracy, когда классы несбалансированы.
Примеры
В таблице показаны входные данные матрицы ошибок и соответствующие им метрики качества.
| TP, FP, TN, FN | Ключевые метрики | Тип модели |
|---|---|---|
| TP=92, FP=8, TN=88, FN=12 | Accuracy=90%, F1=0.9020, MCC=0.801 | Хорошо сбалансированная модель с высокой эффективностью |
| TP=45, FP=5, TN=95, FN=25 | Accuracy=82.35%, Precision=90%, Recall=64.29% | Высокая precision, консервативные предсказания |
| TP=85, FP=30, TN=70, FN=10 | Accuracy=79.5%, Recall=89.5%, Specificity=70% | Высокий recall, чувствительная модель |
| TP=48, FP=12, TN=188, FN=2 | Accuracy=94%, Sensitivity=96%, Specificity=94% | Медицинский диагностический тест — высокая чувствительность |
Как пользоваться калькулятором матрицы ошибок
- Введите количество истинно положительных (TP): случаев, когда модель правильно предсказала положительный класс.
- Введите ложно положительные (FP): модель предсказала положительный класс, но истинная метка была отрицательной (ошибка первого рода).
- Введите истинно отрицательные (TN) и ложно отрицательные (FN): пропущенные положительные (ошибка второго рода).
- Нажмите «Вычислить метрики», чтобы мгновенно получить accuracy, precision, recall, specificity, F1-score, MCC, NPV, FPR и FNR.
- Используйте кнопки быстрого примера, чтобы изучить преднастроенные сценарии вроде сбалансированных моделей, моделей с высокой precision и медицинских тестов.
Часто задаваемые вопросы
В чём разница между precision и recall?
Precision отвечает на вопрос «из всех положительных предсказаний сколько было верными?», а recall — «из всех реальных положительных объектов сколько модель нашла?». Высокая precision означает мало ложноположительных срабатываний (модель осторожно помечает объект как положительный). Высокий recall означает мало ложно отрицательных (модель редко пропускает истинно положительный объект). Обычно между ними есть компромисс, который задаётся порогом решения.
Почему accuracy не всегда лучшая метрика?
Accuracy может вводить в заблуждение на несбалансированных данных. Например, если лишь 1% транзакций мошеннические, модель, которая всегда предсказывает «не мошенничество», получит 99% accuracy, но не обнаружит ни одного случая мошенничества. В таких сценариях precision, recall, F1-score или MCC дают гораздо более информативную картину качества модели.
Что такое коэффициент корреляции Мэттьюса (MCC)?
MCC — это единая сбалансированная метрика, учитывающая все четыре ячейки матрицы ошибок (TP, FP, TN, FN). Она принимает значения от −1 до +1, где +1 означает идеальное предсказание, 0 — не лучше случайного, а −1 — полное несогласие. MCC считается одной из самых информативных метрик для бинарной классификации, особенно на несбалансированных данных, потому что он не завышается большими перекосами классов.
Что измеряет specificity и когда она важна?
Specificity (True Negative Rate) = TN / (TN + FP) измеряет, насколько хорошо модель избегает ложноположительных срабатываний среди реальных отрицательных случаев. Особенно важна в медицинском скрининге: тест с высокой specificity минимизирует число здоровых людей, ошибочно помеченных как больные, сокращая ненужные дополнительные обследования и тревожность пациентов. Sensitivity (recall) и specificity вместе определяют ROC-кривую.
Как F1-score связан с precision и recall?
F1-score — это гармоническое среднее precision и recall: F1 = 2 × (P × R) / (P + R). Гармоническое среднее гарантирует, что F1 будет низким, если низок либо precision, либо recall — нельзя получить высокий F1, жертвуя одним ради другого. F1 принимает значения от 0 (хуже всего) до 1 (лучше всего) и является самой распространённой одиночной метрикой, когда нужно сбалансировать и ложноположительные, и ложно отрицательные ошибки.
В чём разница между чувствительностью и specificity в медицинских тестах?
Чувствительность (recall) — это вероятность того, что тест правильно распознает больного пациента: TP / (TP + FN). Очень чувствительный тест пропускает очень мало больных, поэтому он хорош для исключения заболевания. Specificity — это вероятность того, что тест правильно распознает здорового человека: TN / (TN + FP). Очень специфичный тест даёт мало ложноположительных результатов, поэтому он хорош для подтверждения заболевания. Большинство диагностических тестов требуют компромисса между этими двумя величинами, который отображается ROC-кривой.