Konfusionsmatrix-Rechner - Klassifikationsmetriken

Klassifikationsleistung mit Accuracy, Precision, Recall, F1 und MCC analysieren

Geben Sie die Werte Ihrer Konfusionsmatrix ein, um Accuracy, Precision, Recall, Specificity, F1-Score und weitere Leistungsmetriken für die Analyse binärer Klassifikationen zu berechnen.

Konfusionsmatrix-Rechner - Klassifikationsmetriken
Klassifikationsleistung mit Accuracy, Precision, Recall, F1 und MCC analysieren

Über den Konfusionsmatrix-Rechner

Eine Konfusionsmatrix ist eine 2×2-Tabelle, die die Leistung eines binären Klassifikationsmodells zusammenfasst, indem sie die Häufigkeiten von vier Ergebnissen auflistet: Richtig Positive (TP), Falsch Positive (FP), Richtig Negative (TN) und Falsch Negative (FN). Aus diesen vier Zahlen lässt sich eine Vielzahl von Leistungsmetriken ableiten, von denen jede einen anderen Aspekt des Klassifikatorverhaltens misst. Richtig Positive (TP) sind Fälle, in denen das Modell die positive Klasse korrekt vorhergesagt hat. Falsch Positive (FP) sind Fälle, in denen das Modell positiv vorhersagte, das wahre Label aber negativ war — auch als Fehler 1. Art bezeichnet. Richtig Negative (TN) sind korrekte negative Vorhersagen. Falsch Negative (FN) sind Fälle, in denen das Modell eine positive Instanz übersehen hat — auch als Fehler 2. Art bezeichnet. Wichtige aus der Konfusionsmatrix abgeleitete Metriken sind: • Accuracy = (TP + TN) / Gesamt — der Anteil aller Vorhersagen, die korrekt sind. Einfach zu interpretieren, aber bei unausgeglichenen Datensätzen irreführend. • Precision (Positive Predictive Value) = TP / (TP + FP) — von allen positiven Vorhersagen, wie viele tatsächlich positiv sind. Hohe Precision bedeutet wenige Fehlalarme. • Recall (Sensitivity, True Positive Rate) = TP / (TP + FN) — von allen tatsächlichen Positiven, wie viele erkannt wurden. Hoher Recall bedeutet wenige übersehene Positive. • Specificity (True Negative Rate) = TN / (TN + FP) — von allen tatsächlichen Negativen, wie viele korrekt identifiziert wurden. Wichtig beim medizinischen Screening. • F1-Score = 2 × (Precision × Recall) / (Precision + Recall) — das harmonische Mittel von Precision und Recall, das beide Metriken ausbalanciert. Nützlich bei unausgeglichenen Klassen. • Matthews Correlation Coefficient (MCC) = (TP×TN − FP×FN) / √((TP+FP)(TP+FN)(TN+FP)(TN+FN)) — eine ausbalancierte Metrik, die alle vier Felder der Konfusionsmatrix berücksichtigt. Sie reicht von −1 (vollständige Ablehnung) bis +1 (perfekte Übereinstimmung), wobei 0 eine zufällige Leistung anzeigt. Die Wahl der richtigen Metrik hängt von Ihrem Problem ab. Bei Betrugserkennung ist Recall entscheidend (niemals einen Betrug übersehen). Bei Spamfiltern ist Precision wichtiger (keine legitimen E-Mails blockieren). Bei der Früherkennung seltener Krankheiten sind sowohl Recall als auch Specificity wichtig. MCC und F1-Score sind bei unausgeglichenen Klassen meist aussagekräftiger als Accuracy allein.

Beispiele

Die Tabelle zeigt Konfusionsmatrix-Eingaben und ihre resultierenden Leistungsmetriken.

TP, FP, TN, FNWichtige MetrikenModelltyp
TP=92, FP=8, TN=88, FN=12Accuracy=90%, F1=0.9020, MCC=0.801Gut ausbalanciertes, leistungsstarkes Modell
TP=45, FP=5, TN=95, FN=25Accuracy=82.35%, Precision=90%, Recall=64.29%Hohe Precision, konservative Vorhersagen
TP=85, FP=30, TN=70, FN=10Accuracy=79.5%, Recall=89.5%, Specificity=70%Hoher Recall, sensibles Modell
TP=48, FP=12, TN=188, FN=2Accuracy=94%, Sensitivity=96%, Specificity=94%Medizinischer Diagnosetest — hohe Sensitivität

So verwenden Sie den Konfusionsmatrix-Rechner

  1. Geben Sie die Anzahl der Richtig Positiven (TP) ein: Fälle, in denen das Modell die positive Klasse korrekt vorhergesagt hat.
  2. Geben Sie Falsch Positive (FP) ein: Das Modell sagte positiv voraus, das wahre Label war jedoch negativ (Fehler 1. Art).
  3. Geben Sie Richtig Negative (TN) ein und Falsch Negative (FN): übersehene Positive (Fehler 2. Art).
  4. Klicken Sie auf „Metriken berechnen“, um Accuracy, Precision, Recall, Specificity, F1-Score, MCC, NPV, FPR und FNR sofort zu berechnen.
  5. Nutzen Sie die Schnelllade-Beispielschaltflächen, um vorkonfigurierte Szenarien wie ausgewogene Modelle, Modelle mit hoher Precision und medizinische Tests zu erkunden.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Precision und Recall?
Precision beantwortet die Frage „Von allen positiven Vorhersagen, wie viele waren korrekt?“, während Recall beantwortet „Von allen tatsächlichen Positiven, wie viele hat das Modell gefunden?“. Hohe Precision bedeutet wenige Falsch Positive (das Modell ist vorsichtig beim Labeln als positiv). Hoher Recall bedeutet wenige Falsch Negative (das Modell verpasst selten ein echtes Positiv). Normalerweise gibt es zwischen beiden einen Zielkonflikt, der durch den Entscheidungs-Schwellenwert gesteuert wird.
Warum ist Accuracy nicht immer die beste Metrik?
Accuracy kann bei unausgeglichenen Datensätzen irreführend sein. Wenn zum Beispiel nur 1 % der Transaktionen betrügerisch ist, erreicht ein Modell, das immer „kein Betrug“ vorhersagt, 99 % Accuracy, erkennt aber keinen einzigen Betrugsfall. In solchen Szenarien liefern Precision, Recall, F1-Score oder MCC ein wesentlich aussagekräftigeres Bild der Modellleistung.
Was ist der Matthews Correlation Coefficient (MCC)?
MCC ist eine einzelne, ausbalancierte Metrik, die alle vier Zellen der Konfusionsmatrix (TP, FP, TN, FN) berücksichtigt. Sie reicht von −1 bis +1, wobei +1 perfekte Vorhersage, 0 nicht besser als Zufall und −1 vollständige Ablehnung bedeutet. MCC gilt als eine der informativsten Metriken für binäre Klassifikation, besonders bei unausgeglichenen Datensätzen, da sie nicht durch große Klassenungleichgewichte aufgebläht wird.
Was misst Specificity und wann ist sie wichtig?
Specificity (True Negative Rate) = TN / (TN + FP) misst, wie gut das Modell Falsch Positive unter den tatsächlichen Negativen vermeidet. Sie ist besonders wichtig beim medizinischen Screening: Ein Test mit hoher Specificity minimiert die Zahl gesunder Menschen, die fälschlich als krank markiert werden, und reduziert unnötige Nachuntersuchungen sowie Patientenangst. Sensitivität (Recall) und Specificity definieren zusammen die ROC-Kurve.
Wie hängt der F1-Score mit Precision und Recall zusammen?
Der F1-Score ist das harmonische Mittel von Precision und Recall: F1 = 2 × (P × R) / (P + R). Das harmonische Mittel sorgt dafür, dass F1 niedrig ist, wenn entweder Precision oder Recall niedrig ist — man kann keinen hohen F1 erzielen, indem man eines zugunsten des anderen opfert. F1 reicht von 0 (schlecht) bis 1 (best) und ist die häufigste Einzelmetrik, wenn sowohl Falsch Positive als auch Falsch Negative ausbalanciert werden müssen.
Was ist der Unterschied zwischen Sensitivität und Specificity bei medizinischen Tests?
Sensitivität (Recall) ist die Wahrscheinlichkeit, dass der Test einen kranken Patienten korrekt erkennt: TP / (TP + FN). Ein sehr sensitiver Test übersieht nur wenige kranke Patienten und eignet sich daher zum Ausschluss einer Krankheit. Specificity ist die Wahrscheinlichkeit, dass der Test einen gesunden Patienten korrekt erkennt: TN / (TN + FP). Ein sehr spezifischer Test erzeugt wenige Falsch Positive und eignet sich daher zum Bestätigen einer Krankheit. Die meisten Diagnosetests sind ein Kompromiss zwischen beiden, dargestellt durch die ROC-Kurve.