Question 1

Was ist der Unterschied zwischen Precision und Recall?

Accepted Answer

Precision beantwortet die Frage „Von allen positiven Vorhersagen, wie viele waren korrekt?“, während Recall beantwortet „Von allen tatsächlichen Positiven, wie viele hat das Modell gefunden?“. Hohe Precision bedeutet wenige Falsch Positive (das Modell ist vorsichtig beim Labeln als positiv). Hoher Recall bedeutet wenige Falsch Negative (das Modell verpasst selten ein echtes Positiv). Normalerweise gibt es zwischen beiden einen Zielkonflikt, der durch den Entscheidungs-Schwellenwert gesteuert wird.

Question 2

Warum ist Accuracy nicht immer die beste Metrik?

Accepted Answer

Accuracy kann bei unausgeglichenen Datensätzen irreführend sein. Wenn zum Beispiel nur 1 % der Transaktionen betrügerisch ist, erreicht ein Modell, das immer „kein Betrug“ vorhersagt, 99 % Accuracy, erkennt aber keinen einzigen Betrugsfall. In solchen Szenarien liefern Precision, Recall, F1-Score oder MCC ein wesentlich aussagekräftigeres Bild der Modellleistung.

Question 3

Was ist der Matthews Correlation Coefficient (MCC)?

Accepted Answer

MCC ist eine einzelne, ausbalancierte Metrik, die alle vier Zellen der Konfusionsmatrix (TP, FP, TN, FN) berücksichtigt. Sie reicht von −1 bis +1, wobei +1 perfekte Vorhersage, 0 nicht besser als Zufall und −1 vollständige Ablehnung bedeutet. MCC gilt als eine der informativsten Metriken für binäre Klassifikation, besonders bei unausgeglichenen Datensätzen, da sie nicht durch große Klassenungleichgewichte aufgebläht wird.

Question 4

Was misst Specificity und wann ist sie wichtig?

Accepted Answer

Specificity (True Negative Rate) = TN / (TN + FP) misst, wie gut das Modell Falsch Positive unter den tatsächlichen Negativen vermeidet. Sie ist besonders wichtig beim medizinischen Screening: Ein Test mit hoher Specificity minimiert die Zahl gesunder Menschen, die fälschlich als krank markiert werden, und reduziert unnötige Nachuntersuchungen sowie Patientenangst. Sensitivität (Recall) und Specificity definieren zusammen die ROC-Kurve.

Question 5

Wie hängt der F1-Score mit Precision und Recall zusammen?

Accepted Answer

Der F1-Score ist das harmonische Mittel von Precision und Recall: F1 = 2 × (P × R) / (P + R). Das harmonische Mittel sorgt dafür, dass F1 niedrig ist, wenn entweder Precision oder Recall niedrig ist — man kann keinen hohen F1 erzielen, indem man eines zugunsten des anderen opfert. F1 reicht von 0 (schlecht) bis 1 (best) und ist die häufigste Einzelmetrik, wenn sowohl Falsch Positive als auch Falsch Negative ausbalanciert werden müssen.

Question 6

Was ist der Unterschied zwischen Sensitivität und Specificity bei medizinischen Tests?

Accepted Answer

Sensitivität (Recall) ist die Wahrscheinlichkeit, dass der Test einen kranken Patienten korrekt erkennt: TP / (TP + FN). Ein sehr sensitiver Test übersieht nur wenige kranke Patienten und eignet sich daher zum Ausschluss einer Krankheit. Specificity ist die Wahrscheinlichkeit, dass der Test einen gesunden Patienten korrekt erkennt: TN / (TN + FP). Ein sehr spezifischer Test erzeugt wenige Falsch Positive und eignet sich daher zum Bestätigen einer Krankheit. Die meisten Diagnosetests sind ein Kompromiss zwischen beiden, dargestellt durch die ROC-Kurve.

TP, FP, TN, FN	Wichtige Metriken	Modelltyp
TP=92, FP=8, TN=88, FN=12	Accuracy=90%, F1=0.9020, MCC=0.801	Gut ausbalanciertes, leistungsstarkes Modell
TP=45, FP=5, TN=95, FN=25	Accuracy=82.35%, Precision=90%, Recall=64.29%	Hohe Precision, konservative Vorhersagen
TP=85, FP=30, TN=70, FN=10	Accuracy=79.5%, Recall=89.5%, Specificity=70%	Hoher Recall, sensibles Modell
TP=48, FP=12, TN=188, FN=2	Accuracy=94%, Sensitivity=96%, Specificity=94%	Medizinischer Diagnosetest — hohe Sensitivität

Konfusionsmatrix-Rechner - Klassifikationsmetriken

Über den Konfusionsmatrix-Rechner

Beispiele

So verwenden Sie den Konfusionsmatrix-Rechner

Häufig gestellte Fragen