Genauigkeit, Präzision, Rückruf und F1 – Score: Interpretation von Leistungsmaßen-Exsilio Blog

Dieser Blog zeigt, wie die Leistung eines Modells über Genauigkeit, Präzision und Rückruf bewertet wird & F1-Score-Metriken in Azure ML und bietet eine kurze Erklärung der „Verwirrungsmetriken“. In diesem Experiment habe ich einen Zwei-Klassen-Boosted Decision Tree Algorithmus verwendet und mein Ziel ist es, das Überleben der Passagiere auf der Titanic vorherzusagen.

Sobald Sie Ihr Modell erstellt haben, stellt sich die wichtigste Frage, wie gut Ihr Modell ist., Daher ist die Bewertung Ihres Modells die wichtigste Aufgabe im Data Science-Projekt, bei der festgelegt wird, wie gut Ihre Vorhersagen sind.

Die folgende Abbildung zeigt die Ergebnisse des Modells, das ich für das Projekt erstellt habe, an dem ich während meines Praktikumsprogramms bei Exsilio Consulting in diesem Sommer gearbeitet habe.

Abb. Bewertungsergebnisse für Klassifizierungsmodell

Lassen Sie uns tief in alle in der obigen Abbildung gezeigten Parameter eintauchen.,

Das erste, was Sie hier sehen, ist die ROC-Kurve, und wir können feststellen, ob unsere ROC-Kurve gut ist oder nicht, indem wir AUC (Bereich unter der Kurve) und andere Parameter betrachten, die auch als Verwirrungsmetriken bezeichnet werden. Eine Verwirrungsmatrix ist eine Tabelle, die häufig verwendet wird, um die Leistung eines Klassifizierungsmodells für einen Satz von Testdaten zu beschreiben, für die die wahren Werte bekannt sind. Alle Maßnahmen außer AUC können mit den meisten vier Parametern berechnet werden. Lassen Sie uns also zuerst über diese vier Parameter sprechen.,

True positive und true negative sind die Beobachtungen, die korrekt vorhergesagt und daher grün dargestellt werden. Wir möchten Fehlalarme und Fehlalarme minimieren, damit sie rot angezeigt werden. Diese Begriffe sind etwas verwirrend. Nehmen wir also jeden Begriff einzeln und verstehen ihn vollständig.

True Positive (TP) – Dies sind die korrekt vorhergesagten positiven Werte, was bedeutet, dass der Wert der tatsächlichen Klasse ja und der Wert der vorhergesagten Klasse auch ja ist. Z. B., wenn der tatsächliche Klassenwert angibt, dass dieser Passagier überlebt hat, und die vorhergesagte Klasse Ihnen dasselbe sagt.

True Negative (TN) – Dies sind die korrekt vorhergesagten negativen Werte, was bedeutet, dass der Wert der tatsächlichen Klasse nein und der Wert der vorhergesagten Klasse auch nein ist. ZB wenn die tatsächliche Klasse sagt, dass dieser Passagier nicht überlebt hat und die vorhergesagte Klasse Ihnen dasselbe sagt.

Falsch positive und falsch negative, diese Werte treten auf, wenn Ihre tatsächliche Klasse der vorhergesagten Klasse widerspricht.

False Positive (FP) – Wenn die tatsächliche Klasse nein und die vorhergesagte Klasse ja ist. Z. B., wenn die tatsächliche Klasse sagt, dass dieser Passagier nicht überlebt hat, aber die vorhergesagte Klasse sagt Ihnen, dass dieser Passagier überleben wird.

False Negative (FN) – Wenn die tatsächliche Klasse ja ist, aber die vorhergesagte Klasse in Nein. ZB wenn der tatsächliche Klassenwert angibt, dass dieser Passagier überlebt hat, und die vorhergesagte Klasse Ihnen mitteilt, dass der Passagier sterben wird.

Sobald Sie diese vier Parameter verstanden haben, können wir Genauigkeit, Präzision, Rückruf und F1-Score berechnen.

Genauigkeit-Genauigkeit ist das intuitivste Leistungsmaß und es ist einfach ein Verhältnis der korrekt vorhergesagten Beobachtung zu den Gesamtbeobachtungen., Man könnte denken, wenn wir eine hohe Genauigkeit haben, ist unser Modell am besten. Ja, Genauigkeit ist ein großartiges Maß, aber nur, wenn Sie symmetrische Datensätze haben, bei denen Werte für falsch positive und falsch Negative fast gleich sind. Daher müssen Sie sich andere Parameter ansehen, um die Leistung Ihres Modells zu bewerten. Für unser Modell haben wir 0.803, was bedeutet, dass unser Modell ca. 80% genau.

Accuracy = TP+TN/TP+FP+FN+TN

Precision – Precision ist das Verhältnis von korrekt vorhergesagten positiven Beobachtungen zu den gesamten vorhergesagten positiven Beobachtungen., Die Frage, die diese metrische Antwort von allen Passagieren lautet, die als überlebt gekennzeichnet sind, wie viele tatsächlich überlebt haben? Hohe Präzision bezieht sich auf die niedrige falsch-positiv-rate. Wir haben 0.788 Präzision, die ziemlich gut ist.

Precision = TP/TP+FP

Recall (Sensitivity) – Recall ist das Verhältnis von korrekt vorhergesagten positiven Beobachtungen zu allen Beobachtungen in der tatsächlichen Klasse – ja. Die Frage nach den Antworten lautet: Wie viele Passagiere haben wir wirklich überlebt? Wir haben einen Rückruf von 0.631, was für dieses Modell gut ist, da es über 0.5 liegt.,

Recall = TP/TP+FN

F1-score – F1-Score ist der gewichtete Durchschnitt der von Precision und Recall. Daher berücksichtigt diese Bewertung sowohl falsch positive als auch falsch negative. Intuitiv ist es nicht so einfach zu verstehen wie Genauigkeit, aber F1 ist normalerweise nützlicher als Genauigkeit, insbesondere wenn Sie eine ungleichmäßige Klassenverteilung haben. Genauigkeit funktioniert am besten, wenn falsch positive und falsch Negative ähnliche Kosten haben. Wenn die Kosten für falsch positive und falsch Negative sehr unterschiedlich sind, ist es besser, sowohl Präzision als auch Rückruf zu betrachten. In unserem Fall ist F1 Score 0.701.,

F1 Score = 2*(Recall * Precision) / (Recall + Precision)

Wenn Sie also ein Modell erstellen, sollte dieser Artikel Ihnen helfen, herauszufinden, was diese Parameter bedeuten und wie gut Ihr Modell funktioniert hat.

Ich hoffe ihr habt diesen Blog nützlich gefunden. Bitte hinterlassen Sie Kommentare oder senden Sie mir eine E-Mail, wenn Sie denken, dass ich wichtige Details verpasst habe oder wenn Sie andere Fragen oder Feedback zu diesem Thema haben.

* * Bitte beachten Sie, dass die obigen Ergebnisse und die Analyse der Zahlen auf dem Titanic-Modell basieren., Ihre Zahlen und Ergebnisse können je nachdem, an welchem Modell Sie arbeiten, und Ihrem spezifischen geschäftlichen Anwendungsfall variieren.

Verwandte Videos: https://www.youtube.com/channel/UC9jOb7yEfGwxjjdpWMjmKJA

Von: Renuka Joshi (Praktikant bei Exsilio)

Leave a Comment