den här bloggen visar hur man utvärderar en modells prestanda via noggrannhet, Precision, Recall & F1 Score metrics i Azure ML och ger en kort förklaring av ”förvirring Metrics”. I det här experimentet har jag använt två-klassens Boosted Decision Tree algoritm och mitt mål är att förutsäga överlevnaden av passagerarna på Titanic.
När du har byggt din modell är den viktigaste frågan som uppstår hur bra är din modell?, Så, utvärdera din modell är den viktigaste uppgiften i datavetenskap projektet som avgränsar hur bra dina förutsägelser är.
följande figur visar resultaten av den modell som jag byggde för det projekt jag arbetade med under mitt praktikprogram på Exsilio Consulting i sommar.
Fig. Utvärderingsresultat för klassificeringsmodell
låt oss gräva djupt in i alla parametrar som visas i figuren ovan.,
det första du kommer att se här är RoC-kurvan och vi kan avgöra om vår Roc-kurva är bra eller inte genom att titta på AUC (område under kurvan) och andra parametrar som också kallas som Förvirringsmått. En förvirringsmatris är en tabell som ofta används för att beskriva prestandan hos en klassificeringsmodell på en uppsättning testdata för vilka de verkliga värdena är kända. Alla åtgärder utom AUC kan beräknas med hjälp av vänster mest fyra parametrar. Så, låt oss prata om de fyra parametrarna först.,
sanna positiva och sanna negativ är de observationer som är korrekt förutspådda och därför visas i grönt. Vi vill minimera falska positiva och falska negativ så att de visas i röd färg. Dessa villkor är lite förvirrande. Så låt oss ta varje term en efter en och förstå det fullt ut.
True Positives (TP) – det här är de korrekt förutsagda positiva värdena vilket innebär att värdet för den faktiska klassen är ja och värdet för den förutsagda klassen är också ja. Ex., om det faktiska klassvärdet indikerar att den här passageraren överlevde och förutspådde klassen berättar samma sak.
True Negatives (TN) – det här är de korrekt förutsagda negativa värdena vilket innebär att värdet för den faktiska klassen är nej och värdet för den förutsagda klassen är också nej. T. ex. om den faktiska klassen säger att den här passageraren inte överlevde och förutspådd klass berättar samma sak.
False positives and false negatives, dessa värden uppstår när din faktiska klass strider mot den förutsagda klassen.
False Positives (FP) – när faktisk klass är nej och förutsagd klass är ja. Ex., om den faktiska klassen säger att den här passageraren inte överlevde men förutsagd klass berättar att den här passageraren kommer att överleva.
False Negatives (FN) – när den faktiska klassen är ja men förutsagd klass I Nej. T. ex. om det faktiska klassvärdet indikerar att den här passageraren överlevde och förutspådde klassen berättar att passageraren kommer att dö.
När du förstår dessa fyra parametrar kan vi beräkna noggrannhet, Precision, återkallelse och F1-poäng.
noggrannhet – noggrannhet är den mest intuitiva prestandamått och det är helt enkelt ett förhållande av korrekt förutspådda observation till de totala observationer., Man kanske tror att om vi har hög noggrannhet så är vår modell bäst. Ja, noggrannhet är ett bra mått men bara när du har symmetriska datauppsättningar där värdena för falska positiva och falska negativ är nästan desamma. Därför måste du titta på andra parametrar för att utvärdera prestandan hos din modell. För vår modell har vi 0.803 vilket innebär att vår modell är ca. 80% korrekt.
noggrannhet = TP+TN/TP+FP+FN+TN
Precision – Precision är förhållandet mellan korrekt förutsagda positiva observationer och de totala förutsagda positiva observationerna., Frågan att detta metriska svar är av alla passagerare som märkt som överlevde, hur många faktiskt överlevde? Hög precision hänför sig till den låga falska positiva hastigheten. Vi har 0.788 precision vilket är ganska bra.
Precision = TP / TP + FP
Recall (känslighet) – Recall är förhållandet mellan korrekt förutspådda positiva observationer till alla observationer i faktisk klass – ja. Frågan minns svar är: av alla passagerare som verkligen överlevde, hur många har vi märka? Vi har fått återkallelse av 0.631 vilket är bra för denna modell eftersom den är över 0.5.,
Recall = TP/TP+FN
F1 score – F1 Score är det vägda medelvärdet av Precision och återkallelse. Därför tar denna poäng både falska positiva och falska negativ hänsyn till. Intuitivt är det inte så lätt att förstå som noggrannhet, men F1 är vanligtvis mer användbar än noggrannhet, speciellt om du har en ojämn klassfördelning. Noggrannhet fungerar bäst om falska positiva och falska negativ har liknande kostnad. Om kostnaden för falska positiva och falska negativ är väldigt annorlunda är det bättre att titta på både Precision och återkallelse. I vårt fall är F1-poäng 0.701.,
F1 Score = 2 * (Recall * Precision)/(Recall + Precision)
så, när du bygger en modell, bör den här artikeln hjälpa dig att räkna ut vad dessa parametrar betyder och hur bra din modell har utfört.
Jag hoppas att du hittade den här bloggen användbar. Vänligen lämna kommentarer eller skicka mig ett mail om du tror att jag missade några viktiga detaljer eller om du har några andra frågor eller feedback om detta ämne.
**Observera att ovanstående resultat och analys av siffror är baserad på Titanic-modellen., Dina siffror och resultat kan variera beroende på vilken modell du arbetar med och ditt specifika företag användningsfall.
relaterade videor: https://www.youtube.com/channel/UC9jOb7yEfGwxjjdpWMjmKJA
av: Renuka Joshi (Intern at Exsilio)