Denne bloggen viser hvordan du kan evaluere resultatene av en modell via Nøyaktighet, Presisjon, Husker & F1 Score beregninger i Azure ML og gir en kort forklaring av «Forvirring Beregninger». I dette eksperimentet, jeg har brukt To-klasse Styrket Beslutning Treet Algoritme og målet mitt er å forutsi overlevelse av passasjerene på Titanic.
Når du har bygget din modell, det viktigste spørsmålet som oppstår er hvor god er din modell?, Så, evaluere modellen er den viktigste oppgaven i data vitenskap prosjektet som markerer hvor god dine spådommer.
følgende figur viser resultatene av modellen som jeg bygget for prosjektet jeg jobbet på i løpet av mitt internship program på Exsilio Rådgivning denne sommeren.
Fig. Evaluering av resultater for klassifisering modell
La oss grave dypt inn alle parametrene er vist i figuren ovenfor.,
Det første du vil se her er ROC-kurve, og vi kan finne ut om våre ROC-kurven er god eller ikke ved å se på AUU (Arealet Under Kurven) og andre parametere som også kalles som Forvirring Beregninger. En forvirring matrix er en tabell som ofte brukes til å beskrive ytelsen av en klassifisering modell på et sett av test data som den sanne verdier er kjent. Alle tiltak unntatt AUU kan beregnes ved hjelp av venstre mest fire parametre. Så, la oss snakke om de fire parameterne første.,
Sanne positive og sanne negative er de observasjoner som er gjettet riktig, og derfor er vist i grønt. Vi ønsker å minimere falske positiver og falske negativer, slik de er vist i rød farge. Disse vilkårene er litt forvirrende. Så la oss ta hvert semester én etter én, og forstå det fullt ut.
Sanne Positive (TP) – Dette er gjettet riktig positive verdier som betyr at verdien av faktiske klasse er ja, og verdien av forventet klassen er også ja. E. g., hvis faktiske klasse verdi indikerer at denne passasjeren overlevde og spådde klasse forteller deg det samme.
True Negativer (TN) – Dette er gjettet riktig negative verdier, noe som betyr at verdien av faktiske klasse er nei, og verdien av forventet klassen er også nei. E. g. hvis faktiske klasse, sier passasjeren ikke overleve og spådde klasse forteller deg det samme.
Falske positiver og falske negativer, disse verdiene oppstå når den faktiske klasse motsier med det spådd klasse.
Falske Positiver (FP) – Når faktiske klasse er nei, og det er spådd klasse er ja. E. g., hvis faktiske klasse, sier passasjeren ikke overleve, men spådd klasse forteller deg at denne passasjeren vil overleve.
Falske Negativer (FN) – Når faktiske klasse er ja, men det er spådd klasse i nr. E. g. hvis faktiske klasse verdi indikerer at denne passasjeren overlevde og spådde klasse forteller deg at passasjeren vil dø.
Når du forstår disse fire parametrene da kan vi beregne Nøyaktighet, Presisjon, Husker og F1-score.
Nøyaktighet Nøyaktighet er mest intuitive ytelse måle, og det er rett og slett et forhold på gjettet riktig observasjon til totalt antall observasjoner., Man kan tenke at, hvis vi har høy nøyaktighet, så er vår modell som er best. Ja, nøyaktighet er et flott tiltak, men bare når du har symmetrisk datasett der verdier av falske positive og falske negative er nesten det samme. Derfor er du nødt til å se på andre parametere for å evaluere resultatene av modellen. For vår modell har vi fikk 0.803 som betyr at vår modell er ca. 80% nøyaktig.
Korrektheten = TP+TN/TP+FP+FN+TN
Presisjon Presisjon er forholdet mellom gjettet riktig positive observasjoner totalt spådd positive observasjoner., Spørsmålet som denne beregningen er svaret til alle passasjerer som er merket som overlevde, hvor mange overlevde? Høy presisjon knytter seg til den lave falske positive resultater. Vi har fått 0.788 presisjon som er ganske bra.
Presisjon = TP/TP+FP
Tilbakekall (Følsomhet) – Recall er forholdet mellom gjettet riktig positive observasjoner for alle observasjoner i selve klasse – ja. Spørsmålet husker svar er: Av alle passasjerer som virkelig overlevde, hvor mange gjorde vi etiketten? Vi har fått tilbakekalling av 0.631 som er bra for denne modellen som det er over 0,5.,
Tilbakekall = TP/TP+FN
F1 score – F1 Score er et vektet gjennomsnitt av Precision og Recall. Derfor er dette score tar både falske positive og falske negative søkeord i kontoen. Intuitivt er det ikke så lett å forstå som nøyaktighet, men F1 er vanligvis mer nyttig enn nøyaktighet, spesielt hvis du har en ujevn klasse distribusjon. Korrektheten fungerer best om falske positiver og falske negativer har lignende kostnader. Hvis kostnaden for falske positiver og falske negativer er svært forskjellige, er det bedre å se på både Presisjon og Recall. I vårt tilfelle, F1 score er 0.701.,
F1 Score = 2*(Recall * Presisjon) / (Recall + Presisjon)
Så, når du bygger en modell, denne artikkelen skal hjelpe deg med å finne ut hva disse parametre betyr og hvor god modellen har utført.
jeg håper du fant denne bloggen nyttig. Legg gjerne igjen kommentarer eller send meg en e-post hvis du tror jeg har gått glipp av noen viktige detaljer, eller hvis du har andre spørsmål eller tilbakemeldinger om dette emnet.
**Vennligst vær Oppmerksom på at ovennevnte resultater og analyse av tall er basert på Titanic model., Tallene og resultatene kan variere etter hvilken modell du jobber på, og bestemte business use case.
related videos (Relaterte videoer: https://www.youtube.com/channel/UC9jOb7yEfGwxjjdpWMjmKJA
Av: Renuka Joshi (Praktikant ved Exsilio)