Denne blog viser, hvordan man kan evaluere resultaterne af en model via Nøjagtighed, Præcision, Tilbagekaldelse & F1 Score målinger i Azure ML og giver en kort forklaring af den “Forvirring Målinger”. I dette eksperiment, jeg har brugt to-klasse boostet beslutning træ algoritme og mit mål er at forudsige overlevelsen af passagererne på Titanic.
Når du har bygget din model, er det vigtigste spørgsmål, der opstår, hvor god er din model?, Så evaluering af din model er den vigtigste opgave i data science-projektet, der afgrænser, hvor gode dine forudsigelser er.
følgende figur viser resultaterne af den model, jeg byggede til det projekt, jeg arbejdede på under mit praktikprogram hos e .silio Consulting denne sommer.
Fig. Evalueringsresultater for klassifikationsmodel
lad os grave dybt ind i alle de parametre, der er vist i figuren ovenfor.,
Den første ting, du vil se, her er ROC kurve, og vi kan afgøre, om vores ROC-kurve er god eller ej ved at se på AUC (Area Under Curve) og andre parametre, der også kaldes, da Forvirring Målinger. En forvirringsmatri.er en tabel, der ofte bruges til at beskrive udførelsen af en klassifikationsmodel på et sæt testdata, som de sande værdier er kendt for. Alle målinger undtagen AUC kan beregnes ved hjælp af de fire venstre parametre. Så lad os tale om de fire parametre først.,
sande positive og sande negativer er de observationer, der er korrekt forudsagt og derfor vist i grønt. Vi ønsker at minimere falske positiver og falske negativer, så de vises i rød farve. Disse vilkår er lidt forvirrende. Så lad os tage hvert udtryk en efter en og forstå det fuldt ud.
True Positives (TP) – dette er de korrekt forudsagte positive værdier, hvilket betyder, at værdien af den faktiske klasse er ja, og værdien af den forudsagte klasse er også ja. F. eks., hvis den faktiske klasseværdi indikerer, at denne passager overlevede og forudsagt klasse fortæller dig det samme.sande negativer (TN) – disse er de korrekt forudsagte negative værdier, hvilket betyder, at værdien af den faktiske klasse er nej, og værdien af den forudsagte klasse er også Nej. F. eks.Hvis den faktiske klasse siger, at denne passager ikke overlevede og forudsagt klasse fortæller dig det samme.falske positiver og falske negativer, disse værdier opstår, når din faktiske klasse modsiger den forudsagte klasse.falske positiver (FP) – når den faktiske klasse er nej og den forudsagte klasse er ja. F. eks., hvis den faktiske klasse siger, at denne passager ikke overlevede, men forudsagt klasse fortæller dig, at denne passager vil overleve.falske negativer (FN) – når den faktiske klasse er ja, men forudsagt klasse I Nej. F. eks.Hvis den faktiske klasseværdi indikerer, at denne passager overlevede og forudsagt klasse fortæller dig, at passageren vil dø.
Når du forstår disse fire parametre, kan vi beregne nøjagtighed, præcision, tilbagekaldelse og F1-score.
nøjagtighed – nøjagtighed er den mest intuitive ydeevne foranstaltning, og det er simpelthen et forhold mellem korrekt forudsagt observation til de samlede observationer., Man kan tro, at hvis vi har høj nøjagtighed, er vores model bedst. Ja, nøjagtighed er en stor foranstaltning, men kun når du har symmetriske datasæt, hvor værdier af falske positive og falske negativer er næsten ens. Derfor skal du se på andre parametre for at evaluere udførelsen af din model. Til vores model har vi 0,803, hvilket betyder, at vores model er ca. 80% nøjagtig.
nøjagtighed = TP+TN/TP+FP+FN+TN
præcision – præcision er forholdet mellem korrekt forudsagte positive observationer og de samlede forudsagte positive observationer., Spørgsmålet om, at dette metriske svar er af alle passagerer, der er mærket som overlevet, hvor mange overlevede faktisk? Høj præcision vedrører den lave falske positive sats. Vi har fået 0.788 præcision, som er temmelig god.
Precision = TP/TP+FP
Recall (sensitivitet) – Recall er forholdet mellem korrekt forudsagte positive observationer til alle observationer i faktisk klasse – Ja. Svarene på spørgsmålet om tilbagekaldelse er: af alle de passagerer, der virkelig overlevede, hvor mange mærkede vi? Vi har tilbagekaldelse af 0.631, hvilket er godt for denne model, da det er over 0.5.,
Recall = TP/TP+FN
F1 score – F1 Score er det vejede gennemsnit af præcision og tilbagekaldelse. Derfor tager denne score både falske positive og falske negativer i betragtning. Intuitivt er det ikke så let at forstå som nøjagtighed, men F1 er normalt mere nyttigt end nøjagtighed, især hvis du har en ujævn klassefordeling. Nøjagtighed fungerer bedst, hvis falske positiver og falske negativer har lignende omkostninger. Hvis omkostningerne ved falske positiver og falske negativer er meget forskellige, er det bedre at se på både præcision og tilbagekaldelse. I vores tilfælde er F1 score 0,701.,
F1 Score = 2*(Recall * Præcision) / (Husk + Præcision)
Så, når du bygge en model, denne artikel bør hjælpe dig med at finde ud af, hvad disse parametre betyder, og hvor god din model har udført.
Jeg håber du fandt denne blog nyttig. Indtal kommentarer eller send mig en e-mail, hvis du tror, jeg gik glip af vigtige detaljer, eller hvis du har andre spørgsmål eller feedback om dette emne.
**Bemærk, at ovenstående resultater og analyse af tal er baseret på Titanic-modellen., Dine tal og resultater kan variere afhængigt af hvilken model du arbejder på og din specifikke business use case.
relaterede videoer: https://www.youtube.com/channel/UC9jOb7yEfGwxjjdpWMjmKJA
af: Renuka Joshi (praktikant hos e “silio)