En Mottaker Operatør Characteristic (ROC) kurve er et grafisk plott brukes til å vise diagnostisk evne til binære classifiers. Det ble først brukt i signal detection theory, men er nå brukt i mange andre områder som for eksempel medisin, radiologi, naturlige farer og maskinlæring. I dette innlegget skal jeg vise deg hvordan en ROC-kurven er laget av og hvordan du skal tolke ROC-kurven.,
Et eksempel er vist nedenfor:
Opprette en ROC-kurve
EN ROC-kurven er konstruert ved å plotte den sanne positive resultater (TPR) mot falsk positiv rate (FPR). Den sanne positive pris er andelen av observasjoner som var riktig spådd til å bli positivt ut av alle positive observasjoner (TP/(TP + FN)). På samme måte falsk positiv rate er andelen av observasjoner som er feil spådd til å bli positivt ut av alle negative observasjoner (FP/(TN + FP))., For eksempel, i medisinske tester, den sanne positive pris er den pris som folk er riktig identifisert til å teste positivt for sykdom i spørsmålet.
En diskret classifier som returnerer bare spådd klasse gir et enkelt punkt på den ROC plass. Men for probabilistisk classifiers, som gir en sannsynlighet eller resultat som gjenspeiler i hvilken grad en forekomst tilhører en klasse snarere enn en annen, kan vi lage en kurve med varierende terskelen for score., Vær oppmerksom på at mange diskrete classifiers kan konverteres til en scoring classifier av » ser ut inne i sin eksempel statistikk. For eksempel, en beslutning treet bestemmer klasse av et blad node fra andelen av forekomster på noden.
Tolke ROC-kurve
ROC-kurven viser trade-off mellom følsomhet (eller TPR) og spesifisitet (1 – FPR). Classifiers som gir kurver nærmere øverste venstre hjørne indikerer en bedre ytelse. Som en baseline, en tilfeldig classifier er forventet å gi poeng liggende langs diagonalen (FPR = TPR)., Den nærmere kurven kommer til 45-graders diagonal av ROC plass, mindre nøyaktige testen.
Merk at ROC ikke er avhengig av klassen for distribusjonen. Dette gjør det nyttig for å evaluere classifiers å forutsi sjeldne hendelser som for eksempel sykdommer og katastrofer. I kontrast, evaluere ytelse ved hjelp av nøyaktighet (TP +
TN)/(TP + TN + FN + FP) ville favør classifiers som alltid forutsi et negativt resultat for sjeldne hendelser.
Området under kurven (AUU)
for Å sammenligne ulike classifiers, kan det være nyttig å oppsummere resultatene for hver classifier inn et eneste mål., En vanlig måte er å beregne arealet under ROC-kurven, som er forkortet til AUU. Det er tilsvarende sannsynligheten for at en tilfeldig valgt positivt eksempel er rangert høyere enn en tilfeldig valgt negative eksempel, dvs. det er tilsvarende de to eksempel Wilcoxon rank-summen statistikk.
En classifier med høy AUU kan innimellom score verre i et bestemt område enn annen classifier med lavere AUU. Men i praksis, AUU fungerer godt som et generelt mål for prediktiv nøyaktighet.
Registrer deg for Displayr