en mottagare Operator Characteristic (ROC) curve är ett grafiskt diagram som används för att visa den diagnostiska förmågan hos binära klassificerare. Det användes först i signaldetekteringsteori men används nu inom många andra områden som medicin, radiologi, naturliga faror och maskininlärning. I det här inlägget visar jag dig hur en Roc-kurva skapas och hur man tolkar ROC-kurvan.,
ett exempel visas nedan:
skapa en Roc-kurva
en Roc-kurva konstrueras genom att plotta den verkliga positiva hastigheten (TPR) mot den falska positiva hastigheten (FPR). Den verkliga positiva hastigheten är andelen observationer som korrekt förutspåddes vara positiva av alla positiva observationer(TP/(TP + FN)). På samma sätt är den falska positiva andelen andelen andelen observationer som felaktigt förutspås vara positiva av alla negativa observationer(FP/(TN + FP))., Till exempel, i medicinsk testning är den sanna positiva hastigheten den hastighet där människor är korrekt identifierade för att testa positiva för sjukdomen i fråga.
en diskret klassificerare som returnerar endast den förutsagda klassen ger en enda punkt på ROC-utrymmet. Men för probabilistiska klassificerare, som ger en sannolikhet eller poäng som återspeglar graden till vilken en instans tillhör en klass snarare än en annan, kan vi skapa en kurva genom att variera tröskeln för poängen., Observera att många diskreta klassificerare kan konverteras till en poängklassificerare genom att ”titta inuti” sin instansstatistik. Till exempel bestämmer ett beslutsträd klassen av en bladnod från andelen instanser vid noden.
tolkning av ROC-kurvan
ROC-kurvan visar avvägningen mellan känslighet (eller TPR) och specificitet (1 – FPR). Klassificerare som ger kurvor närmare det övre vänstra hörnet indikerar en bättre prestanda. Som baslinje förväntas en slumpmässig klassificerare ge punkter som ligger längs diagonalen (FPR = TPR)., Ju närmare kurvan kommer till den 45 graders diagonalen i ROC-utrymmet, desto mindre exakt testet.
Observera att ROC inte är beroende av klassfördelningen. Detta gör det användbart för att utvärdera klassificerare förutsäga sällsynta händelser som sjukdomar eller katastrofer. Däremot skulle utvärdering av prestanda med hjälp av noggrannhet(TP +
TN)/(TP + TN + FN + FP) gynna klassificerare som alltid förutsäger ett negativt resultat för sällsynta händelser.
område under kurva (AUC)
för att jämföra olika klassificerare kan det vara användbart att sammanfatta varje klassificerares prestanda i ett enda mått., Ett vanligt tillvägagångssätt är att beräkna området under ROC-kurvan, som förkortas till AUC. Det motsvarar sannolikheten att en slumpmässigt vald positiv instans rankas högre än en slumpmässigt vald negativ instans, dvs det motsvarar de två prov Wilcoxon rank-sum statistik.
en klassificerare med hög AUC kan ockassionally poäng värre i ett visst område än en annan klassificerare med lägre AUC. Men i praktiken utför AUC såväl som ett allmänt mått på prediktiv noggrannhet.
registrera dig för Displayr