en Roc-kurve (Receiver Operator characteristics) er et grafisk plot, der bruges til at vise den diagnostiske evne hos binære klassifikatorer. Det blev først brugt i signaldetektionsteori, men bruges nu på mange andre områder som medicin, radiologi, naturlige farer og maskinlæring. I dette indlæg viser jeg dig, hvordan en ROC-kurve oprettes, og hvordan du fortolker ROC-kurven.,
Et eksempel er vist nedenfor:
Oprettelse af en ROC kurve
EN ROC-kurve er konstrueret ved at plotte de sandt positive rate (TPR) mod falsk positiv rate (FPR). Den sande positive sats er andelen af observationer, der korrekt blev forudsagt at være positive ud af alle positive observationer(TP/(TP + FN)). Tilsvarende er den falske positive rate den andel af observationer, der fejlagtigt forudsiges at være positive ud af alle negative observationer (FP/(TN + FP))., For eksempel i medicinsk test er den sande positive rate den hastighed, hvor folk er korrekt identificeret for at teste positive for den pågældende sygdom.
en diskret klassifikator, der kun returnerer den forudsagte klasse, giver et enkelt punkt på ROC-rummet. Men for probabilistiske klassifikatorer, som giver en sandsynlighed eller score, der afspejler den grad, som en instans tilhører en klasse snarere end en anden, kan vi skabe en kurve ved at variere tærsklen for scoren., Bemærk, at mange diskrete klassifikatorer kan konverteres til en scoring klassifikator ved ‘ser inde’ deres instans statistik. For eksempel bestemmer et beslutningstræ klassen af en bladknude ud fra andelen af forekomster ved knuden.
fortolkning af ROC-kurven
Roc – kurven viser afvejningen mellem følsomhed (eller TPR) og specificitet (1-FPR). Klassifikatorer, der giver kurver tættere på øverste venstre hjørne, indikerer en bedre ydelse. Som basislinje forventes en tilfældig klassifikator at give point, der ligger langs diagonalen (FPR = TPR)., Jo tættere kurven kommer til 45-graders diagonal i ROC-rummet, desto mindre nøjagtig er testen.
Bemærk, at ROC ikke afhænger af klassedistributionen. Dette gør det nyttigt til evaluering af klassifikatorer, der forudsiger sjældne begivenheder såsom sygdomme eller katastrofer. I modsætning hertil ville evaluering af ydeevne ved hjælp af nøjagtighed(TP +
TN)/(TP + TN + FN + FP) favorisere klassifikatorer, der altid forudsiger et negativt resultat for sjældne begivenheder.
område under kurve (AUC)
for at sammenligne forskellige klassifikatorer kan det være nyttigt at opsummere ydeevnen for hver klassifikator i et enkelt mål., En fælles tilgang er at beregne arealet under ROC-kurven, som er forkortet til AUC. Det svarer til sandsynligheden for, at en tilfældigt valgt positiv instans er rangeret højere end en tilfældigt valgt negativ instans, dvs.det svarer til de to prøve statisilco .on rang-sum statistik.
en klassifikator med høj AUC kan lejlighedsvis score værre i en bestemt region end en anden klassifikator med lavere AUC. Men i praksis fungerer AUC godt som et generelt mål for forudsigelig nøjagtighed.
Tilmeld dig Displayr