een curve van de Receiver Operator Characteristic (Roc) is een grafische plot die wordt gebruikt om de diagnostische capaciteit van binaire classifiers te tonen. Het werd voor het eerst gebruikt in de theorie van de signaaldetectie, maar wordt nu gebruikt in vele andere gebieden zoals geneeskunde, radiologie, natuurlijke gevaren en machine learning. In dit bericht zal ik u laten zien hoe een ROC curve wordt gemaakt en hoe de ROC curve te interpreteren.,
een voorbeeld wordt hieronder getoond:
het creëren van een ROC-curve
een ROC-curve wordt geconstrueerd door het plotten van de true positive rate (TPR) tegen De false positive rate (FPR). Het werkelijke positieve percentage is het percentage waarnemingen dat correct werd voorspeld positief te zijn uit alle positieve waarnemingen(TP/(TP + FN)). Evenzo is het fout-positieve percentage het percentage waarnemingen dat ten onrechte als positief wordt voorspeld uit alle negatieve waarnemingen (FP / (TN + FP))., Bijvoorbeeld, in medische tests, is het echte positieve percentage het percentage waarin mensen correct worden geïdentificeerd om positief te testen op de ziekte in kwestie.
een discrete classifier die alleen de voorspelde klasse retourneert, geeft een enkel punt op de ROC-ruimte. Maar voor probabilistische classifiers, die een waarschijnlijkheid of score geven die de mate weergeeft waarin een instantie tot een klasse behoort in plaats van tot een andere, kunnen we een curve creëren door de drempel voor de score te variëren., Merk op dat veel discrete classifiers kunnen worden geconverteerd naar een score classifier door ‘naar binnen te kijken’ hun instance statistieken. Een beslissingsboom bepaalt bijvoorbeeld de klasse van een bladknoop uit het aantal instanties op het knooppunt.
interpretatie van de ROC-curve
de ROC – curve toont de afweging tussen gevoeligheid (of TPR) en specificiteit (1-FPR). Classifiers die curven dichter bij de linkerbovenhoek geven, geven een betere prestatie. Als basislijn wordt verwacht dat een willekeurige classificeerder punten langs de diagonaal geeft (FPR = TPR)., Hoe dichter de kromme bij de 45-graden diagonaal van de ROC-ruimte komt, hoe minder accuraat de test is.
merk op dat de ROC niet afhankelijk is van de klasse distributie. Dit maakt het nuttig voor het evalueren van classifiers voorspellen van zeldzame gebeurtenissen zoals ziekten of Rampen. Daarentegen zou het evalueren van prestaties met behulp van nauwkeurigheid (TP +
TN)/(TP + TN + FN + FP) classifiers begunstigen die altijd een negatieve uitkomst voor zeldzame gebeurtenissen voorspellen.
Area under curve (AUC)
om verschillende classificeerders te vergelijken, kan het nuttig zijn om de prestaties van elke classificeerder samen te vatten in één enkele maat., Een gemeenschappelijke aanpak is het berekenen van de oppervlakte onder de ROC-curve, die wordt afgekort tot AUC. Het is gelijk aan de kans dat een willekeurig gekozen positieve instantie hoger wordt gerangschikt dan een willekeurig gekozen negatieve instantie, dat wil zeggen het is gelijk aan de twee steekproef Wilcoxon rank-sum statistiek.
een classifier met een hoge AUC kan occassioneel slechter scoren in een specifiek gebied dan een andere classifier met een lagere AUC. Maar in de praktijk presteert de AUC goed als een algemene maatstaf voor voorspellende nauwkeurigheid.
Meld u aan voor Displayr