Una curva ROC (Receiver Operator Characteristic) è un grafico utilizzato per mostrare la capacità diagnostica dei classificatori binari. È stato utilizzato per la prima volta nella teoria del rilevamento del segnale, ma ora è utilizzato in molte altre aree come la medicina, la radiologia, i rischi naturali e l’apprendimento automatico. In questo post ti mostrerò come viene creata una curva ROC e come interpretare la curva ROC.,
Di seguito viene mostrato un esempio:
Creazione di una curva ROC
Una curva ROC viene costruita tracciando il true Positive rate (TPR) contro il false positive rate (FPR). Il vero tasso positivo è la percentuale di osservazioni che sono state correttamente predette positive su tutte le osservazioni positive (TP / (TP + FN)). Allo stesso modo, il tasso di falsi positivi è la proporzione di osservazioni che sono erroneamente previste positive su tutte le osservazioni negative (FP/(TN + FP))., Ad esempio, nei test medici, il vero tasso positivo è il tasso in cui le persone vengono identificate correttamente per verificare la positività per la malattia in questione.
Un classificatore discreto che restituisce solo la classe prevista fornisce un singolo punto sullo spazio ROC. Ma per i classificatori probabilistici, che danno una probabilità o un punteggio che riflette il grado in cui un’istanza appartiene a una classe piuttosto che a un’altra, possiamo creare una curva variando la soglia per il punteggio., Si noti che molti classificatori discreti possono essere convertiti in un classificatore di punteggio ‘guardando dentro’ le loro statistiche di istanza. Ad esempio, un albero decisionale determina la classe di un nodo foglia dalla proporzione di istanze nel nodo.
Interpretazione della curva ROC
La curva ROC mostra il trade-off tra sensibilità (o TPR) e specificità (1 – FPR). I classificatori che danno curve più vicine all’angolo in alto a sinistra indicano prestazioni migliori. Come linea di base, un classificatore casuale dovrebbe dare punti che si trovano lungo la diagonale (FPR = TPR)., Più la curva si avvicina alla diagonale di 45 gradi dello spazio ROC, meno accurato è il test.
Si noti che il ROC non dipende dalla distribuzione della classe. Ciò lo rende utile per valutare i classificatori che prevedono eventi rari come malattie o disastri. Al contrario, valutare le prestazioni utilizzando l’accuratezza (TP +
TN)/(TP + TN + FN + FP) favorirebbe i classificatori che prevedono sempre un risultato negativo per eventi rari.
Area sotto curva (AUC)
Per confrontare diversi classificatori, può essere utile riassumere le prestazioni di ciascun classificatore in una singola misura., Un approccio comune consiste nel calcolare l’area sotto la curva ROC, abbreviata in AUC. È equivalente alla probabilità che un’istanza positiva scelta a caso sia classificata più in alto di un’istanza negativa scelta a caso, cioè è equivalente alle due statistiche di somma di rango di Wilcoxon campione.
Un classificatore con AUC elevata può occasionalmente segnare peggio in una regione specifica rispetto a un altro classificatore con AUC inferiore. Ma in pratica, l’AUC funziona bene come misura generale di precisione predittiva.
Iscriviti a Displayr