uma curva característica do operador receptor (ROC) é um gráfico usado para mostrar a capacidade de diagnóstico dos Classificadores binários. Foi usado pela primeira vez na teoria de detecção de sinais, mas agora é usado em muitas outras áreas como medicina, Radiologia, perigos naturais e aprendizagem de máquinas. Neste post vou mostrar como uma curva ROC é criada e como interpretar a curva ROC.,
Um exemplo é mostrado abaixo:
a Criação de uma curva ROC
UMA curva ROC é construído plotando a verdadeira taxa positiva (TPR) contra a taxa de falsos positivos (FPR). A taxa positiva verdadeira é a proporção de observações que foram corretamente previstas como positivas de todas as observações positivas (TP/(TP + FN)). Da mesma forma, a taxa de falsos positivos é a proporção de observações que se prevê incorretamente serem positivas de todas as observações negativas (FP/(TN + FP))., Por exemplo, nos testes médicos, a verdadeira taxa positiva é a taxa em que as pessoas são corretamente identificadas para testar positivo para a doença em questão.
um classificador discreto que retorna apenas a classe prevista dá um único ponto no espaço ROC. Mas para probabilística classificadores, o que dá uma probabilidade ou pontuação que reflete o grau em que uma instância pertence a uma classe em vez de outra, podemos criar uma curva, variando o limite para a pontuação., Note que muitos classificadores discretos podem ser convertidos para um classificador de pontuação “olhando dentro” de suas estatísticas de instância. Por exemplo, uma árvore de decisão determina a classe de um nó de folha a partir da proporção de instâncias no nó.
interpretando a curva ROC
a curva ROC mostra a correlação entre sensibilidade (ou TPR) e especificidade (1-FPR). Classificadores que dão curvas mais próximas do canto superior esquerdo indicam um melhor desempenho. Como uma linha de base, um classificador aleatório é esperado para dar pontos ao longo da diagonal (FPR = TPR)., Quanto mais próxima a curva se aproximar da diagonal de 45 graus do espaço ROC, menos preciso será o ensaio.
Note que a ROC não depende da distribuição da classe. Isto torna útil para avaliar classificadores que prevêem eventos raros, como doenças ou desastres. Em contraste, avaliar o desempenho usando precisão (TP +
TN) / (TP + TN + FN + FP) favoreceria classificadores que sempre predizem um resultado negativo para eventos raros.
área sob curva (AUC)
para comparar diferentes classificadores, pode ser útil resumir o desempenho de cada classificador em uma única medida., Uma abordagem comum é calcular a área sob a curva ROC, que é abreviada para AUC. É equivalente à probabilidade de uma instância positiva escolhida aleatoriamente ser classificada mais alta do que uma instância negativa escolhida aleatoriamente, ou seja, é equivalente à Estatística de duas amostras de Wilcoxon rank-sum.
um classificador com AUC elevada pode ocasionalmente marcar pior numa região específica do que outro classificador com AUC mais baixa. Mas na prática, a AUC funciona bem como uma medida geral de precisão preditiva.
Inscreva-se no Displayr