Une courbe ROC (Receiver Operator Characteristic) est un graphique utilisé pour montrer la capacité de diagnostic des classificateurs binaires. Il a d’abord été utilisé dans la théorie de la détection des signaux, mais est maintenant utilisé dans de nombreux autres domaines tels que la médecine, la radiologie, les risques naturels et l’apprentissage automatique. Dans cet article, je vais vous montrer comment une courbe ROC est créée et comment interpréter la courbe ROC.,
un exemple est illustré ci-dessous:
création d’une courbe ROC
Une courbe ROC est construite en traçant le taux positif vrai (TPR) contre le taux faux positif (FPR). Le taux positif réel est la proportion d’observations qui ont été correctement prédites positives parmi toutes les observations positives (TP/(TP + FN)). De même, le taux de faux positifs est la proportion d’observations qui sont incorrectement prédites positives parmi toutes les observations négatives (FP/(TN + FP))., Par exemple, dans les tests médicaux, le taux positif réel est le taux dans lequel les personnes sont correctement identifiées pour un test positif pour la maladie en question.
un classificateur discret qui ne renvoie que la classe prédite donne un seul point sur L’Espace ROC. Mais pour les classificateurs probabilistes, qui donnent une probabilité ou un score qui reflète le degré auquel une instance appartient à une classe plutôt qu’à une autre, nous pouvons créer une courbe en faisant varier le seuil du score., Notez que de nombreux classificateurs discrets peuvent être convertis en classificateur de notation en « regardant à l’intérieur » leurs statistiques d’instance. Par exemple, un arbre de décision qui détermine la classe d’un nœud feuille à partir de la proportion de cas au nœud.
interprétation de la courbe ROC
La courbe ROC montre le compromis entre la sensibilité (ou TPR) et la spécificité (1-FPR). Les classificateurs qui donnent des courbes plus proches du coin supérieur gauche indiquent une meilleure performance. En tant que ligne de base, un classificateur aléatoire devrait donner des points situés le long de la diagonale (FPR = TPR)., Plus la courbe se rapproche de la diagonale de 45 degrés de L’Espace ROC, moins le test est précis.
notez que le ROC ne dépend pas de la distribution de classe. Cela le rend utile pour évaluer les classificateurs prédisant des événements rares tels que des maladies ou des catastrophes. En revanche, l’évaluation des performances à l’aide de la précision (TP +
TN)/(TP + TN + FN + FP) favoriserait les classificateurs qui prédisent toujours un résultat négatif pour les événements rares.
aire sous courbe (AUC)
pour comparer différents classificateurs, il peut être utile de résumer les performances de chaque classificateur en une seule mesure., Une approche courante consiste à calculer l’aire sous la courbe ROC, qui est abrégée en ASC. Cela équivaut à la probabilité qu’une instance positive choisie au hasard soit classée plus haut qu’une instance négative choisie au hasard, c’est-à-dire qu’elle équivaut à la statistique de somme de rang de Wilcoxon à deux échantillons.
un classificateur avec une AUC élevée peut parfois obtenir un score pire dans une région spécifique qu’un autre Classificateur avec une AUC inférieure. Mais dans la pratique, l’ASC fonctionne bien comme une mesure générale de la précision prédictive.
inscrivez-vous pour Displayr