una curva ROC (Receiver Operator Characteristic) es una gráfica utilizada para mostrar la capacidad de diagnóstico de los clasificadores binarios. Se utilizó por primera vez en la teoría de la detección de señales, pero ahora se utiliza en muchas otras áreas como la medicina, la radiología, los peligros naturales y el aprendizaje automático. En este post te mostraré cómo se crea una curva ROC y cómo interpretar la curva ROC.,
a continuación se muestra un ejemplo:
creando una curva ROC
una curva ROC se construye trazando la tasa positiva verdadera (TPR) contra la tasa positiva falsa (FPR). La verdadera tasa positiva es la proporción de observaciones que se predijeron correctamente como positivas de todas las observaciones positivas (TP / (TP + FN)). Del mismo modo, la tasa de falsos positivos es la proporción de observaciones que se predicen incorrectamente como positivas de todas las observaciones negativas (FP/(TN + FP))., Por ejemplo, en las pruebas médicas, la tasa positiva verdadera es la tasa en la que las personas se identifican correctamente para dar positivo para la enfermedad en cuestión.
un clasificador discreto que devuelve solo la clase predicha da un solo punto en el espacio ROC. Pero para los clasificadores probabilísticos, que dan una probabilidad o puntuación que refleja el grado al que una instancia pertenece a una clase en lugar de Otra, podemos crear una curva variando el umbral para la puntuación., Tenga en cuenta que muchos clasificadores discretos se pueden convertir en un clasificador de puntuación «mirando dentro» de sus estadísticas de instancia. Por ejemplo, un árbol de decisiones determina la clase de un nodo hoja a partir de la proporción de instancias en el nodo.
interpretando la curva ROC
La curva ROC muestra el equilibrio entre sensibilidad (o TPR) y especificidad (1-FPR). Los clasificadores que dan curvas más cercanas a la esquina superior izquierda indican un mejor rendimiento. Como línea de base, se espera que un clasificador Aleatorio dé puntos a lo largo de la diagonal (FPR = TPR)., Cuanto más cerca esté la curva de la diagonal de 45 grados del espacio ROC, menos precisa será la prueba.
tenga en cuenta que el ROC no depende de la distribución de clases. Esto lo hace útil para evaluar clasificadores que predicen eventos raros como enfermedades o desastres. Por el contrario, evaluar el rendimiento utilizando precisión (TP +
TN) / (TP + TN + FN + FP) favorecería a los clasificadores que siempre predicen un resultado negativo para eventos raros.
área bajo curva (AUC)
para comparar diferentes clasificadores, puede ser útil resumir el rendimiento de cada clasificador en una sola medida., Un enfoque común es calcular el área bajo la curva ROC, que se abrevia como AUC. Es equivalente a la probabilidad de que una instancia positiva elegida al azar se clasifique más alta que una instancia negativa elegida al azar, es decir, es equivalente a la estadística de suma de Rango de Wilcoxon de dos muestras.
un clasificador con AUC alta puede puntuar ocasionalmente peor en una región específica que otro clasificador con AUC más baja. Pero en la práctica, el AUC funciona bien como una medida general de precisión predictiva.
regístrese en Displayr