Este blog demuestra cómo evaluar el rendimiento de un modelo a través de Accuracy, Precision, Recall & F1 Score metrics en Azure ML y proporciona una breve explicación de las «métricas de confusión». En este experimento, he utilizado el algoritmo de árbol de decisión impulsado de dos clases y mi objetivo es predecir la supervivencia de los pasajeros en el Titanic.
una vez que haya construido su modelo, la pregunta más importante que surge es ¿qué tan bueno es su modelo?, Por lo tanto, evaluar su modelo es la tarea más importante en el proyecto de ciencia de datos que delinea lo buenas que son sus predicciones.
la siguiente figura muestra los resultados del modelo que construí para el proyecto en el que trabajé durante mi programa de prácticas en Exsilio Consulting este verano.
Fig. Resultados de la evaluación para el modelo de clasificación
profundicemos en todos los parámetros que se muestran en la figura anterior.,
Lo primero que verá aquí es la curva ROC y podemos determinar si nuestra curva ROC es buena o no mirando el AUC (área bajo la curva) y otros parámetros que también se llaman métricas de confusión. Una matriz de confusión es una tabla que se utiliza a menudo para describir el rendimiento de un modelo de clasificación en un conjunto de datos de prueba para los que se conocen los valores verdaderos. Todas las medidas excepto el AUC se pueden calcular utilizando la mayoría de la izquierda cuatro parámetros. Por lo tanto, vamos a hablar de esos cuatro parámetros primero.,
Verdaderos positivos y verdaderos negativos son las observaciones que se predijo correctamente y por lo tanto se muestra en verde. Queremos minimizar los falsos positivos y falsos negativos para que se muestren en color rojo. Estos términos son un poco confusos. Así que vamos a tomar cada término uno por uno y entenderlo completamente.
positivos verdaderos (TP): estos son los valores positivos predichos correctamente, lo que significa que el valor de la clase real es sí y el valor de la clase predicha también es sí. E. g., si el valor real de la clase indica que este pasajero sobrevivió y la clase prevista le dice lo mismo.
negativos verdaderos (TN): estos son los valores negativos predichos correctamente, lo que significa que el valor de la clase real es no y el valor de la clase predicha también es no. Por ejemplo, si la clase real dice que este pasajero no sobrevivió y la clase predecida te dice lo mismo.
falsos positivos y falsos negativos, estos valores se producen cuando su clase real contradice con la clase predicha.
falsos positivos (FP) – cuando la clase real es no y la clase predicha es sí. E. g., si la clase real dice que este pasajero no sobrevivió, pero la clase predicha te dice que este pasajero sobrevivirá.
falsos negativos (FN) – cuando la clase real es sí pero la clase predicha en no. Por ejemplo, si el valor real de la clase indica que este pasajero sobrevivió y la clase prevista le indica que el pasajero morirá.
Una vez que entienda estos cuatro parámetros, podemos calcular la precisión, la precisión, el recuerdo y la puntuación de F1.
Precisión-La precisión es la medida de rendimiento más intuitiva y es simplemente una relación entre la observación correctamente predicha y el total de observaciones., Uno puede pensar que, si tenemos alta precisión, entonces nuestro modelo es el mejor. Sí, la precisión es una gran medida, pero solo cuando tiene conjuntos de datos simétricos donde los valores de falsos positivos y falsos negativos son casi iguales. Por lo tanto, usted tiene que mirar otros parámetros para evaluar el rendimiento de su modelo. Para nuestro modelo, tenemos 0.803 lo que significa que nuestro modelo es de aprox. 80% de precisión.
Accuracy = TP+TN/TP+FP+FN + TN
Precision – la precisión es la relación entre las observaciones positivas predichas correctamente y el total de las observaciones positivas predichas., La pregunta que esta respuesta métrica es de todos los pasajeros que etiquetaron como sobrevivientes, ¿cuántos realmente sobrevivieron? La alta precisión se relaciona con la baja tasa de falsos positivos. Tenemos una precisión de 0.788 que es bastante buena.
Precision = TP / TP+FP
Recall (Sensitivity) – Recall es la relación entre las observaciones positivas correctamente predichas y todas las observaciones en la clase real – sí. La pregunta que responde el recuerdo es: de todos los pasajeros que realmente sobrevivieron, ¿a cuántos etiquetamos? Tenemos recuerdo de 0.631 que es bueno para este modelo, ya que está por encima de 0.5.,
Recall = TP/TP+FN
F1 score – F1-Score es el promedio ponderado de Precisión y Recall. Por lo tanto, esta puntuación tiene en cuenta tanto los falsos positivos como los falsos negativos. Intuitivamente no es tan fácil de entender como la precisión, pero F1 suele ser más útil que la precisión, especialmente si tienes una distribución de clases desigual. La precisión funciona mejor si los falsos positivos y los falsos negativos tienen un costo similar. Si el costo de los falsos positivos y los falsos negativos son muy diferentes, es mejor mirar tanto la precisión como el recuerdo. En nuestro caso, la puntuación F1 es 0.701.,
F1 Score = 2 * (Recall * Precision)/(Recall + Precision)
así que, cada vez que construyas un modelo, este artículo debería ayudarte a averiguar qué significan estos parámetros y qué tan bien ha funcionado tu modelo.
espero que hayas encontrado útil este blog. Por favor, deje comentarios o envíeme un correo electrónico si cree que me perdí algún detalle importante o si tiene alguna otra pregunta o comentario sobre este tema.
* * tenga en cuenta que los resultados anteriores y el análisis de los números se basa en el modelo Titanic., Sus números y resultados pueden variar según el modelo en el que trabaje y su caso de uso comercial específico.
videos Relacionados: https://www.youtube.com/channel/UC9jOb7yEfGwxjjdpWMjmKJA
Por: Renuka Joshi (Pasante en Exsilio)