Accuratezza, Precisione, Richiamare & F1 Punteggio: Interpretazione di Misure di Performance – Exsilio Blog

Questo blog dimostra come valutare le prestazioni di un modello mediante l’Accuratezza, la Precisione, il Richiamo & F1 Punteggio di metriche in Azure ML e fornisce una breve spiegazione della “Confusione Metriche”. In questo esperimento, ho usato due classi potenziato Algoritmo albero decisionale e il mio obiettivo è quello di prevedere la sopravvivenza dei passeggeri sul Titanic.

Una volta che hai costruito il tuo modello, la domanda più importante che sorge è quanto è buono il tuo modello?, Quindi, valutare il tuo modello è il compito più importante nel progetto di scienza dei dati che delinea quanto sono buone le tue previsioni.

La figura seguente mostra i risultati del modello che ho costruito per il progetto a cui ho lavorato durante il mio programma di stage presso Exsilio Consulting questa estate.

Fig. Risultati della valutazione per il modello di classificazione

Approfondiamo tutti i parametri mostrati nella figura sopra.,

La prima cosa che vedrai qui è la curva ROC e possiamo determinare se la nostra curva ROC è buona o meno guardando AUC (Area Sotto la curva) e altri parametri che sono anche chiamati come metriche di confusione. Una matrice di confusione è una tabella che viene spesso utilizzata per descrivere le prestazioni di un modello di classificazione su un insieme di dati di test per i quali sono noti i valori reali. Tutte le misure tranne AUC possono essere calcolate utilizzando la maggior parte dei quattro parametri a sinistra. Quindi, parliamo prima di questi quattro parametri.,

I veri positivi e i veri negativi sono le osservazioni che sono correttamente previste e quindi mostrate in verde. Vogliamo ridurre al minimo i falsi positivi e falsi negativi in modo che siano mostrati in colore rosso. Questi termini sono un po ‘ confusi. Quindi prendiamo ogni termine uno per uno e capiamolo pienamente.

True Positives (TP) – Questi sono i valori positivi correttamente previsti, il che significa che il valore della classe effettiva è sì e il valore della classe prevista è anche sì. Ad esempio, se il valore effettivo della classe indica che questo passeggero è sopravvissuto e la classe prevista ti dice la stessa cosa.

True Negatives (TN) – Questi sono i valori negativi correttamente previsti, il che significa che il valore della classe effettiva è no e il valore della classe prevista è anche no. Ad esempio, se la classe effettiva dice che questo passeggero non è sopravvissuto e la classe prevista ti dice la stessa cosa.

Falsi positivi e falsi negativi, questi valori si verificano quando la classe effettiva contraddice con la classe prevista.

Falsi positivi (FP) – Quando la classe effettiva è no e la classe prevista è sì. Ad esempio, se la classe effettiva dice che questo passeggero non è sopravvissuto, ma la classe prevista ti dice che questo passeggero sopravviverà.

Falsi negativi (FN) – Quando la classe effettiva è sì ma la classe prevista in no. Ad esempio, se il valore effettivo della classe indica che questo passeggero è sopravvissuto e la classe prevista ti dice che il passeggero morirà.

Una volta compresi questi quattro parametri, possiamo calcolare Precisione, Precisione, Richiamo e punteggio F1.

Precisione-La precisione è la misura delle prestazioni più intuitiva ed è semplicemente un rapporto tra l’osservazione correttamente prevista e le osservazioni totali., Si potrebbe pensare che, se abbiamo un’elevata precisione, il nostro modello sia il migliore. Sì, la precisione è una grande misura, ma solo quando si dispone di set di dati simmetrici in cui i valori di falsi positivi e falsi negativi sono quasi gli stessi. Pertanto, è necessario esaminare altri parametri per valutare le prestazioni del modello. Per il nostro modello, abbiamo ottenuto 0.803 che significa che il nostro modello è di ca. 80% accurato.

Accuracy = TP+TN/TP+FP+FN + TN

Precision-La precisione è il rapporto tra le osservazioni positive correttamente previste e le osservazioni positive totali previste., La domanda che questa risposta metrica è di tutti i passeggeri etichettati come sopravvissuti, quanti sono effettivamente sopravvissuti? L’alta precisione si riferisce al basso tasso di falsi positivi. Abbiamo ottenuto 0.788 precisione che è abbastanza buona.

Precision = TP / TP + FP

Recall (Sensitivity) – Recall è il rapporto tra le osservazioni positive correttamente previste e tutte le osservazioni in classe effettiva-sì. La domanda che richiama le risposte è: di tutti i passeggeri che sono veramente sopravvissuti, quanti abbiamo etichettato? Abbiamo un richiamo di 0.631 che è buono per questo modello in quanto è superiore a 0.5.,

Recall = TP/TP+FN

F1 score – F1 Punteggio è la media ponderata di precisione e di richiamo. Pertanto, questo punteggio prende in considerazione sia i falsi positivi che i falsi negativi. Intuitivamente non è così facile da capire come la precisione, ma F1 è di solito più utile della precisione, specialmente se si dispone di una distribuzione di classe non uniforme. La precisione funziona meglio se falsi positivi e falsi negativi hanno un costo simile. Se il costo dei falsi positivi e dei falsi negativi è molto diverso, è meglio guardare sia la precisione che il richiamo. Nel nostro caso, il punteggio F1 è 0.701.,

F1 Score = 2*(Recall * Precision)/(Recall + Precision)

Quindi, ogni volta che costruisci un modello, questo articolo dovrebbe aiutarti a capire cosa significano questi parametri e quanto è buono il tuo modello.

Spero che tu abbia trovato questo blog utile. Si prega di lasciare commenti o inviarmi una e-mail se si pensa che ho perso tutti i dettagli importanti o se avete altre domande o commenti su questo argomento.

* * Si prega di notare che i risultati di cui sopra e l’analisi dei numeri si basa sul modello Titanic., I numeri e i risultati possono variare in base al modello su cui lavori e al caso d’uso aziendale specifico.

Video correlati:https://www.youtube.com/channel/UC9jOb7yEfGwxjjdpWMjmKJA

Di: Renuka Joshi (Stagista presso Exsilio)

Leave a Comment