deze blog laat zien hoe de prestaties van een model kunnen worden geëvalueerd via Accuracy, Precision, Recall & F1 Score metrics in Azure ML en geeft een korte uitleg van de “Confusion measures”. In dit experiment heb ik twee-klasse Boosted Decision Tree algoritme gebruikt en mijn doel is om het overleven van de passagiers op de Titanic te voorspellen.
zodra u uw model hebt gebouwd, rijst de belangrijkste vraag: hoe goed is uw model?, Het evalueren van je model is dus de belangrijkste taak in het data science project, dat aangeeft hoe goed je voorspellingen zijn.
de volgende figuur toont de resultaten van het model dat ik heb gebouwd voor het project waaraan ik heb gewerkt tijdens mijn stage bij Exsilio Consulting deze zomer.
Fig. Evaluatieresultaten voor Classificatiemodel
laten we diep graven in alle parameters in de bovenstaande figuur.,
het eerste wat je hier ziet is de ROC-curve en we kunnen bepalen of onze ROC-curve goed is of niet door te kijken naar AUC (oppervlakte onder de Curve) en andere parameters die ook wel Verwarmingsmetrics worden genoemd. Een verwarmingsmatrix is een tabel die vaak wordt gebruikt om de prestaties van een Classificatiemodel te beschrijven op een reeks testgegevens waarvan de werkelijke waarden bekend zijn. Alle metingen behalve de AUC kunnen worden berekend met behulp van de meeste Vier linkerparameters. Laten we het eerst over die vier parameters hebben.,
True positive and true negative are the observations that are correct predicted and therefore show in green. We willen valse positieven en valse negatieven minimaliseren zodat ze in rode kleur worden weergegeven. Deze termen zijn een beetje verwarrend. Dus laten we elke term één voor één nemen en het volledig begrijpen.
True positieven (TP) – dit zijn de correct voorspelde positieve waarden, wat betekent dat de waarde van de werkelijke klasse ja is en de waarde van de voorspelde klasse ook ja. Bijv., als de werkelijke klasse waarde aangeeft dat deze passagier overleefde en voorspelde klasse vertelt u hetzelfde.
True negatieven (TN) – dit zijn de correct voorspelde negatieve waarden, wat betekent dat de waarde van de werkelijke klasse no is en de waarde van de voorspelde klasse ook no. Bijvoorbeeld als de werkelijke klasse zegt dat deze passagier niet overleefde en voorspelde klasse vertelt u hetzelfde.
False positieven en false negatieven, deze waarden komen voor wanneer uw werkelijke klasse in tegenspraak is met de voorspelde klasse.
False positieven (FP) – wanneer de werkelijke klasse nee is en de voorspelde klasse Ja. Bijv., als de werkelijke klasse zegt dat deze passagier niet overleefde, maar voorspelde klasse vertelt u dat deze passagier zal overleven.
False negatieven (FN) – wanneer de werkelijke klasse ja is, maar de voorspelde klasse In Nee. Bijvoorbeeld als de werkelijke klasse waarde aangeeft dat deze passagier overleefde en voorspelde klasse vertelt u dat de passagier zal sterven.
zodra u deze vier parameters begrijpt, kunnen we nauwkeurigheid, precisie, Recall en F1 score berekenen.
nauwkeurigheid-nauwkeurigheid is de meest intuïtieve prestatiemeting en het is gewoon een verhouding van correct voorspelde waarneming tot de totale waarnemingen., Men kan denken dat, als we een hoge nauwkeurigheid dan ons model is het beste. Ja, nauwkeurigheid is een grote maat, maar alleen als je symmetrische datasets hebt waar de waarden van vals-positief en vals-negatieven bijna hetzelfde zijn. Daarom moet je naar andere parameters kijken om de prestaties van je model te evalueren. Voor ons model hebben we 0.803 wat betekent dat ons model CA. 80% nauwkeurig.
nauwkeurigheid = TP+TN/TP+FP+FN+TN
precisie – precisie is de verhouding tussen correct voorspelde positieve waarnemingen en de totale voorspelde positieve waarnemingen., De vraag die dit metrische antwoord is: hoeveel van alle passagiers die het label overleefden, overleefden er eigenlijk? Hoge precisie heeft betrekking op de lage fout-positieve snelheid. We hebben 0.788 precisie die is vrij goed.
Precision = TP / TP+FP
Recall (sensitiviteit) – Recall is de verhouding tussen correct voorspelde positieve waarnemingen en alle waarnemingen in de werkelijke klasse-Ja. De vraag die we ons herinneren is: van alle passagiers die echt overleefden, hoeveel hebben we er een label gegeven? Wij hebben terugroepen van 0.631 die goed voor dit model is aangezien het boven 0.5 is.,
Recall = TP/TP+FN
F1 score – F1 Score is het gewogen gemiddelde van precisie en Recall. Daarom houdt deze score rekening met zowel valse positieven als valse negatieven. Intuïtief is het niet zo gemakkelijk te begrijpen als nauwkeurigheid, maar F1 is meestal nuttiger dan nauwkeurigheid, vooral als je een ongelijke klassenverdeling hebt. Nauwkeurigheid werkt het beste als valse positieven en valse negatieven vergelijkbare kosten hebben. Als de kosten van valse positieven en valse negatieven heel verschillend zijn, is het beter om te kijken naar zowel precisie als terugroeping. In ons geval is de F1 score 0.701.,
F1 Score = 2 * (Recall * Precision)/(Recall + Precision)
dus, wanneer u een model bouwt, moet dit artikel u helpen om erachter te komen wat deze parameters betekenen en hoe goed uw model heeft gepresteerd.
Ik hoop dat u deze blog nuttig vond. Laat opmerkingen achter of stuur me een e-mail als je denkt dat ik belangrijke details heb gemist of als je andere vragen of feedback over dit onderwerp hebt.
* * Houd er rekening mee dat de bovenstaande resultaten en analyse van getallen gebaseerd zijn op het Titanic-model., Uw cijfers en resultaten kunnen variëren op welk model u werkt en uw specifieke business use case.
gerelateerde video ‘s: https://www.youtube.com/channel/UC9jOb7yEfGwxjjdpWMjmKJA
door: Renuka Joshi (Intern bij Exsilio)