Tento blog ukazuje, jak hodnotit výkonnost modelu přes Accuracy, Precision, Recall & F1 Skóre metriky v Azure ML a poskytuje stručné vysvětlení „Zmatek Metriky“. V tomto experimentu jsem použil Dvě třídy Posílen Rozhodovací Strom Algoritmu a mým cílem je předpovědět přežití cestujících na Titaniku.
jakmile postavíte svůj model, nejdůležitější otázkou, která vyvstává, je, jak dobrý je váš model?, Vyhodnocení vašeho modelu je tedy nejdůležitějším úkolem v projektu data science, který vymezuje, jak dobré jsou vaše předpovědi.
následující obrázek znázorňuje výsledky modelu, který jsem postavil pro projekt jsem pracoval na během mé stáže programu na Exsilio Consulting letos v létě.
Obr. Výsledky hodnocení pro klasifikační model
pojďme se ponořit do všech parametrů uvedených na obrázku výše.,
první věc, kterou zde uvidíte, je křivka ROC a můžeme určit, zda je naše křivka ROC dobrá nebo ne při pohledu na AUC (oblast pod křivkou) a další parametry, které se také nazývají jako metriky zmatku. Matrice záměny je tabulka, která se často používá k popisu výkonu klasifikačního modelu na souboru testovacích dat, pro které jsou známy skutečné hodnoty. Všechna opatření kromě AUC lze vypočítat pomocí levé většiny čtyř parametrů. Takže nejprve si promluvme o těchto čtyřech parametrech.,
skutečné pozitivní a pravdivé negativy jsou pozorování, která jsou správně předpovězena, a proto jsou zobrazena zeleně. Chceme minimalizovat falešná pozitiva a falešná negativa, aby byla zobrazena v červené barvě. Tyto pojmy jsou trochu matoucí. Vezměme si tedy každý termín jeden po druhém a plně to pochopíme.
True Positives ( TP) – to jsou správně předpovídané kladné hodnoty, což znamená, že hodnota skutečné třídy je ano a hodnota předpokládané třídy je také Ano. Např., pokud skutečná hodnota třídy naznačuje, že tento cestující přežil a předpovídaná třída vám řekne totéž.
True Negatives ( TN) – jedná se o správně předpovězené záporné hodnoty, což znamená, že hodnota skutečné třídy není a hodnota předpokládané třídy také není. Například pokud skutečná třída říká, že tento cestující nepřežil a předpovídaná třída vám řekne totéž.
falešně pozitivní a falešné negativy, tyto hodnoty se vyskytují, když vaše skutečná třída je v rozporu s předpokládanou třídou.
False Positives (FP) – když skutečná třída není a předpokládaná třída je ano. Např., pokud skutečná třída říká, že tento cestující nepřežil, ale předpovídaná třída vám řekne, že tento cestující přežije.
falešné negativy (FN) – pokud je skutečná třída Ano, ale předpokládaná třída ne. Např. pokud skutečná hodnota třídy naznačuje, že tento cestující přežil a předpovídaná třída vám řekne, že cestující zemře.
jakmile pochopíte tyto čtyři parametry, můžeme vypočítat Přesnost, Přesnost, vyvolání a skóre F1.
Přesnost-Přesnost je nejintuitivnější měření výkonu a je to prostě poměr správně předpovídaného pozorování k celkovým pozorováním., Člověk si může myslet, že pokud máme vysokou přesnost, pak je náš model nejlepší. Ano, přesnost je velkým měřítkem, ale pouze pokud máte symetrické datové sady, kde jsou hodnoty falešně pozitivních a falešných negativů téměř stejné. Proto se musíte podívat na další parametry, abyste zhodnotili výkon vašeho modelu. Pro náš model máme 0.803 což znamená, že náš model je cca. 80% přesné.
Přesnost = TP+TN/TP+FP+FN+TN
Přesnost – Přesnost je poměr správně předpověděl pozitivní vyjádření k celkové předpokládané pozitivní vyjádření., Otázka, že tato metrická odpověď je ze všech cestujících, kteří byli označeni jako přežili, kolik skutečně přežilo? Vysoká přesnost se týká nízké falešně pozitivní sazby. Máme přesnost 0.788, což je docela dobré.
Precision = TP / TP+FP
Recall ( Sensitivity) – Recall je poměr správně předpovězených pozitivních pozorování ke všem pozorováním ve skutečné třídě-Ano. Otázka zní: ze všech cestujících, kteří skutečně přežili, kolik jsme jich označili? Máme stažení 0.631, což je dobré pro tento model, protože je nad 0.5.,
Recall = TP/TP+FN
F1 score – F1 Score je vážený průměr přesnosti a vyvolání. Proto toto skóre bere v úvahu jak falešná pozitiva, tak falešná negativa. Intuitivně to není tak snadné pochopit jako přesnost, ale F1 je obvykle užitečnější než přesnost, zvláště pokud máte nerovnoměrné rozdělení třídy. Přesnost funguje nejlépe, pokud falešná pozitiva a falešná negativa mají podobné náklady. Pokud jsou náklady na falešná pozitiva a falešná negativa velmi odlišné, je lepší se podívat na přesnost i na odvolání. V našem případě je skóre F1 0,701.,
F1 Skóre = 2*(Připomeňme, * Přesnost) / (Připomeňme + Přesnost)
Takže pokaždé, když budete stavět model, tento článek by vám měl pomoci zjistit, co tyto parametry znamenají a jak dobrý je váš model má provést.
doufám, že jste tento blog považovali za užitečný. Zanechte prosím komentáře nebo mi pošlete e-mail, pokud si myslíte, že jsem zmeškal nějaké důležité podrobnosti nebo pokud máte nějaké další dotazy nebo zpětnou vazbu k tomuto tématu.
* * Vezměte prosím na vědomí, že výše uvedené výsledky a analýza čísel jsou založeny na modelu Titanic., Vaše čísla a výsledky se mohou lišit podle toho, na kterém modelu pracujete, a vašeho konkrétního případu obchodního použití.
související videa: https://www.youtube.com/channel/UC9jOb7yEfGwxjjdpWMjmKJA
podle: Renuka Joshi (stážista v Exsilio)