Ten blog pokazuje, jak oceniać wydajność modelu za pomocą wskaźników dokładności, precyzji i przypomnienia & metryki wyniku F1 w usłudze Azure ML i zawiera krótkie wyjaśnienie „metryk zamieszania”. W tym eksperymencie użyłem algorytmu Dwuklasowego drzewa decyzyjnego i moim celem jest przewidzenie przeżycia pasażerów na Titanicu.
Kiedy już zbudujesz swój model, najważniejsze pytanie, jakie się nasuwa, to jak dobry jest twój model?, Ocena modelu jest więc najważniejszym zadaniem w projekcie data science, który określa, jak dobre są Twoje prognozy.
poniższy rysunek przedstawia wyniki modelu, który zbudowałem dla projektu, nad którym pracowałem podczas mojego programu stażowego w Exsilio Consulting tego lata.
rys. Wyniki oceny modelu klasyfikacji
zagłębimy się w wszystkie parametry pokazane na powyższym rysunku.,
pierwszą rzeczą, którą tutaj zobaczysz, jest krzywa ROC i możemy określić, czy nasza krzywa ROC jest dobra, czy nie, patrząc na AUC (pole pod krzywą) i inne parametry, które są również nazywane metrykami zamieszania. Macierz pomieszania jest tabelą, która jest często używana do opisania wydajności modelu klasyfikacji na zestawie danych testowych, dla których znane są prawdziwe wartości. Wszystkie miary z wyjątkiem AUC można obliczyć za pomocą lewej większości czterech parametrów. Porozmawiajmy więc najpierw o tych czterech parametrach.,
Prawdziwe Pozytywne i prawdziwe negatywne to obserwacje, które są prawidłowo przewidywane i dlatego pokazane na Zielono. Chcemy zminimalizować fałszywych pozytywów i fałszywych negatywów, więc są one wyświetlane w kolorze czerwonym. Terminy te są nieco mylące. Więc weźmy każdy termin jeden po drugim i zrozummy go w pełni.
True Positives (TP) – są to poprawnie przewidywane wartości dodatnie, co oznacza, że wartość rzeczywistej klasy jest tak, a wartość przewidywanej klasy jest również tak. Np., jeśli rzeczywista wartość klasy wskazuje, że pasażer przeżył, a przewidywana Klasa mówi to samo.
True Negatives (TN) – są to poprawnie przewidywane wartości ujemne, co oznacza, że wartość rzeczywistej klasy wynosi no, a wartość przewidywanej klasy również no. Np. jeśli rzeczywista Klasa mówi, że ten pasażer nie przeżył, a przewidywana Klasa mówi to samo.
False positives i false negatives, wartości te występują, gdy rzeczywista klasa jest sprzeczna z przewidywaną klasą.
False Positives (FP) – gdy rzeczywista Klasa to nie, a przewidywana Klasa to tak. Np., jeśli rzeczywista Klasa mówi, że ten pasażer nie przeżył, ale przewidywana Klasa mówi, że ten pasażer przeżyje.
False Negatives (Fn) – gdy rzeczywista Klasa to tak, ale przewidywana Klasa to nie. Np. jeśli rzeczywista wartość klasy wskazuje, że pasażer przeżył, a przewidywana Klasa mówi, że pasażer umrze.
po zrozumieniu tych czterech parametrów możemy obliczyć dokładność, precyzję, przypomnienie i wynik F1.
Dokładność-Dokładność jest najbardziej intuicyjną miarą wydajności i jest po prostu stosunkiem prawidłowo przewidywanej obserwacji do całkowitej obserwacji., Można by pomyśleć, że jeśli mamy wysoką dokładność to nasz model jest najlepszy. Tak, Dokładność jest wielką miarą, ale tylko wtedy, gdy masz symetryczne zbiory danych, w których wartości fałszywie dodatnich i fałszywie ujemnych są prawie takie same. Dlatego musisz spojrzeć na inne parametry, aby ocenić wydajność Twojego modelu. Dla naszego modelu mamy 0.803, co oznacza, że nasz model ma ok. 80% dokładności.
dokładność = TP + TN/TP+FP+FN + TN
precyzja – precyzja to stosunek prawidłowo przewidywanych obserwacji pozytywnych do całkowitych przewidywanych obserwacji pozytywnych., Pytanie, że ta metryczna odpowiedź dotyczy wszystkich pasażerów, którzy zostali oznaczeni jako ocalali, ilu faktycznie przeżyło? Wysoka precyzja odnosi się do niskiego wskaźnika fałszywie dodatniego. Mamy precyzję 0.788, która jest całkiem dobra.
Precision = TP/TP+FP
Recall (czułość) – Recall to stosunek prawidłowo przewidywanych obserwacji pozytywnych do wszystkich obserwacji w klasie rzeczywistej – tak. Odpowiedź na pytanie brzmi: ilu spośród wszystkich pasażerów, którzy naprawdę przeżyli, oznaczyliśmy? Mamy wycofanie 0.631, co jest dobre dla tego modelu, ponieważ jest powyżej 0.5.,
Recall = TP/TP+FN
wynik F1 – wynik F1 jest średnią ważoną precyzji i przypomnienia. Dlatego wynik ten uwzględnia zarówno fałszywe pozytywy, jak i fałszywe negatywy. Intuicyjnie nie jest to tak łatwe do zrozumienia jak dokładność, ale F1 jest zwykle bardziej użyteczny niż dokładność, zwłaszcza jeśli masz nierównomierny rozkład klas. Dokładność działa najlepiej, jeśli fałszywe pozytywy i fałszywe negatywy mają podobne koszty. Jeśli koszt fałszywych pozytywów i fałszywych negatywów są bardzo różne, lepiej spojrzeć na precyzję i przypomnienie. W naszym przypadku wynik F1 wynosi 0,701.,
F1 Score = 2 * (Recall * Precision) / (Recall + Precision)
tak więc, gdy budujesz model, ten artykuł powinien pomóc ci dowiedzieć się, co oznaczają te parametry i jak dobry jest twój model.
Mam nadzieję, że ten blog wam się przydał. Proszę zostawić komentarze lub wysłać mi e-mail, jeśli uważasz, że przegapiłem jakieś ważne szczegóły lub jeśli masz inne pytania lub opinie na ten temat.
**należy pamiętać, że powyższe wyniki i analiza liczb opiera się na modelu Titanica., Liczby i wyniki mogą się różnić w zależności od modelu i konkretnego zastosowania biznesowego.
Related videos: https://www.youtube.com/channel/UC9jOb7yEfGwxjjdpWMjmKJA
By: Renuka Joshi (Intern at Exsilio)