krzywa charakterystyki operatora odbiornika (Roc) jest graficznym wykresem służącym do pokazania możliwości diagnostycznych klasyfikatorów binarnych. Po raz pierwszy został użyty w teorii wykrywania sygnałów, ale obecnie jest używany w wielu innych dziedzinach, takich jak medycyna, Radiologia, zagrożenia naturalne i uczenie maszynowe. W tym poście pokażę Ci, jak powstaje krzywa ROC i jak interpretować krzywą ROC.,
przykład jest pokazany poniżej:
Tworzenie krzywej ROC
krzywa ROC jest konstruowana przez wykreślenie wskaźnika true positive rate (TPR) w stosunku do wskaźnika false positive (FPR). Rzeczywisty wskaźnik dodatni to odsetek obserwacji, które prawidłowo przewidywano jako pozytywne spośród wszystkich obserwacji pozytywnych (TP / (TP + FN)). Podobnie, wskaźnik fałszywie dodatni jest proporcją obserwacji, które są błędnie przewidywane jako pozytywne spośród wszystkich negatywnych obserwacji (FP / (TN + FP))., Na przykład, w testach medycznych, prawdziwy wskaźnik dodatni jest wskaźnik, w którym ludzie są prawidłowo identyfikowane, aby wynik pozytywny dla danej choroby.
klasyfikator dyskretny, który zwraca tylko przewidywaną klasę, daje pojedynczy punkt na przestrzeni ROC. Ale dla klasyfikatorów probabilistycznych, które dają Prawdopodobieństwo lub wynik, który odzwierciedla stopień, w jakim instancja należy do jednej klasy, a nie innej, możemy utworzyć krzywą zmieniając próg dla wyniku., Zauważ, że wiele dyskretnych klasyfikatorów może zostać przekonwertowanych na klasyfikator punktowy, „przeglądając” ich statystyki wystąpienia. Na przykład drzewo decyzyjne określa klasę węzła liścia na podstawie proporcji instancji w węźle.
interpretacja krzywej ROC
krzywa ROC pokazuje kompromis między czułością (lub TPR) a swoistością (1-FPR). Klasyfikatory, które dają krzywe bliżej lewego górnego rogu, wskazują na lepszą wydajność. Jako punkt wyjściowy oczekuje się, że klasyfikator losowy da punkty leżące wzdłuż przekątnej (FPR = TPR)., Im bliżej krzywej dochodzi do 45-stopniowej przekątnej przestrzeni ROC, tym mniej dokładny test.
zauważ, że ROC nie zależy od rozkładu klas. Dzięki temu jest on przydatny do oceny klasyfikatorów przewidujących rzadkie zdarzenia, takie jak choroby lub katastrofy. W przeciwieństwie do tego, ocena wydajności przy użyciu dokładności(TP +
TN)/(TP + TN + FN + FP) faworyzowałaby klasyfikatory, które zawsze przewidują negatywny wynik dla rzadkich zdarzeń.
pole pod krzywą (AUC)
aby porównać różne klasyfikatory, przydatne może być podsumowanie wydajności każdego klasyfikatora w jedną miarę., Jedną z powszechnych metod jest obliczanie powierzchni pod krzywą ROC, która jest skrócona do AUC. Jest to równoważne prawdopodobieństwu, że losowo wybrana pozytywna instancja jest klasyfikowana wyżej niż losowo wybrana negatywna instancja, tzn. jest równoważna dwóm próbkom statystyki Wilcoxona rank-sum.
klasyfikator o wysokiej wartości AUC może okazjonalnie uzyskać gorsze wyniki w danym regionie niż inny klasyfikator o niższej wartości AUC. Ale w praktyce, AUC działa dobrze jako ogólna miara predykcyjnej dokładności.
Zarejestruj się na Displayr