Analiza predykcyjna-znaczenie i ważne algorytmy do nauki

reklamowana jako kolejna duża rzecz, analiza predykcyjna ma zdominować krajobraz zaawansowanej analizy w ciągu najbliższych kilku lat. Analiza płacowa Analytics India 2017 przeprowadzona przez AnalytixLabs & magazyn Analytics India (AIM) ujawnia, że specjaliści od zaawansowanej analityki/modelowania predykcyjnego są lepiej wynagradzani w porównaniu do swoich rówieśników.,

roczne wynagrodzenie w Lacs

źródło: AnalytixLabs& AIM

więc pozwól nam szczegółowo zrozumieć, jak zbudować model predykcyjny i poznać najważniejsze algorytmy, których należy się nauczyć w analityce predykcyjnej.

analityka predykcyjna jest gałęzią zaawansowanej analizy danych, która polega na wykorzystaniu różnych technik, takich jak uczenie maszynowe, algorytmy statystyczne i inne techniki eksploracji danych do prognozowania przyszłych zdarzeń na podstawie danych historycznych.,

model jest następnie stosowany do bieżących danych, aby przewidzieć, jaki będzie następny kierunek działania lub sugestia dla wyniku.

podczas tworzenia modelu analizy predykcyjnej dostępne są różne algorytmy w kategoriach data mining, machine learning i statistics. W miarę eksploracji danych łatwiej jest podjąć dalszą decyzję.

Jak zbudować model predykcyjny?,

zbudowanie modelu predykcyjnego jest proste:

  1. uzyskaj dane z różnych źródeł z dowolnego narzędzia ETL

przykład: zapoznaj się z danymi iris – https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  1. podziel zestaw danych na dwie części (przykładowe i weryfikacyjne)

Zbuduj przykładowe dane:

zbuduj zestaw danych model z przykładowych danych, które dostarczają informacji o gatunkach kwiatów i ich pomiarach.,

Ogólnie rzecz biorąc, istnieje wiele modeli analizy predykcyjnej i można je podzielić na 2 typy:

  • Klasyfikacja – przewidywanie wartości, która jest dyskretna przez kategorię i skończona bez porządku
  • regresja – przewidywanie wartości, która jest ciągła przez ilość liczbową i nieskończona z zamówieniem:

powszechnie stosowane algorytmy w analizie danych to regresja liniowa i sieć neuronowa

regresja liniowa: prosty model regresji zakłada, że istnieje zależność liniowa między zmiennymi wejściowymi i wyjściowymi.,

sieć neuronowa: sieć neuronowa inspirowana ludzkim mózgiem, sieć neuronów, które są ze sobą połączone, to jest to zestaw jednostek obliczeniowych, który pobiera zestaw wejść i przenosi wynik na predefiniowane wyjście. Jednostki obliczeniowe są uporządkowane w warstwach tak, że cechy wektora wejściowego mogą być połączone z cechą wektora wyjściowego.

ideą stojącą za tym jest często trenowanie sieci neuronowych do modelowania relacji w dostarczanych danych.,

  1. Utwórz model, który jest oparty na zasadach ustalonych przez algorytm podczas fazy szkolenia.
  2. Przetestuj model na zestawie danych weryfikacyjnych – dane są podawane do modelu, a przewidywane wartości są porównywane z rzeczywistymi. W ten sposób model jest testowany pod kątem dokładności.
  3. użyj modelu na nowych przychodzących danych i podejmuj działania na podstawie wyników modelu.

Inne ważne algorytmy:

modele predykcyjne występują w różnych formach. Istnieją różne metody, które można wykorzystać do stworzenia modelu, a większość z nich jest opracowywana przez cały czas.,

najpopularniejsze modele predykcyjne to:

Modele liniowe: jest to bardzo szeroko stosowany algorytm statystyczny do budowy modelu relacji między dwiema zmiennymi. Jedna zmienna nazywana jest zmienną predykcyjną, której wartość jest zbierana w drodze eksperymentów, podczas gdy druga zmienna nazywana jest zmienną odpowiedzi, której wartość pochodzi ze zmiennej predykcyjnej.

drzewa decyzyjne( znane również jako drzewa klasyfikacyjne i regresyjne lub koszyk): jest to Wykres używany do przedstawiania możliwości i ich wyników w postaci drzewa., Węzły na wykresie reprezentują zdarzenie lub wybór, a krawędzie wykresu reprezentują reguły lub warunki decyzji.

Maszyny wektorowe wsparcia (SVM) w uczeniu maszynowym: maszyna wektorowa wsparcia przeszukuje najbliższe punkty i jest znana jako ” wektory wsparcia „” nazwa wynika z faktycznego faktu, że punkty są jak wektory, które najprostsza linia „zależy od” lub jest „obsługiwana przez” najbliższe punkty.

Po wykryciu najbliższych punktów rysuje linię łączącą je wykonując odejmowanie wektorów (punkt A – punkt B)., Maszyna wektora podparcia określa wtedy, że najlepszą linią oddzielającą jest linia przecinająca-i prostopadła do linii łączącej.

Naive Bayes: jest to algorytm uczenia maszynowego używany głównie do problemów z klasyfikacją. Jest ona oparta na twierdzeniu prawdopodobieństwa Bayesa lub alternatywnie znana jako reguła Bayesa lub prawo Bayesa. Jest on używany do klasyfikacji tekstu, który obejmuje wysokiej wymiarowe zestawy danych treningowych.

jest to prosty algorytm i znany ze swojej skuteczności szybkiego tworzenia modeli i przewidywania za pomocą tego algorytmu., Algorytm Bayesa służy przede wszystkim do rozwiązywania problemu klasyfikacji tekstu. Dlatego zalecamy dokładne zapoznanie się z algorytmem.,

przykłady: filtracja spamu, klasyfikacja artykułów prasowych i analiza sentymentalna

twierdzenie Bayesa reprezentowane przez następujące równanie:

  • : prawdopodobieństwo (prawdopodobieństwo warunkowe) wystąpienia zdarzenia pod warunkiem, że zdarzenie jest prawdziwe
  • oraz: prawdopodobieństwo wystąpienia zdarzenia i odpowiednio
  • : prawdopodobieństwo wystąpienia zdarzenia pod warunkiem, że zdarzenie jest prawdziwe

wnioski

w najbliższej przyszłości, rosnące zapotrzebowanie na analitykę predykcyjną może wiązać się z dołączeniem specjalistów z innych strumieni., Jeśli chcesz uzyskać przewagę nad rówieśnikami i być częścią tej nowej drogi rozwoju, możesz zapoznać się z naszym certyfikowanym kursem analityki biznesowej NSE, a także z PGD w dziedzinie Data Science.

Leave a Comment