nabízený jako další velká věc, prediktivní analýza je nastavena tak, aby dominovala pokročilému analytickému prostředí v příštích několika letech. Analytics India platová studie 2017 provedená AnalytixLabs & Analytics India Magazine (AIM) odhaluje, že pokročilí odborníci na analytiku/prediktivní modelování jsou lépe placeni ve srovnání se svými vrstevníky.,
roční plat v Lacs
zdroj: AnalytixLabs & AIM
tak pojďme pochopit v detailech, jak vytvořit prediktivní model a znát nejdůležitější algoritmy, které je třeba se naučit v prediktivní analytice.
prediktivní analytika je odvětví pokročilé datové analytiky, která zahrnuje použití různých technik, jako je strojové učení, statistické algoritmy a další techniky dolování dat k předpovědi budoucích událostí na základě historických dat.,
model je pak aplikován na aktuální data předpovědět, jaký bude další postup nebo návrh pro výsledek.
při sestavování prediktivního analytického modelu jsou k dispozici různé algoritmy v kategoriích dolování dat, strojového učení a statistiky. Při zkoumání dat je snazší přijmout další rozhodnutí.
Jak vytvořit prediktivní model?,
Konstrukci prediktivního modelu je jednoduchá:
- Získat data od různých zdrojů z jakéhokoli ETL nástroj
Příklad: viz iris dat – https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
- Rozdělit datový soubor na dvě části (vzorek a ověřování dat)
Build Vzorku Dat:
Postavit model ze vzorku dat, který poskytuje informace o druh květiny a její měření.,ariable se snažíme předvídat)
Obecně platí, že existuje mnoho prediktivní analýzy modelů a mohou být rozděleny do 2 typy:
- Klasifikace – předpovídají hodnotu, která je diskrétní přes kategorie a konečný bez pořadí
- Regrese – odhad hodnoty, která je kontinuální přes číselné množství a nekonečné s objednáním:
široce používané algoritmy v analýze dat jsou lineární regrese a neuronové sítě,
Lineární regrese: jednoduchý regresní model předpokládá, že lineární vztah existuje mezi vstupní a výstupní proměnné.,
Neuronové sítě: neuronová síť inspirovaný lidský mozek, síť neuronů, které jsou vzájemně propojené, že je to je soubor výpočetních jednotek, které trvá sadu vstupů a převod výsledku do předem definovaného výstupu. Výpočetní jednotky jsou uspořádány ve vrstvách tak, aby vlastnosti vstupního vektoru mohly být spojeny s funkcí výstupního vektoru.
myšlenkou je často trénovat neuronové sítě, aby modelovaly vztahy v poskytnutých datech.,
- Vytvořte model, který je založen na pravidlech stanovených algoritmem během fáze tréninku.
- Otestujte model v sadě ověřovacích dat – data jsou přiváděna do modelu a předpokládané hodnoty jsou porovnány se skutečnými hodnotami. Model je tedy testován na přesnost.
- použijte model na nových příchozích datech a podnikněte kroky na základě výstupu modelu.
další důležité algoritmy:
prediktivní modely přicházejí v různých formách. Existují různé metody, které lze použít k vytvoření modelu, a většina z nich se vyvíjí po celou dobu.,
nejběžnější prediktivní modely jsou:
lineární modely: jedná se o velmi široce používaný statistický algoritmus pro vytvoření vztahového modelu mezi dvěma proměnnými. Jedna proměnná se nazývá prediktor proměnnou, jejíž hodnota je získávána prostřednictvím experimentů, zatímco druhá proměnná se nazývá proměnná odezvy, jejichž hodnota je odvozena od prediktor proměnnou.
rozhodovací stromy (také známé jako klasifikační a regresní stromy nebo vozík): jedná se o graf používaný k reprezentaci možností a jejich výsledku ve formě stromu., Uzly v grafu představují událost nebo volbu a okraje grafu představují rozhodovací pravidla nebo podmínky.
Support Vector Machines (SVMs) in Machine Learning: Support Vector machine vyhledává nejbližší body a je známý jako „support vectors“ “ název je výsledkem skutečnosti, že body jsou jako vektory, na kterých nejjednodušší řádek „závisí“ nebo je „podporován“ nejbližšími body.
jakmile zjistí nejbližší body, nakreslí čáru, která je spojuje tím, že provede vektorové odčítání (bod a – bod B)., Podpůrný vektorový stroj pak prohlašuje, že nejlepší oddělovací čára je čára, která rozděluje — a je kolmá na-spojovací čáru.
Naive Bayes: jedná se o algoritmus strojového učení, který se většinou používá pro klasifikační problémy. Je založen na Bayesově pravděpodobnostní větě nebo alternativně známý jako Bayesovo pravidlo nebo Bayesův zákon. Používá se pro klasifikaci textu, která zahrnuje vysoce dimenzionální tréninkové datové sady.
jedná se o jednoduchý algoritmus a známý svou účinností rychle vytvářet modely a předpovídat pomocí tohoto algoritmu., Naivní Bayesův algoritmus je primárně zvažován pro řešení problému klasifikace textu. Proto doporučujeme algoritmus důkladně naučit.,
příklady: filtrace spamu, klasifikace novinových článků a sentimentální analýza
Bayesova věta reprezentovaná následující rovnicí:
- : Pravděpodobnost (podmíněná pravděpodobnost) výskytu události vzhledem k události je pravdivá
- a: pravděpodobnosti výskytu události a příslušně
- : pravděpodobnost výskytu dané události je pravdivá
závěr
v blízké budoucnosti, rostoucí poptávka po prediktivní analytice může vidět profesionály z jiných proudů, kteří se připojují k rozjetému vlaku., Pokud chcete získat výhodu nad svými vrstevníky a být součástí této nové růstové třídy, můžete prozkoumat náš kurz NSE Certified Business Analytics a PGD v oblasti datové vědy.