tippad som nästa stora sak, är en prediktiv analys redo att dominera det avancerade analyslandskapet under de närmaste åren. Analytics India Salary Study 2017 utförd av AnalytixLabs & Analytics India Magazine (AIM) avslöjar att avancerade analytics/prediktiva modelleringspersonal är bättre betalda jämfört med sina kamrater.,
årslön i Lacs
källa: AnalytixLabs& syfte
så låt oss förstå i detalj hur man bygger en prediktiv modell och känna till de viktigaste algoritmerna som ska läras i prediktiv analys.
Predictive Analytics är en gren av avancerad dataanalys som innebär användning av olika tekniker som maskininlärning, statistiska algoritmer och andra datautvinningstekniker för att förutse framtida händelser baserade på historiska data.,
modellen tillämpas sedan på aktuella data för att förutsäga vad som skulle vara nästa åtgärd eller förslag för resultatet.
det finns olika algoritmer tillgängliga i kategorierna data mining, maskininlärning och statistik när du monterar din prediktiva analysmodell. När du utforskar data blir det lättare att fatta ytterligare beslut.
hur man bygger en prediktiv modell?,
konstruera en prediktiv modell är enkel:
- få data – från olika källor från alla ETL verktyg
exempel: se iris data – https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
- dela upp datauppsättningen i två delar (prov-och verifieringsdata)
bygga provdata:
bygga en modell från provet uppgifter som ger information om arter av blomma och dess mätningar.,ariable vi försöker förutsäga)
i allmänhet finns det många prediktiva analysmodeller och de kan kategoriseras i 2 typer:
- klassificering – förutsäga ett värde som är diskret genom kategorin och finite utan order
- Regression – förutsäga ett värde som är kontinuerligt genom numerisk kvantitet och oändlig med beställning:
de allmänt använda algoritmerna i dataanalys är linjär regression och neuralt nätverk
linjär regression: den enkla regressionsmodellen förutsätter att det linjära förhållandet finns mellan indata och utdatavariabler.,
neuralt nätverk: ett neuralt nätverk inspirerat av den mänskliga hjärnan, ett nätverk av neuroner som är sammankopplade, det är en uppsättning beräkningsenheter, som tar en uppsättning ingångar och överför resultatet till en fördefinierad utgång. Beräkningsenheterna beställs ordnade i lager så att funktionerna hos en inmatningsvektor kan anslutas med funktionen hos en utmatningsvektor.
tanken bakom detta är ofta att coacha neurala nätverk för att modellera relationerna inom de angivna data.,
- skapa en modell som bygger på de regler som fastställts av algoritmen under träningsfasen.
- testa modellen på verifieringsdatauppsättningen – data matas till modellen och de förutsagda värdena jämförs med de faktiska värdena. Således testas modellen för noggrannhet.
- använd modellen på nya inkommande data och vidta åtgärder baserat på modellens utgång.
andra viktiga algoritmer:
prediktiva modeller finns i olika former. Det finns olika metoder som kan användas för att skapa en modell, och de flesta utvecklas hela tiden.,
de vanligaste prediktiva modellerna är:
linjära modeller: det är en mycket vanlig statistisk algoritm för att bygga en relationsmodell mellan två variabler. En variabel kallas prediktorvariabel vars värde samlas in genom experiment, medan den andra variabeln kallas svarsvariabel vars värde härleds från prediktorvariabeln.
beslutsträd (även känd som klassificering och Regressionsträd eller vagn): det är en graf som används för att representera möjligheter och deras resultat i form av ett träd., Noderna i diagrammet representerar en händelse eller ett val och grafens kanter representerar beslutsreglerna eller villkoren.
Support Vector Machines (SVMs) i maskininlärning: support vector machine söker de närmaste punkterna och är känd som ”support vectors” ” namnet är som ett resultat av det faktiska faktum att punkter är som vektorer som den enklaste linjen ”beror på” eller ”stöds av” närmaste punkter.
När den upptäcker de närmaste punkterna drar den en linje som förbinder dem genom att göra vektor subtraktion (punkt A – punkt B)., Stödvektormaskinen förklarar sedan den bästa separationslinjen för att vara den linje som bisects — och är vinkelrätt mot — anslutningslinjen.
naiva Bayes: det är en maskininlärningsalgoritm som oftast används för klassificeringsproblem. Den är baserad på Bayes’ Sannolikhet teorem eller alternativt kallas Bayes’ regel eller Bayes’ lag. Det används för textklassificering som innebär högdimensionella träningsdataset.
det är en enkel algoritm och känd för sin effektivitet för att snabbt bygga modeller och göra förutsägelser med hjälp av denna algoritm., Naiv Bayes algoritm anses främst för att lösa textklassificeringsproblem. Rekommendera därför att lära algoritmen noggrant.,
exempel: skräppostfiltrering, klassificering av nyhetsartiklar och sentimental analys
Bayes teorem representerad av följande ekvation:
- : Sannolikhet (villkorlig sannolikhet) för förekomst av en händelse med tanke på händelsen är sant
- och: sannolikheter för förekomsten av en händelse och respektive
- : Sannolikhet för förekomsten av händelsen med tanke på händelsen är sant
slutsats
inom en snar framtid kan ökad efterfrågan på prediktiv analys se yrkesverksamma från andra strömmar som går med i bandwagon., Om du vill få en kant över dina kamrater och vara en del av denna nya growth avenue, kan du utforska vår NSE Certified Business Analytics kurs samt PGD i datavetenskap.