Først må du vurdere følgende to spørsmål for å gjennomføre analysen.
- Hva slags data trenger du?
- Hvordan kan du få tilgang til den?
Svare på disse spørsmålene er kritisk, men ikke alltid grei. Selvfølgelig, et Google-søk kunne føre til resultater, men å spørre kolleger om råd kan også være nyttig. Tilbringe litt tid med disse spørsmålene før du er sikker på at du har funnet riktig svar.,
I et av prosjektene mine, jeg trengte å få tilgang til økonomiske data fra tyske selskaper til å analysere effekten av et nytt obligatorisk accounting standard på bid-ask spread.
Heldigvis, min professor følger oss med en Thomson Reuters-kontoen din, og jeg kunne bruke Datastrømmen for å få tilgang til økonomiske data for disse selskapene. Du skulle tro at bare ved hjelp av denne databasen vil være tilstrekkelig og at jeg kunne endelig gjøre det virkelige arbeidet.
False! Når du samler inn data for disse selskapene, og jeg endte opp med 8 forskjellige excel-ark som jeg hadde liksom sammen i ett data ramme.,
Datastrømmen gitt meg noen statisk selskapet informasjon som ville ende opp som min viktigste ark.
Den andre excel-ark som jeg fikk hadde følgende format fordi jeg var tilgang til time-series data for hvert selskap.
Så hvordan kan jeg få slike data inn i en meningsfull format, slik at jeg kan bruke den sammen med annen informasjon om selskapet?
La oss utføre en av mine beregninger, slik at du får ideen., Jeg hadde to ark — en for budet priser og en for å be om priser. Det jeg trengte var gjennomsnittlig relativ bid-ask spread.
Først, jeg lastet data og kontrollert for manglende verdier. Jeg oppdaget en rad som var helt fraværende, og slettet det for begge datasettene.
Så jeg beregnet bid-ask spread ved å trekke budet pris fra ask pris.
Så hadde jeg for å beregne den relative bid-ask spread., Derfor, jeg måtte importere den daglige aksjekurser, slettet 149th rad, og beregnet bid-ask spread i forhold til pris.
til Slutt, jeg beregnet gjennomsnittet av de relative bid-ask spread og flettet det inn i den statiske data ramme.
Dette er bare koden for en ekstra variabel! Tenk å gjøre det for 20 eller 30 andre variabler som du ikke får ut-av-det-box fra Datastrømmen. Dette tar veien lenger enn 5 minutter.,
Det er mange andre gjennomførbare metoder for hvordan du kan lage din egen datasettet fra bunnen av. Du kan for eksempel gjennomføre en god gammel undersøkelse eller skrape tweets fra Twitter. Til syvende og sist det kommer an på hva slags data du trenger.
Okay, det er tid for en rask vurdering.
Fordeler:
- Funksjoner som er inkludert basert på formålet med undersøkelsen spørsmål eller oppgave. Ikke vice versa. Dette bidrar til å bare bruke meningsfulle data.
- Det er sporbar hvordan variablene ble opprettet.
Ulemper: