først skal du vurdere følgende to spørgsmål for at udføre din analyse.
- hvilken type data Har du brug for?
- Hvordan kan du få adgang til det?
besvarelse af disse spørgsmål er kritisk, men ikke altid ligetil. Selvfølgelig kan en Google-søgning føre til resultater, men det kan også være nyttigt at bede kammerater om råd. Brug lidt tid med disse spørgsmål, indtil du er sikker på, at du har fundet det rigtige svar.,
i et af mine projekter havde jeg brug for at få adgang til økonomiske data fra tyske virksomheder for at analysere effekten af en ny obligatorisk regnskabsstandard på bid-ask spreads.heldigvis gav min professor os en Thomson Reuters-konto, og jeg kunne bruge Datastream til at få adgang til disse selskabers økonomiske data. Man skulle tro, at det blot ville være tilstrækkeligt at bruge denne database, og at jeg endelig kunne gøre det rigtige arbejde.
falsk! Da jeg indsamlede dataene for disse virksomheder, endte jeg med 8 forskellige e .cel-ark, som jeg på en eller anden måde måtte smelte sammen til en dataramme.,
Datastream gav mig nogle statiske firmaoplysninger, der ville ende som mit hovedark.
Den anden excel-arkene, at jeg fik havde følgende format, fordi jeg var adgang time-series data for hvert enkelt selskab.
Så hvordan kan jeg få sådanne data til en meningsfuld format, så jeg kan bruge det sammen med de andre virksomheder information?
lad os udføre en af mine beregninger, så du får ideen., Jeg havde to ark-en til budpriser og en til spørgepriser. Hvad jeg havde brug for var den gennemsnitlige relative bud-ask spredning.
først indlæste jeg dataene og kontrollerede for manglende værdier. Jeg opdagede en række, der manglede helt og slettede den for begge datasæt.
derefter beregnede jeg bud-ask-spredningen ved at trække budprisen fra spørgeprisen.
så måtte jeg beregne den relative bid-ask spredning., Derfor måtte jeg importere de daglige aktiekurser, slette den 149. række og beregnet bud-ask spreads i forhold til prisen.
endelig beregnet jeg gennemsnittet af de relative bud-ask spreads og fusionerede det i den statiske dataramme.
Dette er kun koden for en ekstra variabel! Forestil dig at gøre det for 20 eller endda 30 andre variabler, som du ikke kan komme ud af boksen fra Datastream. Det tager længere tid end 5 minutter.,
Der er mange andre mulige metoder til, hvordan du kan oprette dit eget datasæt fra bunden. Du kan for eksempel foretage en god gammel undersøgelse eller skrabe t .eets fra T .itter. I sidste ende afhænger det af, hvilken type data du har brug for.
Okay, det er tid til en hurtig vurdering.
fordele:
- funktioner er inkluderet baseret på formålet med forskningsspørgsmålet eller opgaven. Ikke omvendt. Dette hjælper kun med at bruge meningsfulde data.
- det kan spores, hvordan variablerne blev oprettet.
ulemper: