hur du samlar in Data för din analys

först måste du bedöma följande två frågor för att utföra din analys.

  • vilken typ av data behöver du?
  • hur kan du komma åt den?

att svara på dessa frågor är kritiskt men inte alltid enkelt. Naturligtvis kan en Google-sökning leda till resultat, men att fråga kamrater om råd kan också vara till hjälp. Spendera lite tid med dessa frågor tills du är säker på att du har hittat rätt svar.,

i ett av mina projekt behövde jag få tillgång till finansiella data från tyska företag för att analysera effekten av en ny obligatorisk redovisningsstandard på bud-ask-spridningar.

lyckligtvis gav min professor oss ett Thomson Reuters-konto, och jag kunde använda Datastream för att få tillgång till de finansiella uppgifterna för dessa företag. Man skulle kunna tro att det skulle vara tillräckligt att bara använda denna databas och att jag äntligen skulle kunna göra det verkliga arbetet.

falskt! När jag samlade data för dessa företag hamnade jag med 8 olika excel-ark som jag på något sätt måste slå samman i en dataram.,

Datastream gav mig lite statisk företagsinformation som skulle hamna som mitt huvudblad.

de andra excel-arken som jag fick hade följande format eftersom jag hade tillgång till tidsseriedata för varje företag.

Så hur kan jag få sådana data till ett meningsfullt format så att jag kan använda det tillsammans med den andra företagsinformation?

låt oss utföra en av mina beräkningar så att du får idén., Jag hade två ark-en för budpriser och en för ask priser. Vad jag behövde var den genomsnittliga relativa bud-ask-spridningen.

först laddade jag data och kontrollerade för saknade värden. Jag såg en rad som helt saknades och raderade den för båda datauppsättningarna.

då beräknade jag bud-ask-spridningen genom att subtrahera budpriset från askpriset.

då var jag tvungen att beräkna den relativa bud-ask-spridningen., Därför var jag tvungen att importera de dagliga aktiepriserna, raderade den 149: e raden och beräknade bud-ask-spridningarna i förhållande till priset.

slutligen beräknade jag medelvärdet av de relativa bud-ask-spridningarna och slog samman den i den statiska dataramen.

detta är bara koden för ytterligare en variabel! Tänk dig att göra det för 20 eller till och med 30 andra variabler som du inte kan få ut-of-the-box från Datastream. Det tar längre tid än 5 minuter.,

det finns många andra möjliga metoder för hur du kan skapa din egen datauppsättning från början. Du kan till exempel göra en bra gammal undersökning eller skrapa tweets från Twitter. I slutändan beror det på vilken typ av data du behöver.

okej, det är dags för en snabb bedömning.

fördelar:

  • funktioner ingår baserat på syftet med forskningsfrågan eller uppgiften. Inte vice versa. Detta bidrar till att bara använda meningsfulla data.
  • Det går att spåra hur variablerna skapades.

nackdelar:

Leave a Comment