hoe gegevens te verzamelen voor uw analyse

eerst moet u de volgende twee vragen beoordelen om uw analyse uit te voeren.

  • Wat voor soort gegevens hebt u nodig?
  • Hoe kunt u toegang krijgen?

Het beantwoorden van deze vragen is cruciaal, maar niet altijd eenvoudig. Natuurlijk, een Google-zoekopdracht kan leiden tot resultaten, maar het vragen van collega ‘ s om advies kan ook nuttig zijn. Breng wat tijd door met deze vragen totdat je zeker weet dat je het juiste antwoord hebt gevonden.,

In een van mijn projecten moest ik toegang krijgen tot financiële gegevens van Duitse bedrijven om het effect van een nieuwe verplichte boekhoudkundige standaard op bied-en laatspreads te analyseren.gelukkig leverde mijn professor ons een Thomson Reuters account, en ik kon Datastream gebruiken om toegang te krijgen tot de financiële gegevens van deze bedrijven. Je zou denken dat het gewoon gebruiken van deze database voldoende zou zijn en dat ik eindelijk het echte werk kon doen.

onwaar! Bij het verzamelen van de gegevens voor deze bedrijven, Ik eindigde met 8 verschillende excel sheets die ik moest een of andere manier samen te voegen in een data frame.,

Datastream gaf me wat statische bedrijfsinformatie die als mijn hoofdpagina zou eindigen.

de andere excel sheets die ik kreeg hadden het volgende formaat omdat ik tijdreeksgegevens voor elk bedrijf had.

dus hoe kan ik dergelijke gegevens in een zinvol formaat krijgen zodat ik ze samen met de andere bedrijfsinformatie kan gebruiken?

laten we een van mijn berekeningen uitvoeren zodat je het idee krijgt., Ik had twee bladen-een voor biedprijzen en een voor vraagprijzen. Wat ik nodig had was de gemiddelde relatieve bod-ask spread.

eerst heb ik de gegevens geladen en gecontroleerd op ontbrekende waarden. Ik zag een Rij die volledig ontbrak en verwijderde het voor beide datasets.

toen berekende ik de bied-laatspread door de bied-laatkoers van de vraagprijs af te trekken.

toen moest ik de relatieve bid-ask spread berekenen., Daarom moest ik de dagelijkse aandelenkoersen importeren, de 149ste rij verwijderen en de bied-laat spreads ten opzichte van de prijs berekenen.

tenslotte heb ik het gemiddelde van de relatieve bied-laat spreads berekend en samengevoegd in het statische gegevensframe.

Dit is slechts de code voor één extra variabele! Stel je voor dat je dat doet voor 20 of zelfs 30 andere variabelen die je niet out-of-the-box van Datastream kunt krijgen. Dit duurt veel langer dan 5 minuten.,

er zijn vele andere haalbare methoden om uw eigen dataset vanuit het niets te maken. Je kunt bijvoorbeeld een goede oude enquête uitvoeren of tweets van Twitter schrapen. Uiteindelijk hangt het af van wat voor soort gegevens je nodig hebt.

Oké, het is tijd voor een snelle beoordeling.

voordelen:

  • kenmerken zijn opgenomen op basis van het doel van de onderzoeksvraag of-taak. Niet andersom. Dit helpt om alleen zinvolle gegevens te gebruiken.
  • het is traceerbaar hoe de variabelen zijn gemaakt.

nadelen:

Leave a Comment