Jak shromažďovat Data pro vaši analýzu

nejprve musíte pro provedení analýzy posoudit následující dvě otázky.

  • jaké údaje potřebujete?
  • jak k němu máte přístup?

odpověď na tyto otázky je kritická, ale ne vždy přímočará. Vyhledávání Google by samozřejmě mohlo vést k výsledkům, ale také by mohlo být užitečné požádat vrstevníky o radu. Strávit nějaký čas s těmito otázkami, dokud si nejste jisti, že jste našli správnou odpověď.,

V jednom z mých projektů jsem potřeboval přístup k finančním údajům od německých společností, abych analyzoval vliv nového povinného účetního standardu na spready bid-ask.

naštěstí nám můj profesor poskytl účet Thomson Reuters a mohl bych použít Datastream pro přístup k finančním údajům těchto společností. Mysleli byste si, že pouhé použití této databáze by stačilo a že bych mohl konečně udělat skutečnou práci.

False! Při shromažďování dat pro tyto společnosti jsem skončil s 8 různými listy aplikace excel, které jsem musel nějak sloučit do jednoho datového rámce.,

Datastream mi poskytl nějaké statické informace o společnosti, které by skončily jako můj hlavní list.

ostatní listy aplikace excel, které jsem dostal, měly následující formát, protože jsem přistupoval k datům časových řad pro každou společnost.

tak jak mohu získat taková data do smysluplného formátu, abych je mohl použít spolu s dalšími informacemi o společnosti?

pojďme provést jeden z mých výpočtů, abyste získali nápad., Měl jsem dva listy-jeden pro nabídkové ceny a jeden pro prodejní ceny. To, co jsem potřeboval, bylo průměrné relativní rozpětí nabídek.

Nejprve jsem načetl data a kontroloval chybějící hodnoty. Všiml jsem si jednoho řádku, který zcela chyběl, a odstranil jej pro obě datové sady.

pak jsem vypočítal rozpětí nabídky ask odečtením nabídkové ceny od požadované ceny.

Pak jsem musel vypočítat relativní bid-ask spread., Proto jsem musel importovat denní ceny akcií, vypouští 149 řadě, a vypočítá bid-ask rozpětí vzhledem k ceně.

nakonec jsem vypočítal průměr relativních spreadů bid-ask a sloučil je do statického datového rámce.

Toto je pouze kód pro jednu další proměnnou! Představte si, že to děláte pro 20 nebo dokonce 30 dalších proměnných,které nemůžete získat z Datastream. To trvá déle než 5 minut.,

existuje mnoho dalších proveditelných metod, jak si můžete vytvořit vlastní sadu dat od nuly. Můžete například provést starý dobrý průzkum nebo škrábat tweety z Twitteru. Nakonec záleží na tom, jaké údaje potřebujete.

dobře, je čas na rychlé posouzení.

výhody:

  • funkce jsou zahrnuty na základě účelu výzkumné otázky nebo úkolu. Ne naopak. To pomáhá používat pouze smysluplná data.
  • je sledovatelné, jak byly proměnné vytvořeny.

nevýhody:

Leave a Comment