majitel datový sklad se musí rozhodnout, jak reagovat na změny v popisech dimenzionální bytosti, jako Zaměstnanec, Zákazník, Produkt, Dodavatel, Umístění a další. Za 30 let studia tohoto problému jsem zjistil, že jsou zapotřebí pouze tři různé druhy odpovědí. Říkám těmto pomalu se měnícím rozměrům (SCD) typy 1, 2 a 3. Ve sloupci minulého měsíce jsem popsal typ 1, který přepíše změněné informace do dimenze., V tomto sloupci popisuji typy 2 a 3.
Typ 2: Přidat nový rozměr záznam
změňme scénář předchozího sloupce, kde jsem přepsal pole domovského města v záznamu zaměstnanců Ralpha Kimballa, abych předpokládal, že Ralph Kimball se skutečně přestěhoval ze Santa Cruz do Boulder Creek 18.července 2008. Předpokládejme, že naší zásadou je přesné sledování domovských adres zaměstnanců v datovém skladu. Jedná se o klasickou změnu typu 2.
typ 2 SCD vyžaduje, abychom vydali nový záznam zaměstnanců pro Ralph Kimball s účinností od 18. července 2008., To má mnoho zajímavých vedlejších účinků:
- typ 2 vyžaduje, abychom zobecnili primární klíč dimenze zaměstnance. Pokud je přirozeným klíčem zaměstnance Ralpha Kimballa G446, pak ten přirozený klíč bude „lepidlo“, které drží dohromady více záznamů Ralpha Kimballa. Nedoporučuji vytvářet inteligentní primární klíč pro SCDs typu 2, který obsahuje doslovný přírodní klíč. Problémy s smart klíče se stal zvláště zřejmé, pokud jste integrovat několik neslučitelné HR systémů s různě formátovaný přírodní klíče., Spíše byste měli vytvořit zcela umělé primární klíče, které jsou jednoduše postupně přiřazeny celá čísla. Říkáme těmto klíčům náhradní klíče. Musíte vytvořit nový náhradní primární klíč, kdykoli zpracujete změnu typu 2 v dimenzi.
- kromě primárního náhradního klíče doporučuji přidat pět dalších polí do dimenze, která prochází zpracováním typu 2. Tato pole jsou znázorněna na obrázku 1. Data jsou razítka na plný úvazek, která představují rozpětí času mezi tím, kdy se změna stala účinnou a kdy se další změna stane účinnou., Konec-efektivní-datetime typu 2 Rozměr záznamu musí být přesně roven begin-efektivní-datetime další změny pro tento člen dimenze. Nejaktuálnější záznam dimenze musí mít v budoucnu konečný efektivní-datetime rovnající se fiktivnímu datetime. Důvod změny by měl být čerpán z předem naplánovaného seznamu důvodů změny, v našem příkladu atributů zaměstnance. Konečně, aktuální příznak poskytuje rychlý způsob, jak přesně izolovat sadu členů dimenze, která je platná v okamžiku dotazu., Těchto pět administrativních polí umožňuje koncovým uživatelům a aplikacím provádět mnoho výkonných dotazů.
- s rozměrem, který prochází zpracováním typu 2, je třeba věnovat velkou pozornost použití správných současných náhradních klíčů z této dimenze v každé postižené tabulce faktů. To zajišťuje, že správné dimenze profily jsou spojeny s činností fakt tabulky. Proces extrakce, transformace a zatížení (ETL) pro zarovnání tabulek dimenzí s tabulkami faktů v době načítání se nazývá náhradní klíčové potrubí a je rozsáhle zahrnut v mých článcích a knihách.,
typ 3: Přidat nové pole
přestože SCDs typu 1 a 2 jsou primárními technikami workhorse pro reakci na změny v dimenzi, potřebujeme třetí techniku pro manipulaci s alternativní realitou. Na rozdíl od fyzických atributů, které mohou mít v daném okamžiku pouze jednu hodnotu, mohou mít některé atributy přiřazené uživatelem legitimně více než jednu přiřazenou hodnotu v závislosti na pohledu pozorovatele. Například kategorie produktů může mít více než jednu interpretaci., V papírnictví lze značkovací pero přiřadit do kategorie zboží pro domácnost nebo do kategorie uměleckých potřeb. Koncoví uživatelé a aplikace si musí být schopni vybrat v době dotazu, která z těchto alternativních skutečností platí.
požadavek na alternativní pohled na realitu atributu dimenze je obvykle doprovázen jemným požadavkem, aby samostatné verze reality byly k dispozici po celou dobu v minulosti a v budoucnu, i když žádost o zviditelnění těchto skutečností dorazila do datového skladu dnes.,
v nejjednodušší variantě existuje pouze jedna alternativa-realita. V tomto případě pro příklad kategorie produktů přidáme nové pole v dimenzi, možná nazývané alternativní Kategorie. Pokud primární kategorií našeho značkovacího pera bývalo zboží pro domácnost a nyní by měly být umělecké potřeby, pak v úpravě typu 3 zatlačíme štítek pro domácnost do pole alternativní kategorie a aktualizujeme pole pravidelné kategorie s uměleckými potřebami přepsáním. Přepsání krok je podobný typu 1 SCD a vyvolává všechny stejné námitky v minulém měsíci sloupci.,
se stroji typu 3 na místě mohou koncoví uživatelé a aplikace plynule přepínat mezi těmito alternativními skutečnostmi. Pokud prostředí vyžaduje více než jednu alternativní realitu,lze tento přístup zobecnit přidáním dalších alternativních polí, i když tento přístup zjevně nepřekračuje rámec několika možností.
tři SCD přístupy k manipulaci s časovým rozptylem v rozměrech mají obrovskou použitelnost v reálných situacích, se kterými se datový sklad setkává., Zejména typ 2 nám umožňuje splnit slib datového skladu, abychom věrně zachovali historii.