F445 : Historizace

Kód faktoru:

F445

Autor:

Snítil, J. (KIT, VŠE)

Datum poslední úpravy:

2017-03-22

Podstatné charakteristik faktoru

1. Účel, smysl faktoru

Účelem faktoru historizace je zajistit potřebu v cílovém systému udržovat historickou kolekci dat (v datovém skladu) a podle toho i data vhodně transformovat.

2. Obsahové vymezení faktoru historizace

Koncept Historizace se zabývá splněním části definice datového skladu Williama Inmona v tom smyslu, že datová kolekce je historická. To znamená, že je možné určit, kdy která data byla či jsou platná. Z jiného úhlu pohledu lze také říci, že všechna data v datovém skladu jsou určitým způsobem identifikována prvky dimenze času. Jelikož se jedná o základní funkčnost datového skladu (ať v užším či širším pojetí) existuje mnoho řešení jak splnit tuto definiční podmínku. V tomto kontextu jsou podstatné možností historizace po použití konceptu CDC, tj. jaký dopad bude mít pro datový sklad situace, kdy přicházejí ze zdrojových systémů pouze provedené změny. Tím tento koncept logicky navazuje na rozšiřující koncept CDC (F465 ).

V takovém případě lze výstup z CDC považovat za první vrstvu datového skladu, kterou je možné označit jako první nultou vrstvu L0 (z anglického slova layer). Z této vrstvy je potřeba data transformovat do další vrstvy L1, která již obsahuje historickou kolekci dat.

Pokud zanedbáme přenosové a technologické zpoždění mezi zdrojovým systémem a vrstvou L0, tato vrstva obsahuje identický stav dat jako je na zdrojovém systému. Naopak vrstva L1 obsahuje poslední známý stav zdrojových systémů provedený v rámci poslední transformace. Tím, že nemáme k dispozici informaci, která data byla změněna v rámci vrstvy L0, musí se během této transformace L0 do L1 provést porovnání dat L0 vůči poslednímu dostupnému stavu dat ve vrstvě L1. Toto porovnání nutné pro identifikaci změn ve zdrojovém systému vůči historické kolekci ve vrstvě L1 je výkonově poměrně náročné a je spojené s dalšími možnými nevýhodami, které jsou podobné jako v případě použití celkového exportu dat ze zdrojových systémů.

Další možností je ta, kdy každý přenesený záznam obsahuje časovou značku určující čas změny na zdrojovém systému, ke které se daný záznam váže. Oproti předchozím dvěma mapováním přenáší do cílového systému pouze změny ze zdrojového systému. Při použití tohoto mapování nelze jednoduše zjistit stav zdrojového systému, ale tento stav se musí ze získaných změn dopočítat.

3. Efekty a přínosy faktoru pro kvalitu řízení podniku a IT

Celý koncept je použitelný a umožňuje zpracování dat z výstupů CDC, kde jsou obsaženy pouze změny provedené na zdrojovém systému, do další vrstvy, která reprezentuje celkový obraz dat na zdrojovém systému včetně historie.
Je možné dosáhnout značné univerzálnosti celého konceptu, kdy nehledě na zdrojový systém je možné vytvářet relativně jednoduše historické kolekce dat. Tyto historické kolekce dat poté mohou sloužit jako vstup pro následné transformační úlohy, které jsou obvykle pracnější a časově náročnější na vytvoření. Zvláště v případech, kdy tyto transformační úlohy jsou teprve vyvíjené, lze jim po jejich vytvoření a otestování nabídnout historická data a doplnit tak i zpětně nové datové struktury v dalších konsolidovaných vrstvách řešení datového skladu.
Možnost zpracování dat k určeným časům. Pokud je pro specifické potřeby nezbytné vycházet z dat platných k určeným časovým bodům například z důvodů porovnatelnosti reportů, nebo z potřeb sledovat vývojové trendy, toto řešení takového zpracování umožňuje a to i zpětně, kdy s využitím auditních dat lze dopočítat stav zdrojového systému k danému okamžiku.
Data zpracovaná pomocí tohoto konceptu lze také použít pro důkladné a/nebo velmi složité analýzy. Tato data totiž obsahují historii dat zdrojových systémů a zároveň jsou ve stejné podobě jako data zdrojových systémů. Je zde tedy minimální riziko možné ztráty určité informace, které existuje v obvyklých transformačních a agregačních datových úlohách. Také je zde minimalizované riziko možných chyb, které mohou být omylem způsobené transformačními úlohami.

4. Otázky, roblémy a omezení spojené s faktorem

Při použití tohoto rozšiřujícího konceptu je potřeba zvážit četnost zpracování vzhledem k výpočetní náročnosti. I když v tomto případě nedochází k porovnání dvou plných snímků, tedy celkovému stavu dat ve zdrojových systémech a poslednímu dostupnému stavu dat v historické kolekci, ale jsou v tomto případě zpracovávané pouze provedené změny na zdrojovém systému, určitá výpočetní náročnost na udržování historické kolekce zde existuje, zvláště pak v porovnání s řešeními, které historickou kolekci dat zdrojových systémů neudržují. V každém případě lze doporučit vhodně využívat optimalizace, které zvolená technologie pro zpracování dat nabízí.
Určitým rizikem, které je spojeno s tímto rozšiřujícím konceptem, je zejména v dlouhodobém horizontu nárůst objemu uchovávaných dat. Před zavedením tohoto konceptu je vhodné provést analýzy za účelem odhadnutí datového objemu historické kolekce a tempa jejího růstu. Řešením tohoto problému může být přesouvání starších dat z historické kolekce do jiného systému, který nabízí relativně levné uložení těchto dat. V případě potřeby je možné i historickou kolekci dat odmazávat a udržovat v ní například pouze poslední rok, tak aby bylo dosaženo optimálního poměru mezi cenou datového uložiště a přidanou hodnotou v ní obsažených dat.