F446 : Vytváření analytických funkcí nad datovým skladem

Kód faktoru:

F446

Autor:

Snítil, J. (KIT, VŠE)

Datum poslední úpravy:

2017-03-22

Podstatné charakteristik faktoru

1. Účel, smysl faktoru

Účelem využití faktoru je zajištění analytických funkcí přímo v datovém skladu.

2. Obsahové vymezení faktoru analytických funkcí datového skladu

Koncept se zabývá analytickými funkcemi a souvisejícími možnostmi datového skladu. Analytických nástrojů, které využívají data z datových skladů, je celá řada. Tyto nástroje svým uživatelům poskytují rozsáhlé možnosti analýzy dat. V praxi se lze setkat s častým použitím těchto nástrojů ve formě tlustých klientů případně dedikovaných serverů. Toto použití je vzhledem k vývoji a způsobu využívání těchto analytických nástrojů logické.

V začátcích při malých datových množinách je možné tyto nástroje použít přímo na klientských stanicích, kdy data jsou prvně načtena z datového zdroje (často z datového skladu) do tohoto nástroje a poté jsou v tomto nástroji analyzována. S rostoucí množinou dat začíná být toto použití problematické, a to především z důvodů nedostatečných výpočetních zdrojů na straně klientské stanice. Jedním z nabízejících se řešení je vytvoření dedikovaného analytického serveru. Tento server je daleko lépe škálovatelný a náročnost výpočtu je na tento server přenesena z klientské stanice. S dále rostoucí množinou dat nutnou k analýzám se objevují problémy i při použití dedikovaného analytického serveru.

Jedná se například o problémy s migrací dat. Pokud množství dat začne přesahovat velikost stovek gigabitů, stává se migrace obtížná. Typicky se jedná o zatížení přenosové infrastruktury, zdrojového systému i cílového systému. Toto zatížení nemusí být kritické, obvykle ale dochází ke značným zpožděním. V běžné praxi také nelze očekávat, že všechny tři zmíněné prvky budou plně vyhrazené analytickým potřebám. Tyto prvky musí plnit svoji obvyklou funkcionalitu a nelze je tedy dedikovat pro migraci dat. To vede buď k ještě větším prodlevám, nebo k přesunutí migrací dat do časového okna, kdy tyto systémy jsou méně využívané. V obou případech je uživatel nucen důkladněji plánovat harmonogram práce a to, jaká data budou kdy potřeba na analytickém serveru.

V případě nutnosti ad-hoc analýzy nad jinými než připravenými daty na analytickém serveru mohou být doby dodání této analýzy velmi dlouhé. Dalším možným problémem, který se objevuje při velké množině dat určené k analýzám, je samotná škálovatelnost analytického serveru. Může se jednat o problémy spojené hardwarovým škálováním, cenou za dodatečné licence, které pokryjí výkonové nároky nebo i o samotný software, který musí umožnit daný hardware efektivně využít, například tím, že je schopný danou úlohu vhodně paralelizovat. Dalšími nevýhodami může být samotné uložení takto velké množiny dat na analytickém serveru, kdy v podstatě dochází k jejich duplikaci.

Jedním z možných řešení těchto problémů může být přenesení výpočtu přímo do datového skladu, kdy je uživateli nabídnuta podobná funkcionalita a prostředí jako v případě analytických aplikací. Toto použití datového skladu klade nároky na použitou technologii datového skladu, která musí toto použití vhodně podporovat tak, aby samotný výpočet mohl probíhat přímo v datovém skladu. Výhodou tohoto použití datového skladu je, že nedochází k nutnosti migrovat data a tedy není nutné vytvářet celá řešení kolem této migrace. Veškerá data uložená v datovém skladu také mohou být okamžitě dostupná pro analytické potřeby. V případě hlubších analýz a například při vytváření různých modelů může analytikům poskytnout větší efektivitu práce a výrazně zkrátit dobu potřebnou pro dodání výsledků.

3. Efekty a přínosy faktoru pro kvalitu řízení podniku a IT

Jedná o sdílený výkon, kdy není potřeba výkonově škálovat dvě technologické platformy a řešit integraci mezi nimi.
Je možné takto ušetřené finanční prostředky investovat právě do jedné technologie, což může přinést flexibilitu v rámci přesunů výpočetního výkonu podle aktuálních priorit, kterými může být například zpracování dat, reporting či právě pokročilá analytika. Pokud nastane mimořádná situace a je potřeba akutně zpracovat určitá data, lze výkon alokovat právě na tuto činnost. V případě dedikovaného analytického serveru by datový sklad při takového situaci nemusel mít dostatečný výkon na poskytnutí aktuálních dat dedikovanému analytickému serveru, což by mohlo způsobit, že jeho výkonová kapacita by nemohla být využitá.
Všechna data v datovém skladu jsou ihned k dispozici pro analytické použití. Není potřeba provádět migraci či jejich úpravu.
Za možnou důležitou výhodu tohoto konceptu lze označit relativně jednoduchou přenositelnost ze stávajících řešení, které jsou již v organizaci používané pro analytické úlohy.
Pokud analytická platforma datového skladu podporuje tyto technologie nebo jazyky je jejich převod relativně jednoduchý. V podstatě se jedná jen o napojení na dané rozhraní poskytované danou platformou. S relativně nízkou pracností lze tak řešení přesunout do technologie datového skladu a využívat tak již zmíněné výhody tohoto rozšiřujícího konceptu.

4. Otázky, roblémy a omezení spojené s faktorem

Při použití tohoto konceptu v reálném prostředí je potřeba zvážit dodatečné požadavky na výpočetní výkon, které vzniknou při použití technologie datového skladu i pro analytické potřeby. Při volbě konkrétní technologie a jejího výpočetního výkonu je tedy potřeba do odhadu zahrnout kromě obvyklých výkonových požadavků, které jsou kladeny na datový sklad i požadavky související se specifickými analytickými úlohami, které zde budou zpracovávané.
Lze doporučit při použití tohoto konceptu navrhnout a provozovat vhodné řízení výpočetních zdrojů (tzv. Database Resource Management) právě s ohledem na analytické potřeby a jejich dopady do vytížení celého systému.
Při zvažování tohoto přesunu nebo při výběru nové dodatečné technologie v rámci datového skladu pro analytické použití je možné v praxi téměř vždy doporučit provést podobné vyzkoušení na konkrétních příkladech. Zejména se jedná o případy, kdy je již například dané analytické oddělení specializováno na používání určitého analytického nástroje. Přeučení a adaptace zcela nové technologie by poté mohla být velmi časově i finančně náročná. Pokud ale nová technologie umožňuje vysokou míru možné integrace, přechod a kombinace daných technologií by mohla být vysoce přínosná.
Při praktickém použití tohoto konceptu je potřeba prověřit jeho chování na konkrétní zvolené technologii a případně zařadit čištění dočasných objektů mezi pravidelně prováděnou údržbu.