2. Obsahové vymezení faktoru analytických funkcí datového skladu
Koncept se zabývá analytickými funkcemi a souvisejícími možnostmi datového skladu. Analytických nástrojů, které využívají data z datových skladů, je celá řada. Tyto nástroje svým uživatelům poskytují rozsáhlé možnosti analýzy dat. V praxi se lze setkat s častým použitím těchto nástrojů ve formě tlustých klientů případně dedikovaných serverů. Toto použití je vzhledem k vývoji a způsobu využívání těchto analytických nástrojů logické.
V začátcích při malých datových množinách je možné tyto nástroje použít přímo na klientských stanicích, kdy data jsou prvně načtena z datového zdroje (často z datového skladu) do tohoto nástroje a poté jsou v tomto nástroji analyzována. S rostoucí množinou dat začíná být toto použití problematické, a to především z důvodů nedostatečných výpočetních zdrojů na straně klientské stanice. Jedním z nabízejících se řešení je vytvoření dedikovaného analytického serveru. Tento server je daleko lépe škálovatelný a náročnost výpočtu je na tento server přenesena z klientské stanice. S dále rostoucí množinou dat nutnou k analýzám se objevují problémy i při použití dedikovaného analytického serveru.
Jedná se například o problémy s migrací dat. Pokud množství dat začne přesahovat velikost stovek gigabitů, stává se migrace obtížná. Typicky se jedná o zatížení přenosové infrastruktury, zdrojového systému i cílového systému. Toto zatížení nemusí být kritické, obvykle ale dochází ke značným zpožděním. V běžné praxi také nelze očekávat, že všechny tři zmíněné prvky budou plně vyhrazené analytickým potřebám. Tyto prvky musí plnit svoji obvyklou funkcionalitu a nelze je tedy dedikovat pro migraci dat. To vede buď k ještě větším prodlevám, nebo k přesunutí migrací dat do časového okna, kdy tyto systémy jsou méně využívané. V obou případech je uživatel nucen důkladněji plánovat harmonogram práce a to, jaká data budou kdy potřeba na analytickém serveru.
V případě nutnosti ad-hoc analýzy nad jinými než připravenými daty na analytickém serveru mohou být doby dodání této analýzy velmi dlouhé. Dalším možným problémem, který se objevuje při velké množině dat určené k analýzám, je samotná škálovatelnost analytického serveru. Může se jednat o problémy spojené hardwarovým škálováním, cenou za dodatečné licence, které pokryjí výkonové nároky nebo i o samotný software, který musí umožnit daný hardware efektivně využít, například tím, že je schopný danou úlohu vhodně paralelizovat. Dalšími nevýhodami může být samotné uložení takto velké množiny dat na analytickém serveru, kdy v podstatě dochází k jejich duplikaci.
Jedním z možných řešení těchto problémů může být přenesení výpočtu přímo do datového skladu, kdy je uživateli nabídnuta podobná funkcionalita a prostředí jako v případě analytických aplikací. Toto použití datového skladu klade nároky na použitou technologii datového skladu, která musí toto použití vhodně podporovat tak, aby samotný výpočet mohl probíhat přímo v datovém skladu. Výhodou tohoto použití datového skladu je, že nedochází k nutnosti migrovat data a tedy není nutné vytvářet celá řešení kolem této migrace. Veškerá data uložená v datovém skladu také mohou být okamžitě dostupná pro analytické potřeby. V případě hlubších analýz a například při vytváření různých modelů může analytikům poskytnout větší efektivitu práce a výrazně zkrátit dobu potřebnou pro dodání výsledků.