Toto je objekt systému MBI.

MBI (Management Byznys Informatiky) je portál obsahující zobecněná řešení v řízení provozu a rozvoje IT, resp. podnikové informatiky.

Pokud máte zájem získat více informací o tomto objektu (vazby na další objekty, přílohy, apod.), ale i získat mnoho dalších užitečných materiálů, můžete tak učinit ZDE / (registrace je bezplatná).

Faktor : BI: Extract Transform Load (ETL / ELT)
BI: Extract Transform Load (ETL / ELT)
Kód faktoru

Standardní kód faktoru v MBI.

:
F407
Autor

Jméno a příjmení autora

:
MBI tým, Šindelář, R. (KIT, VŠE)
Podstatné charakteristik faktoru

Obsahové vymezení faktoru

1. Obsahové vymezení ETL

ETL (Extract, Transform, Load) je jednou z nejvýznamnějších komponent celého komplexu business intelligence. Běžným označením pro prostředky ETL je rovněž datová pumpa. Jejím úkolem je data ze zdrojových systémů vybrat (Extract), upravit data do požadované formy a uspořádání (Transform) a nahrát je do specifických datových struktur, resp. datových schémat datového skladu nebo tržiště (Load).

Tyto nástroje lze tedy použít pro přenos dat mezi dvěma (či více) libovolnými databázemi, nebo datovými soubory (textovými, tabulkovými, XML soubory atd.). ETL nástroje pracují obvykle v dávkovém režimu, data jsou tedy přenášena najednou v určitých časových intervalech, např. denních, týdenních apod. Právě transformace dat spojené s ETL jsou pracovně, časově i finančně nejnáročnější a obvykle představují cca 60 % vynaložených pracovních kapacit. Pro úspěšné BI řešení však znamenají zcela nezbytný předpoklad.

Otázky a problémy spojené s nasazením ETL / ELT jsou formulovány ve scénáři (S455).

2. Podstatné charakteristiky ETL

Pro ETL jsou podstatné následující charakteristiky:

  • ze zdrojových databází musí být vybrána pouze taková data, která jsou určena pro analytické, plánovací a rozhodovací aktivity podniku (tedy nikoli všechna) a to je jedním z prvních úkolů analytiků business intelligence,
  • data jsou transformována do nových datových struktur analytických databází, které musí být předem navrženy tak, aby nejlépe odpovídaly potřebám řízení podniku. To souvisí s možnostmi využití multidimenzionality a granularity dat,
  • data do business intelligence vstupují z různých zdrojových databází (ERP, e-Business, CRM atd.), přičemž v těchto různých zdrojích, mohou být jedna a tatáž data uložena vícekrát (a k tomu ještě různě), např. různé databáze prodejců, zákazníků apod. Ale do analytických databází musí vesměs vstoupit pouze jednou. V transformační vrstvě (s využitím ETL) musí dojít ke konsolidaci dat, tj. určení vstupujících dat s vyloučením duplicit, či multiplicit,
  • se zajištěním konsolidace dat úzce souvisí i dosažení potřebné kvality dat, tj. vyloučení chyb, nepřesností atd.

3. Efekty a přínosy faktoru pro kvalitu řízení podniku a IT
  1. Díky ETL lze z množiny nestrukturovaných dat vyjmout právě ta data, která mají být relevantní vzhledem k zákaznickým požadavkům na podporu řízení, resp. k řešení datového skladu (DWH),
  2. Velké množství ETL nástrojů umožňuje flexibilní přístup a schopnost identifikovat právě nástroj, který nejvíce odpovídá řešení konkrétní úlohy,
  3. Pomocí ELT metody lze rozdělit DWH procesy na diverzní části, které následně dělí projekt na subprojekty a nabízí tak transparentní pohled na celkový proces,
  4. Obvykle je ELT implementace všech zdrojových dat nahrávána do DWH jako část extrakčního a loadovacího procesu. Tato situace v kombinaci s isolovaným transformačním procesem znamená, že možné změny mohou být v DWH struktuře relativně snadno realizovány,
  5. Transformace dat na metriky (ukazatele), zachycené pomocí faktové tabulky,
  6. Čištění dat - odstranění duplicitní dat, chyb způsobených lidským faktorem, atd.,
  7. ETL procesy v běžném případě probíhají ve stejné časové frekvenci a ve stanoveném čase (většinou v noci). Tento způsob nasazení je zcela vyhovující pro většinu operativních analýz,
  8. Podporuje speciální typy analýz, vyžadujících okamžité vyhodnocení, př. fraud systémy,
  9. Centralizovaná správa transformací bývá uložena v repozitáři,
  10. Nabízí možnost vytváření a správy metadat,
  11. Řízené plánování a spouštění transformací,
  12. Správně navržený ETL proces umožňuje načíst data s neúplnou, nebo porušenou referenční integritou,
  13. Správně navržený ETL systém zaznamenává všechny chyby do chybového žurnálu.

4. Otázky, roblémy a omezení spojené s faktorem
  1. Modifikace původní‘ ETL procedury představuje nárůst nákladů a času na její řešení,
  2. V případě změny ETL technologie je nutná znalost aktuálního i původního skriptovacího jazyka,
  3. Pro řešitele je nezbytně nutná znalost transformačních technik, metodik a funkcionalit,
  4. Při nedodržení pravidel uplatňovaných při ETL (tj. funkcionalita a metodika), je princip ETL prakticky nevyužitelný a stává se při opětovném využití nepřehledným (nečitelná dokumentace způsobuje nepřehledný systém ETL procedur),
  5. Vysoká míra závislosti na analýze primárního systému,
  6. Technologické bariery (např. systém není schopen transformovat zdrojový datový formát).