Faktor
: Extract Transform Load (ETL / ELT)
|
|
|
|
Kód faktoru
Standardní kód faktoru v MBI.
:
|
MBI tým, Šindelář, R. (KIT, VŠE)
|
|
Datum poslední úpravy
Datum poslední úpravy ve tvaru rrrr.mm.dd.
:
|
Podstatné charakteristik faktoru
Obsahové vymezení faktoru
1. Obsahové vymezení ETL
-
ETL (Extract, Transform, Load)
je jednou z nejvýznamnějších komponent celého komplexu business intelligence. Běžným označením pro prostředky ETL je rovněž
datová pumpa
.
- Jejím
úkolem
je data ze zdrojových systémů
vybrat (Extract)
,
upravit
data do požadované formy a uspořádání
(Transform) a nahrát
je do specifických datových struktur, resp. datových schémat datového skladu nebo tržiště (
Load
).
- ELT – je komponenta, která data vybírá ze zdroje, ukládá je do cílové databáze a teprve tam dochází k požadovaným transformacím
-
Otázky
spojené s nasazením ETL / ELT jsou formulovány
ve scénáři
(S455).
2. Efekty a přínosy faktoru pro kvalitu řízení podniku a IT
- Díky ETL lze z množiny nestrukturovaných dat
vyjmout
právě ta
data,
která mají být
relevantní
vzhledem k zákaznickým požadavkům na podporu řízení, resp. k řešení datového skladu (DWH),
- Velké množství ETL nástrojů umožňuje
flexibilní přístup
a schopnost identifikovat právě nástroj, který nejvíce odpovídá řešení konkrétní úlohy,
- Pomocí ELT metody lze rozdělit DWH procesy na
diverzní části
, které následně dělí projekt na subprojekty a nabízí tak transparentní pohled na celkový proces,
- Obvykle je ELT implementace všech zdrojových dat nahrávána do DWH jako
část extrakčního a loadovacího procesu
. Tato situace v kombinaci s isolovaným transformačním procesem znamená, že možné změny mohou být v DWH struktuře relativně snadno realizovány,
-
Čištění dat
- odstranění duplicitní dat, chyb způsobených lidským faktorem, atd.,
- ETL procesy v běžném případě probíhají
ve stejné časové frekvenci
a ve stanoveném čase (většinou v noci). Tento způsob nasazení je zcela vyhovující pro většinu operativních analýz,
- Podporuje
speciální typy analýz
, vyžadujících okamžité vyhodnocení, př. fraud systémy,
-
Centralizovaná správa
transformací bývá uložena v repozitáři,
- Nabízí možnost vytváření a
správy metadat
,
- Řízené
plánování a spouštění transformací
,
- Správně navržený ETL proces
umožňuje načíst data
s neúplnou, nebo
porušenou referenční integritou
,
- Správně navržený ETL systém
zaznamenává všechny chyby
do chybového žurnálu,
- Při využití ELT je podstatným efektem zvýšení provozního výkonu za předpokladu výkonné cílové databáze,
- Obdobou transformačních nástrojů jsou nástroje pro datovou integraci v reálném čase (Enterprise Application Integration, EAI), zajišťující datové transfery v okamžiku změny ve zdrojové produkční databázi,
- Jinou variantou je integrace podnikových informací (Enterprise Information Integration, EII), fungující na federativním konceptu, kde jsou data pro analýzy zprostředkována přímo ze zdrojových databází bez jejich fyzické transformace. Ta se často označuje jako datová virtualizace.
3. Problémy a omezení spojené s faktorem
- Modifikace původní‘ ETL procedury představuje
nárůst nákladů a času
na její řešení,
- V případě změny ETL technologie je nutná
znalost aktuálního i původního skriptovacího jazyka
,
- Pro řešitele je nezbytně nutná
znalost transformačních technik
, metodik a funkcionalit,
- Při
nedodržení pravidel
uplatňovaných při ETL (tj. funkcionalita a metodika), je princip ETL prakticky nevyužitelný a stává se při opětovném využití nepřehledným (nečitelná dokumentace způsobuje nepřehledný systém ETL procedur),
- Vysoká
míra závislosti na analýze
primárního systému,
-
Technologické bariery
(např. systém není schopen transformovat zdrojový datový formát).
4. Reference:
- Slánský, D.: Data and Analytics for the 21st Century: Architecture and Governance, Professional Publishing, 2018. ISBN 978-80-88260-16-5.
|
|
|
|