Toto je objekt systému MBI.

MBI (Management Byznys Informatiky) je portál obsahující zobecněná řešení v řízení provozu a rozvoje IT, resp. podnikové informatiky.

Pokud máte zájem získat více informací o tomto objektu (vazby na další objekty, přílohy, apod.), ale i získat mnoho dalších užitečných materiálů, můžete tak učinit ZDE / (registrace je bezplatná).

Faktor : BI: Big Data
BI: Big Data
Kód faktoru

Standardní kód faktoru v MBI.

:
F457
Autor

Jméno a příjmení autora

:
Klapač, M., Krčma, M. (KIT, VŠE)
Podstatné charakteristik faktoru

Obsahové vymezení faktoru

1. Obsahové vymezení Big Data

Big Data je koncept, který definuje vlastnosti samotných dat, resp. technologie pro jejich efektivní zpracování a analýzu. Zahrnuje v sobě nástroje a postupy pro práci s datovými objemy tak rozsáhlými a komplexními, že je při jejich ukládání, zpracování a analýze nemožné používat tradiční databázové a analytické nástroje.Základní vymezení Big Data stojí na čtyřech hlavních charakteristikách:

  • Objem (Volume) - exponenciálně rostoucí, může být vyjádřen jak v datové jednotce (MB, GB, PB), tak v počtu souborů,
  • Rychlost (Velocity) - vyjadřuje rychlost streamování, ukládání a hlavně zpracování dat,
  • Různorodost (Variety) - je možnost více ukládaných a zpracovávaných datových formátů, a to jak strukturovaných, tak zejména nestrukturovaných či polostrukturovaných dat,
  • Komplexnost (Complexity) - představuje více standardů v rámci jednoho datového formátu (například různé typy videa) a navíc správa takových objemů dat, často z různých zdrojů trvale zvyšuje komplexnost řešení.

2. Potřeba řešení Big Data

Podstata a potřeba řešení Big Data tak vychází zejména z nových zdrojů a typů dat, které jsou často automaticky generovány a vytvářeny v obrovských objemech nejrůznějšími monitorovacími zařízeními nebo mimořádně velkými počty uživatelů jako je tomu u sociálních sítí. K těmto relativně novým zdrojům dat patří např.:

  • serverové logy,
  • informace sbírané od zákazníků na call centrech a kontaktních centrech,
  • data sbíraná na nejrůznějších typech webových aplikací a portálů,
  • textové, obrazové informace, audio a video záznamy na sociálních sítích i mimo ně,
  • data získávaná monitorovacími zařízeními ve složitých výrobních provozech, data geografického charakteru, data o počasí a celá řada dalších.

3. Principy řešení Big Data

Big Data řešení jsou vystavěna na principu paralelního zpracování dat (ukládání, zpracování a analýza na větším počtu zařízení v rámci clusteru) právě z důvodu zvýšení rychlosti zpracování velkého objemu různorodých denormalizovaných dat. Nové druhy dat je potřeba efektivně skladovat a pracovat s nimi, vyžadují (a umožňují) nové druhy analýz a poskytují zcela nové možnosti analýzy dat, jako např. grafové analýzy, analýzy textu či analýzy cest.

Smyslem řešení založených na Big Data je efektivně nacházet potřebné informace ve velkém objemu různorodých dat. S tím ovšem souvisí významný rozpor, a to jak objem a různorodost dat rychle narůstá, jejich hodnota se s časem snižuje. Tedy vyvolává se stále silnější potřeba zpracovávat tyto obrovské a různorodé objemy dat v co nejkratším čase. Přesto je potřeba s těmito daty efektivně pracovat a analyzovat je. To na jedné straně vedlo ke vzniku specializovaných řešení pro analýzy nových druhů dat (např. Teradata Aster), ale i ke vzniku a zlepšování nových způsobů ukládání těchto dat – NoSQL databází. Velká data a NoSQL spolu úzce souvisejí. Je potřeba efektivně a levně skladovat velké objemy dat a provádět nad nimi analýzy. NoSQL jsou lépe připraveny pro práci s nestrukturovanými daty než relační databáze.

Analytické aplikace zaměřené na velká data obsahují zase potřebné nástroje pro efektivní analýzu dat. Zpočátku tato řešení nebyla vhodná pro širší použití, jelikož neexistovaly snadno použitelné nástroje, které by umožňovaly efektivní práci s nimi. Lidé znalí obchodní problematiky neměli dostatek znalostí pro psaní vlastních dotazů do NoSQL databází, a naopak technicky zaměřeným lidem chyběly znalosti obchodní problematiky. Tyto nedostatky ale v posledních letech mizí.

4. Architektura Big Data

Architekturu řešení Big Data představuje obrázek a jak je patrné obsahuje většinu komponent standardních BI architektur (relační databáze, ETL nástroje, OLAP databáze a reporting) a kromě toho nové zdroje dat a specifická úložiště nových typů dat (NoSQL, Hadoop).

5. Efekty a přínosy faktoru pro kvalitu řízení podniku a IT
  1. Otevření dosud nevyužitých informačních kanálů - sociální sítě, multimediální data či senzory výrobních zařízení, které mohou v kombinaci s původními datovými zdroji poskytovat prostor pro analýzy dosud nedosahovaného rozsahu,
  2. Využití tzv. Dark Data, tedy dat, která společnost shromažďovala, ale bylo nákladově neefektivní tato data analyzovat, a které na základě současných technologií mohou přinést transparentní informace využít je při rozhodovacích procesech,
  3. Uložená transakční data obsahují přesné a detailní informace o výkonnosti podnikových procesů. Tyto informace mohou sloužit pro zlepšování výkonnosti procesů a podávají více informací managementu při rozhodování za nejistoty. Toto platí pro všechny stupně managementu: strategický, taktický, operativní,
  4. Optimalizace výkonnosti organizace - ve vztahu k podnikovým procesům lze lépe monitorovat vliv změn na výkonnost, zjišťovat příčiny výkyvů ve výkonnosti a efektivně rozdělovat podnikové zdroje,
  5. Transparentnost - snadnější a rychlejší přístup k relevantním datům, dostupným napříč odloučenými odděleními,
  6. Využití analytických nástrojů - mohou výrazně zlepšit proces rozhodování, minimalizovat riziko nebo odhalit cenné informace v rozsáhlých objemech dat, které by jinak zůstaly skryté,
  7. Úzká segmentace zákazníků a vytvoření produktu, služby přesně podle jejich požadavků,
  8. Inovativní postupy pro modelování experimentů - možnost testovat hypotézy a analyzovat jejich výsledky pro důležitá investiční rozhodnutí, komplexní podpora vývoje nových produktů a služeb, jejichž vlastnosti a funkce pomáhá přesněji definovat analýza velkých objemů různorodých dat.

6. Otázky, roblémy a omezení spojené s faktorem
  1. Jestliže společnost zanedbala správu dat v rámci databází a BI výstupy tak byly nekvalitní, Big Data není okamžitým a spásným řešením,
  2. Big Data nesou s sebou nové a podstatně vyšší nároky na kvalifikaci odborníků, a to jak na straně managementu nebo business analytiků (ti, co budou klást otázky – hypothesis-driven), tak na straně lidí, kteří budou data zkoumat,
  3. Data i ve velkých objemech a různorodosti dostávají smysl až ve chvíli, kdy jsou konfrontovány s nějakým modelem nebo hypotézou. Pokud hypotéza nebo model nejsou relevantní (business požadavky jsou špatně interpretovány), potom Big Data nepřináší přidanou hodnotu, naopak, spotřebovávají čas, prostředky a náklady,
  4. Nutnost využití clusterů (množin zařízení) ke správě a zpracování dat, což může (ale ne nutně) znamenat vyšší pořizovací náklady na HW (platí jen v případě on-premises řešení),
  5. Big Data, která jsou získávána prostřednictvím sociálních sítí, vyhledávání atd., mohou přinést cenné informace jedině za předpokladu reálně nastavených hypotéz (hypothesis-driven analytics) a k nim relevantních dat,
  6. K problémům Big Data patří především hrozby související se soukromím, bezpečností a vlastnictvím dat,
  7. Big Data není náhradou relačních databází – spíše se odhaduje, že technologie budou jedna od druhé přebírat best-practices až se nakonec sloučí.

7. Obsah balíčku ke stažení

Text TX4302: Miloš, M.: Big Data Analytics

8. Poznámky, reference

Fowleruk, A. - Thoughts on NoSQL & Big Data Architecture. - (Marklogic [online]. 2013).