Toto je objekt systému MBI.

MBI (Management Byznys Informatiky) je portál obsahující zobecněná řešení v řízení provozu a rozvoje IT, resp. podnikové informatiky.

Pokud máte zájem získat více informací o tomto objektu (vazby na další objekty, přílohy, apod.), ale i získat mnoho dalších užitečných materiálů, můžete tak učinit ZDE / (registrace je bezplatná).

Faktor : BI: PA (Prediktivní analýza)
BI: PA (Prediktivní analýza)
Kód faktoru

Standardní kód faktoru v MBI.

:
F454
Autor

Jméno a příjmení autora

:
Praus, O. (KIT, VŠE)
Podstatné charakteristik faktoru

Obsahové vymezení faktoru

1. Obsahové vymezení prediktivní analýzy

PA využívá dostupná data k předpovědi budoucích jevů. Schopnost úspěšné predikce je využita k zlepšení rozhodnutí, které je tak více postavené na faktech (vztazích, trendech) nalezených v datech než na intuici. Doporučený postup řešení prediktivní analýzy je obsahem úlohy "BI: Realizace prediktivní analýzy, PA" (U442A ).

2. Aplikace prediktivní analýzy

Prediktivní analýzu využívají především velké podniky jako:

  • banky pro - hodnocení klienta a kredibility,
  • identifikaci a hodnocení rizikovosti půjček, vyhodnocování trendů, tvorbu produktů,
  • pojišťovny - při odhalování podvodných pojistných událostí, pří upisování, při cenění rizik a pojistného, pro zlepšení efektivity marketingových kampaní, pro tvorbu produktů,
  • telekomunikační společnosti využívají prediktivní analýzu pro - vyhodnocování trendů, lepší cílení marketingových kampaní,
  • burzy pro - predikci vývoje akcií a komodit,
  • obecně se najde využití v marketingu, prodeji, finančních službách, medicíně.

3. Typy prediktivních modelů

Moderní prediktivní modely a jejich algoritmy jsou postavené na principech strojového učení (machine learning). Modely se různými způsoby učí z historických dat, v nichž hledají významné vztahy a proměnné vztahující se k cílové proměnné (proměnným), která je v historických datech známa, a kterou je v konkrétním případě žádoucí predikovat.

Nejdůležitější vlastností prediktivních modelů je generalizace – schopnost naučit se v dostupných datech jen to, co je důležité a správně vyhodnotit náhodné jevy a šum v datech jako nevýznamné. Problémy přeučení a nedoučení, zapříčiňující špatnou generalizaci, se týkají všech typů modelů. Řeší je různé techniky, od prořezávání větví rozhodovacího stromu, až po skladbu několika i různých modelů do jednoho velkého modelu. V současnosti existuje množství prediktivních modelů.

3.1. Rozhodovací stromy (decision trees)

Tento typ modelu je jedním z nejoblíbenějších prediktivních modelů pro svoji jednoduchost a dobré výsledky. Ze vstupních proměnných vybírá model na základě algoritmů ty, které jsou statisticky nejdůležitější a vytváří pravidla, kterými segmentuje bázi dat. Poskládaná pravidla naučeného modelu se dají schematicky zobrazit jako strom s kořenem nahoře a listy dole. Rozhodovací stromy umožňují zpětnou interpretaci a vyvození dalších závěrů. Oproti jiným modelům je možné do nich nahlédnout a zkoumat jednotlivá rozhodnutí a pravidla z nich vyplývající.

Každý rozhodovací strom vychází z jednoho kořenového uzlu (root node), který představuje všechna data. Kořenový uzel je generace 0. Jeho přímí potomci (uzly) jsou generace 1 a každý další uzel obsahuje podmnožinu báze omezenou na pravidla předcházející danému uzlu. Strom je zakončen listy – uzly, které se už dále nevětví. Způsob dělení uzlů a výběr proměnných probíhá na základě statistických metod, které určují důležitost každé proměnné. Pro dělení je vždy vybrána v danou chvíli nejdůležitější proměnná.

3.2. Neuronové sítě (neural networks)

V prediktivním modelování se umělá neuronová síť skládá z neuronů, které jsou navzájem propojeny a jsou schopné přijímat vstupy a odesílat výstupy. Každý neuron je aktivován, tedy produkuje výstup, pouze pokud hodnoty do něj vstupující (po vynásobení s váhami a sečtení) překročí definovanou, prahovou hodnotu. Neurony jsou složené v několika vrstvách:

  • Vstupní vrstva (input layer) – představuje proměnné, které vstupující do modelu.
  • Vnitřní schovaná vrstva (hidden layer) – může být složena z 0 až N vrstev. Hodnoty ze vstupní vrstvy jsou v této vrstvě propagovány dále, jsou násobeny se svými váhami, sečteny a aplikovány na nelineární funkci.
  • Výstupní vrstva (output layer) – představuje modelem predikované hodnoty.

Všechny neurony vnitřní a výstupní vrstvy jsou propojeny se všemi neurony vrstvy předchozí. Určení počtu skrytých vrstev a počtu neuronů v nich je jedním z nejdůležitějších rozhodnutí, které ovlivňuje schopnost predikce a generalizaci neuronové sítě. Rozhodnutí závisí na počtu vstupních proměnných a vlastnostech a velikosti učících dat. Příliš nízký počet má za následek nedoučení modelů, příliš vysoký zvyšuje riziko přeučení sítě. Existují různé druhy umělých neuronových sítí. V praxi nejvyužívanějším typem neuronové sítě je Multilayer Perceptron (MLP). Jedná se o typ sítě s feed-forward topologií (hodnoty jsou sítí propagované pouze jediným směrem – vpřed) s možností specifikace počtu skrytých vrstev, počtu jednotek ve skrytých vrstvách a dalšími možnostmi. Nevýhodou neuronových sítí je fakt, že produkované výstupy nejsou zpětně refaktorovatelné – není možné s určitostí říci, proč je výsledek takový, jaký je.

3.3. Soubor modelů (ensemble)

Modely a jejich výstupy (predikce) je možné skládat do většího celku. Vznikne tak jeden velký a robustní model postavený na několika různých prediktivních modelech. Z povahy tohoto modelu se může zdát, že bude náchylnější k přeučení a na out-of-sample datech bude vykazovat horší výsledky, než samostatné modely, ze kterých je složený. Je-li složený z více modelů, vstupuje do něj více proměnných, což popírá princip generalizace prediktivních modelů. Paradoxně ale výsledky praxe ukazují, že tento model dosahuje lepší predikce, než samostatné modely, ze kterých je složený.

4. Efekty a přínosy faktoru pro kvalitu řízení podniku a IT
  1. Zvýšení zisků, efektivnější cílení marketingových kampaní,
  2. Snížení nákladů – úspory plynoucí ze zlepšených rozhodnutí,
  3. Snížení finančních rizik,
  4. Vyšší konkurenceschopnost,
  5. Zhodnocení dat podniku.

5. Otázky, roblémy a omezení spojené s faktorem
  1. Nedostatek dat pro vyvinutí úspěšných prediktivních modelů,
  2. Nedostatečná kvalita dat – redundance, duplicity, chyby, absence unifikovaných dat,
  3. Realizace PA je časově náročná s nejistým výsledkem.

6. Poznámky, reference

[Diplomová práce] PRAUS, O. - Prediktivní analýza – postup a tvorba prediktivních modelů - (VŠE, Praha 2013)