Toto je objekt systému MBI.

MBI (Management Byznys Informatiky) je portál obsahující zobecněná řešení v řízení provozu a rozvoje IT, resp. podnikové informatiky.

Pokud máte zájem získat více informací o tomto objektu (vazby na další objekty, přílohy, apod.), ale i získat mnoho dalších užitečných materiálů, můžete tak učinit ZDE / (registrace je bezplatná).

Faktor : BI: PA (Prediktivní analýza)
BI: PA (Prediktivní analýza)
Kód faktoru

Standardní kód faktoru v MBI.

:
F454
Autor

Jméno a příjmení autora

:
Praus, O. (KIT, VŠE)
Podstatné charakteristik faktoru

Obsahové vymezení faktoru

1. Obsahové vymezení prediktivní analýzy
  • PA využívá dostupná data k předpovědi budoucích jevů . Schopnost úspěšné predikce je využita k zlepšení rozhodnutí, které je tak více postavené na faktech (vztazích, trendech) nalezených v datech než na intuici.
  • Doporučený postup řešení prediktivní analýzy je obsahem úlohy " BI: Realizace prediktivní analýzy, PA " (U442A ).
2. Aplikace prediktivní analýzy
  • Prediktivní analýzu využívají především velké podniky jako:
    • banky - pro hodnocení klienta a kredibility,
    • banky - pro identifikaci a hodnocení rizikovosti půjček, vyhodnocování trendů, tvorbu produktů,
    • pojišťovny - při odhalování podvodných pojistných událostí, pří upisování, při cenění rizik a pojistného, pro zlepšení efektivity marketingových kampaní, pro tvorbu produktů,
    • telekomunikační společnosti využívají prediktivní analýzu pro - vyhodnocování trendů, lepší cílení marketingových kampaní,
    • burzy - pro predikci vývoje akcií a komodit,
    • další - v marketingu, prodeji, finančních službách, medicíně.
3. Typy prediktivních modelů
  • Moderní prediktivní modely a jejich algoritmy jsou postavené na principech strojového učení (machine learning) .
  • Modely se různými způsoby učí z historických dat, v nichž hledají významné vztahy a proměnné vztahující se k cílové proměnné (proměnným), která je v historických datech známa, a kterou je v konkrétním případě žádoucí predikovat.
  • Nejdůležitější vlastností prediktivních modelů je generalizace – schopnost naučit se v dostupných datech jen to, co je důležité a správně vyhodnotit náhodné jevy a šum v datech jako nevýznamné. Problémy přeučení a nedoučení, zapříčiňující špatnou generalizaci, se týkají všech typů modelů. Řeší je různé techniky, od prořezávání větví rozhodovacího stromu, až po skladbu několika i různých modelů do jednoho velkého modelu.
3.1. Rozhodovací stromy (decision trees)
  • Tento typ modelu je jedním z nejoblíbenějších prediktivních modelů pro svoji jednoduchost a dobré výsledky . Ze vstupních proměnných vybírá model na základě algoritmů ty, které jsou statisticky nejdůležitější a vytváří pravidla, kterými segmentuje bázi dat.
  • Poskládaná pravidla naučeného modelu se dají schematicky zobrazit jako strom s kořenem nahoře a listy dole.
  • Rozhodovací stromy umožňují zpětnou interpretaci a vyvození dalších závěrů . Oproti jiným modelům je možné do nich nahlédnout a zkoumat jednotlivá rozhodnutí a pravidla z nich vyplývající.
  • Každý rozhodovací strom vychází z jednoho kořenového uzlu (root node), který představuje všechna data. Kořenový uzel je generace 0. Jeho přímí potomci (uzly) jsou generace 1 a každý další uzel obsahuje podmnožinu báze omezenou na pravidla předcházející danému uzlu.
  • Strom je zakončen listy – uzly, které se už dále nevětví. Způsob dělení uzlů a výběr proměnných probíhá na základě statistických metod, které určují důležitost každé proměnné. Pro dělení je vždy vybrána v danou chvíli nejdůležitější proměnná.
3.2. Neuronové sítě (neural networks)
  • V prediktivním modelování se umělá neuronová síť skládá z neuronů , které jsou navzájem propojeny a jsou schopné přijímat vstupy a odesílat výstupy .
  • Každý neuron je aktivován , tedy produkuje výstup, pouze pokud hodnoty do něj vstupující (po vynásobení s váhami a sečtení) překročí definovanou, prahovou hodnotu.
  • Neurony jsou složené v několika vrstvách:*
  • Vstupní vrstva (input layer) – představuje proměnné, které vstupující do modelu.
    • V nitřní schovaná vrstva (hidden layer) – může být složena z 0 až N vrstev. Hodnoty ze vstupní vrstvy jsou v této vrstvě propagovány dále, jsou násobeny se svými váhami, sečteny a aplikovány na nelineární funkci.
    • Výstupní vrstva (output layer) – představuje modelem predikované hodnoty.
  • Všechny neurony vnitřní a výstupní vrstvy jsou propojeny se všemi neurony vrstvy předchozí .
  • Určení počtu skrytých vrstev a počtu neuronů v nic h je jedním z nejdůležitějších rozhodnutí, které ovlivňuje schopnost predikce a generalizaci neuronové sítě. Rozhodnutí závisí na počtu vstupních proměnných a vlastnostech a velikosti učících dat. Příliš nízký počet má za následek nedoučení modelů, příliš vysoký zvyšuje riziko přeučení sítě.
  • Existují různé druhy umělých neuronových sítí. V praxi nejvyužívanějším typem neuronové sítě je Multilayer Perceptron (MLP) . Jedná se o typ sítě s feed-forward topologií (hodnoty jsou sítí propagované pouze jediným směrem – vpřed) s možností specifikace počtu skrytých vrstev, počtu jednotek ve skrytých vrstvách a dalšími možnostmi.
  • Nevýhodou neuronových sítí je fakt, že produkované výstupy nejsou zpětně refaktorovatelné – není možné s určitostí říci, proč je výsledek takový, jaký je.
3.3. Soubor modelů (ensemble)
  • Modely a jejich výstupy (predikce) je možné skládat do většího celku . Vznikne tak jeden velký a robustní model postavený na několika různých prediktivních modelech.
  • Z povahy tohoto modelu se může zdát, že bude náchylnější k přeučení a na out-of-sample datech bude vykazovat horší výsledky, než samostatné modely, ze kterých je složený. Je-li složený z více modelů, vstupuje do něj více proměnných, což popírá princip generalizace prediktivních modelů. Paradoxně ale v ýsledky praxe ukazují , že tento model dosahuje lepší predikce, než samostatné modely , ze kterých je složený.
4. Efekty a přínosy faktoru pro kvalitu řízení podniku a IT
  1. Zvýšení zisků, efektivnější cílení marketingových kampaní,
  2. Snížení nákladů – úspory plynoucí ze zlepšených rozhodnutí,
  3. Snížení finančních rizik,
  4. Vyšší konkurenceschopnost,
  5. Zhodnocení dat podniku.
5. Otázky, roblémy a omezení spojené s faktorem
  1. Nedostatek dat pro vyvinutí úspěšných prediktivních modelů,
  2. Nedostatečná kvalita dat – redundance, duplicity, chyby, absence unifikovaných dat,
  3. Realizace PA je časově náročná s nejistým výsledkem.

6. Poznámky, reference
  • PRAUS, O. - Prediktivní analýza – postup a tvorba prediktivních modelů - (VŠE, Praha 2013)