Toto je objekt systému MBI.

MBI (Management Byznys Informatiky) je portál obsahující zobecněná řešení v řízení provozu a rozvoje IT, resp. podnikové informatiky.

Pokud máte zájem získat více informací o tomto objektu (vazby na další objekty, přílohy, apod.), ale i získat mnoho dalších užitečných materiálů, můžete tak učinit ZDE / (registrace je bezplatná).

Faktor : BI: Dolování dat
BI: Dolování dat
Kód faktoru

Standardní kód faktoru v MBI.

:
F413
Autor

Jméno a příjmení autora

:
MBI tým, Šindelář, R., Kulhavý, L. (KIT, VŠE)
Podstatné charakteristik faktoru

Obsahové vymezení faktoru

1. Obsahové vymezení dolování dat
  • Dolování dat ( Data Mining,DMI ) je proces extrakce relevantních, předem neznámých nebo nedefinovaných informací z velmi rozsáhlých databází.
  • Důležitou vlastností dolování dat je, že se jedná o analýzy odvozované z obsahu dat , nikoli předem specifikované uživatelem nebo implementátorem, a jedná se především o odvozování prediktivních informací.
2. Metody data miningu
  • V rámci data miningu se využívá řada metod, jejichž detailní charakteristiky jsou obsahem specializovaných publikací. Na tomto místě je uvedeno pouze základní vymezení několika vybraných metod.
2.1. Rozhodovací stromy
  • Metoda pro uživatele nejsrozumitelnější . Rozhodovací strom je grafickou reprezentací logického vývoje časově na sebe navazujících alternativních rozhodnutí.
  • Rozhodovací strom je zvláštní případ grafu, který je tvořen z kořene a vnitřních uzlů - označených atributem, ze kterých vede jedna hrana pro každou možnou hodnotu tohoto atributu a z listů - které jsou označeny predikovanou hodnotou cílového atributu, za předpokladu, že ostatní atributy nabývají hodnot na cestě od kořene do listu (pokud se některé atributy na cestě nevyskytují, pak na jejich hodnotě v rámci klasifikace nezáleží).
  • Klíčovou otázkou procesu tvorby rozhodovacích stromů je, který atribut zvolit pro větvení v kořenovém uzlu (následně každý vnitřní uzel je kořenovým uzlem pro podstrom, tvořící danou podmnožinu). Snahou je zvolit takový atribut, který od sebe nejlépe oddělí příklady patřící do různých tříd .
2.2. Rozhodovací pravidla
  • Použití rozhodovacích pravidel je podobné jako u rozhodovacích stromů. Rozhodovací pravidla jsou zapisována ve tvaru „IF Ant THEN Class“ a umožňují klasifikovat kategorii cílového atributu z kombinace kategorií vstupních atributů.
  • Ant je nazýván jako antecedent , neboli předpoklad, Class reprezentuje třídu neboli kategorii cílového atributu.
2.3. Asociační pravidla
  • U asociačních pravidel není na rozdíl od pravidel rozhodovacích definován cílový atribut pro zařazení příkladu do určité třídy (v rámci nastavení konkrétního algoritmu lze nastavit omezení na vybrané atributy jako možné závěry pravidla), naopak nás zajímají vazby mezi různými atributy v předpokladu a v závěru . S tím souvisí problematičtější vyhodnocování těchto pravidel.
  • Asociační pravidla jsou zapisována jako „Ant => Suc“ , kde Ant značí předpoklad pravidla, takzvaný antecedent a Suc značí závěr pravidla , takzvaný sukcedent .
  • A ntecedent i sukcedent jsou kombinací kategorií (tedy pravidlo může obsahovat více kategorií více atributů jak na straně předpokladu, tak i na straně závěru pravidla).
2.4. Neuronové sítě
  • Umělé neuronové sítě se skládají z jednotlivých navzájem propojených neuronů .
  • Neuron je jednotka, která přijímá n a vstupu podněty, vstupující do součtového členu (provádí vážený součet skalárních součinů podnětu a jeho váhy). Váhy přiřazené každému vstupu jsou využívány v procesu učení (v okamžiku počátku procesu učení jsou váhy nastaveny na náhodná, malá čísla, blízká nule a učením se modifikují).
  • Hodnotu vzniklou v součtovém členu následně aktivační funkce transformuje na výstup , pokud jeho minimální hodnota překročí práh.
2.5. Bayesovská klasifikace
  • Základem metod bayesovské klasifikace je Bayesova věta o podmíněných pravděpodobnostech .
  • Bayesova věta popisuje vliv pouze jedné evidence E na uvažovanou hypotézu H . V reálných úlohách se však uvažuje vliv většinou více než pouze jediné na hypotézu H.
  • V případě vlivu více evidencí, které jsou podmíněně nezávislé při platnosti hypotézy H, lze využít Naivní Bayesovský klasifikátor (naivní, protože „naivně“ předpokládá absolutní nezávislost evidencí).
  • V případě, kdy evidence nejsou podmíněně nezávislé, využívají se Bayesovské sítě .
2.6. Evoluční algoritmy
  • Postupně zdokonalují zvolenou populaci jedinců , k čemuž využívají operace selekce (výběr jedince na základě uvažované funkce), křížení (dvou rodičů za vzniku dvou potomků) a mutace (náhodná záměna jedné charakteristiky jedince).
  • Evoluční algoritmy nachází uplatnění především v oblastech numerických optimalizací a tvorby modelů, pro techniky dobývání znalostí z databází jsou využívány například pro optimalizaci neuronových sítí.
2.7. Metody založené na analogii
  • Jsou vhodné, pokud existuje databáze již úspěšně řešených problémů . Metody založené na analogii hledají řešení tak, že v databázi hledají situaci podobnou situaci zkoumané.
  • Následně aplikují řešení, které se osvědčilo při řešení situace uložené v databázi (v případě potřeby lze provést adaptaci uloženého řešení na novou situaci).
  • Tyto metody lze využít jak pro úlohy klasifikace, tak pro úlohy segmentace . Ze známých metod založených na analogii jsou například:
    • shlukování (Clustering),
    • učení založené na instancích (Instance-based leasing IBL),
    • případové usuzování (Case-based reasoning CBR),
    • pravidlo nejbližšího souseda (Nearest neighbour rule).
2.8. Induktivní logické programování (ILP)
  • Nabízí metody data miningu pracující s popisem příkladů a hypotéz pomocí predikátové logiky 1. řádu . Všeobecně lze říci, že metody ILP umožňují zpracování úloh reprezentovaných více relacemi (vzájemně propojené tabulky, strukturální a prostorová data) a umožňují využití doménových znalostí v procesu dobývání znalostí. Jedná se o nové a prozatím spíše výzkumné metody.
3. Aplikace data miningu
  • Příklady využití metod a nástrojů data miningu jsou dle (Máša, 2008) uvedeny v dalším přehledu.
3.1. Segmentace
  • Rozdělení objektů do skupin , které mají podobné charakteristiky. Nejčastěji se jedná o segmentaci zákazníků , a to dle různých charakteristik.
  • Lze vytvářet segmentace demografické, behaviorální (dle chování), geografické apod.
  • Segmentace založená na výzkumu trhu pak představuje řešení v situaci, kdy existují omezení (např. nepřítomná datová struktura v podniku – absence datových skladů apod.) či dokonce nedostupnost vhodných vlastních interních dat. Jiným důvodem může být zaměření na potenciální budoucí zákazníkyna trhu. Důvodem jsou cílené marketingové akce a vývoj nových produktů na základě specifik jednotlivých segmentů.
3.2. Predikce odchodu zákazníků – „churn management“
  • Mají předpovědět klienty, kteří hodlají odejít ke konkurenci, přestat využívat určitého produktu apod.
3.3. Cílený marketing
  • Akce specializující se pouze na určitý okruh klientů , takových, u kterých je oproti ostatním klientům vyšší pravděpodobnost, že zareagují na konkrétní kampaň. Díky tomu lze dosáhnout úspory v rámci kampaně.
  • Souvisí s přístupy „cross selling“ (nabídnutí souvisejícího zboží ke koupi) a „up selling“ (nabídnutí lepšího produktu přinášejícího podniku vyšší zisk).
3.4. Credit scoring
  • Ohodnocení klienta dle úvěrového rizika. Tedy rizika, zda bude splácet např. svůj úvěr bance.
  • Účelem je zjistit, jaké riziko se má podstupovat . Příliš velké riziko může mít za následek nedobytné pohledávky, naopak riziko příliš nízké má za následek ztrátu zisku z potenciálních zákazníků.
3.5. Fraud detection
  • Aplikace, kdy jsou hledány podvody (ať již v rámci pojistných událostí, bankovních transakcí či v systémech telekomunikačních operátorů).
3.6. Analýza nákupního košíku
  • Zjišťuje souvislosti mezi produkty , které kupují zákazníci společně. Díky tomu lze zákazníkovi vhodně nabízet kombinace produktů ( cross selling ), pracovat s rozmístěním produktů v rámci prodejní plochy prodejny či stránky s produktem v rámci eShopu.
  • Otázky a problémy spojené s nasazením dolování dat jsou formulovány ve scénáři (S460).
4. Efekty a přínosy faktoru pro kvalitu řízení podniku a IT
  1. Umožňuje využívat speciální algoritmy, pomocí kterých lze v datech vyhledat strategické informace ,
  2. Umožňuje provádět proces rozsáhlé extrakce relevantních a předem neznámých dat z předem neznámých databází,
  3. Poskytuje informace na prediktivní a deskriptivní bázi,
  4. Představuje silný analytický nástroj managementu v případě dobré znalosti Dmi,
  5. Podporuje detekci založenou na fraudových systémech,
  6. DMi napomáhá detekovat faktory , které mají vliv na zvýšení příjmu a snížení nákladů společnosti,
  7. V oblasti Marketing / Retailnig nabízí managementu užitečné a přesné trendy chování zákazníků,
  8. V oblasti Banking / Crediting představuje podporu finančních institucí v oblasti credit reportingu a dále v oblasti zabývající se úvěrovou politikou,
  9. V oblasti vymáhání trestného práva napomáhá odhalovat trestné činy a pachatele, tím, že pomocí algoritmů zkoumá trendy, zvyky a jiné chování v geograficky ohraničené oblasti,
  10. Ve výzkumu napomáhá vědcům v oblasti analýz, kdy výrazně urychluje jejich proces.
5. Otázky, roblémy a omezení spojené s faktorem
  1. Vzniká hrozba potencionálního zneužití osobních údajů ze strany společností vlastnících citlivá data (např. společnost American Express prodala jiné společnosti výpisy kreditních karet svých zákazníků),
  2. V praxi je velmi častá absence vhodného bezpečnostního systému,
  3. Problém zneužití dat ze strany realizátora, popřípadě majitele DMi analýzy,
  4. V praxi špatné povědomí a neznalost DMi ze strany managementu,
  5. Často příliš složitá problematika pro pochopení zákazníka,
  6. Vysoké náklady spojené s implementací.
6. Poznámky, reference
  • KULHAVÝ, L. - Praktické uplatnění technologií Data Mining v pojišťovnictví - (VŠE, Praha 2011),
  • Berka, Petr. 2003. Dobývání znalostí z databází. Praha : Academia, 2003. str. 366. ISBN 80-200-1062-9,
  • Friebelová, Jana. 2006. Rozhodovací stromy. Osobní stránka - Jana Friebelová,
  • Máša, Petr. 2008. 4IZ560 - Data mining - praktické aplikace. 2008.
  • Vomlelová, Marta. 2009. Rozhodovací stromy. Výuka - Marta Vomlelová. [Online] 10 20, 2009. [Cited: 11 10, 2010.].