Toto je objekt systému MBI.

MBI (Management Byznys Informatiky) je portál obsahující zobecněná řešení v řízení provozu a rozvoje IT, resp. podnikové informatiky.

Pokud máte zájem získat více informací o tomto objektu (vazby na další objekty, přílohy, apod.), ale i získat mnoho dalších užitečných materiálů, můžete tak učinit ZDE / (registrace je bezplatná).

Metoda : Metodika CRISP–DM
Metodika CRISP–DM
Kód metody

Standarní kód metody v MBI

:
M505
Popis, obsahové vymezení

Obsahové vymezení metody - rekapitulace základních principů ve vztahu k řízení informatiky

1. Metodika CRISP–DM

Cross-Industry Standard Process for Data mining (CRISP-DM) je metodika pokrývající kompletní proces data miningových úloh (Rauch, Šimůnek 2014, str. 19). Tato metodika vznikla v roce 1996 na základě požadavků průmyslových a komerčních společností při pokusech o aplikaci data miningu v jeho rané formě napříč odvětvími jako metodika, která je při použití nezávislá na konkrétním odvětví společnosti zkoumající data, na použitých softwarových nástrojích a také na aplikaci konkrétní metody či algoritmu v oblasti data miningu. (Chapman et al. 1999, 2000, str. 1) Chapmanovo CRISP-DM představuje standardizovanou a volně dostupnou formu vhodného přístupu k  řešení data miningových problémů definovaných v rámci obchodních či výzkumných oddělení společnosti.

Dle CRISP-DM sestává každý data miningový projekt z šesti vzájemně navazujících fází. Posloupnost těchto fází je adaptivní, což znamená, že následující fáze je obvykle velmi silně ovlivněna výstupy vytvořenými v rámci fáze předchozí. CRISP-DM je znázorněna šipkami (viz základní slide) se zpětnou orientací, kdy je možné se po zpracování jedné fáze vrátit k fázi předchozí a provést potřebné, z následné fáze plynoucí, změny. Vnější kruh v rámci diagramu symbolizuje cyklický charakter celého procesu, u kterého není neobvyklé, že po vyhodnocení výstupů úlohy (stejně tak i po využití získaných znalostí) je vhodné se vrátit na začátek celého procesu a překonfigurovat vstupní předpoklady tak, aby došlo k co možná největšímu zlepšení celého procesu a jeho výstupů. Jednotlivé fáze procesu dobývání znalostí z databází dle metodiky CRISP-DM jsou v dalším přehledu.

1.1. Porozumění problematice/zkoumané oblasti

V rámci této fáze je kladen důraz na porozumění požadavkům a cílům projektu z manažerského pohledu, dále probíhá hodnocení rizik a přínosů, kalkulace potřebných zdrojů a nákladů, přičemž je také stanoven předběžný plán průběhu prací. Je také nutné porozumět zkoumané oblasti, ze které pocházejí zkoumaná data, v rámci které je jejich analýza prováděna. „Obvykle datový analytik provádějící analýzu rozumí zejména procesu DZD a musí se nejprve seznámit s každou doménovou oblastí, ze které jsou mu data předložena k analýze. A to není vůbec triviální – vždyť experti na danou oblast jejímu studiu věnovali mnoho let.“ (Rauch, Šimůnek 2014, str. 23) Data miningové úlohy je možné provádět v rámci různých doménových oblastí, které se mohou v mnohém lišit, jako jsou telekomunikace, marketing, strojírenství, doprava atd., a je tedy třeba disponovat znalostí specifik zkoumaného odvětví k rozlišení mezi novými zajímavými a již známými znalostmi plynoucích z datové analýzy.

1.2. Porozumění datům

Autoři metodiky uvádějí v její dokumentaci několik kroků, které je nutné s daty v rámci této fáze provést: (Chapman et al. 1999, 2000, str. 18):

  • Sběr vstupních dat – v tomto kroku je nutné získat data nebo alespoň přístup k nim ze zdrojů definovaných v rámci projektu. Výstupem tohoto kroku je seznam získaných datových sad a metod, pomocí kterých je možné data získat, a seznam problémů, které se v průběhu sběru dat vyskytly.
  • Popis dat – popisem získaných dat je myšleno prozkoumání jejich hrubých a povrchových vlastností jako jsou datové typy, počty záznamů jednotlivých datových sad, významy jednotlivých polích apod. Důležitou částí tohoto kroku je zhodnocení možnosti využití získaných dat v souladu s relevantními požadavky projektu.
  • Zkoumání dat – ke zkoumání dat jsou nejčastěji využívány deskriptivní a vizualizační techniky, v rámci kterých jsou data zobrazována a zkoumána. Zkoumána je například frekvence výskytu hodnot v rámci jednotlivých atributů, průměry, mediány, maximální a minimální hodnoty atd.
  • Ověření kvality dat – tento krok je zaměřený na zjištění kvality získaných dat. Jeho cílem je odpovědět na otázky typu: Pokrývají data kompletně zkoumanou oblast v potřebné míře? Jsou data správná, nebo obsahují chyby? V jakém jsou chyby zastoupení? Obsahují data chybějící hodnoty? V jaké míře a kde se vyskytují, jak jsou reprezentovány chybějící hodnoty? Jestliže se v tomto kroku projeví datové chyby, je doporučeno vytvořit seznam jejich možných řešení. Tato řešení jsou silně závislá na zkoumaných datech a obchodních znalostí.
  • Příprava dat – Berka popisuje tuto fázi následujícím způsobem: „Příprava dat zahrnuje selekci dat, čištění dat, transformaci dat, vytváření dat, integrování dat a formátování dat.“ (Berka 2003, str. 26).

V této fázi probíhá výběr konkrétních atributů, ale i jednotlivých záznamů použitých v analytické úloze. Mezi kritéria výběru těchto dat patří relevance ve vztahu k cílům data miningové úlohy, kvalita a možná technická omezení využitých nástrojů jako je množství a datové typy vybraných dat.

V rámci čištění dat je snaha o získání takové kvality dat, která je vyžadována vybranou analytickou metodou. Může se jednat o vložení vhodných výchozích hodnot nebo nahrazení chybějících hodnot adekvátní metodou apod. Vytváření dat zahrnuje operaci s daty vytvářející odvozené atributy, celé nové záznamy nebo transformované hodnoty již existujících atributů. Odvozenými atributy jsou myšleny atributy, které jsou vytvořeny kombinací některých, v datech, již existujících atributů v rámci jednotlivých záznamů. Příkladem může být odvozený atribut ‚marže‘, který odpovídá rozdílu atributů ‚tržby‘ a ‚náklady‘.

Pokud jsou různá data týkající se konkrétního objektu uložena ve více tabulkách či datových sadách, jsou v rámci kroku integrace dat kombinována tak, aby dohromady tvořila nový záznam složený kombinací relevantních dat týkajících se tohoto objektu. V rámci této integrace může být provedena i agregace dat, pokud není nutné pracovat s detailními záznamy. Příkladem takové integrace může být spojení několika tabulek obsahujících údaje o zákazníkovi, kdy v jedné tabulce jsou osobní údaje zákazníka a ve druhé údaje demografické. Spojením těchto tabulek vznikne nová tabulka obsahující osobní i demografické údaje v rámci jednoho záznamu. Pod agregací dat je možné si představit situaci, kdy není třeba zkoumat jednotlivé nákupy konkrétního zákazníka, ale zkoumaným atributem může být například počet provedených nákupů zákazníka v určitém období.

Formátováním dat jsou myšleny operace s daty, které data upraví v syntaktickém smyslu. Tyto úkony jsou prováděny v rámci požadavků využitých nástrojů k následnému modelování dat. Požadavkem takového nástroje může být například pozice zkoumaného atributu v rámci datové sady, kdy může být vyžadováno umístění tohoto atributu na poslední pozici v datové sadě, nebo nutnost označení každého záznamu unikátním identifikátorem apod.

Data mohou být také transformována k účelu splnění specifických požadavků jednotlivých algoritmů data miningu. Může se jednat například o diskretizaci (rozdělení numerických dat do intervalů) či binarizaci (převedení kategorických dat na data numerická).

Výstupem této fáze je upravená datová sada vyhovující požadavkům konkrétního data miningového řešení a využitým algoritmům zpracovávajícím data.

1.3. Modelování

Larose popisuje tuto fázi pomocí čtyř stručných bodů, které jsou: (Larose c2005, str. 7):

  • Výběr a aplikace vhodných modelovacích technik.
  • Kalibrace parametrů vybraného modelu (data mining algoritmu) za účelem jeho optimálního nastavení a získání relevantních výsledků.
  • Mít na paměti, že často k řešení jednoho data miningového problému je možné využít několik rozdílných technik a modelů. Obecně se doporučuje využít více různých technik a jejich výsledky kombinovat.
  • Z předchozích kroků je možné, že vyplyne potřeba vrátit se zpět k fázi přípravy dat a jejich modifikaci tak, aby bylo pracováno s co nejvhodnějšími daty přizpůsobenými konkrétní zvolené data miningové technice.

1.4. Vyhodnocení výsledků

V této fázi dochází k vyhodnocení získaných znalostí, které jsou relevantní z pohledu data miningových metod. Tyto znalosti je však nutné vyhodnotit z pohledu manažerů, pro které jsou získané znalosti určeny a kteří určí, zda došlo k naplnění cílů úlohy definovaných v jejím zadání. V rámci evaluace výsledků klasifikační úlohy je možné zjistit například následující: „Výsledky testování klasifikačních znalostí ukázaly, že systém byl příliš přísný, tedy rozpoznával klienty rizikové, ale v určitých případech (obzvláště u vyšších půjček) za rizikové označil i klienty bonitní. Bylo tedy rozhodnuto, že ve všech pobočkách banky bude využíván program, který bude rozhodovat o úvěrech do určité částky.“(Berka 2003, str. 27). Nakonec dochází k určujícímu rozhodnutí o způsobu využití získaných výsledků.

1.5. Využití výsledků

V poslední fázi dochází k sumarizaci využitelných výsledků úlohy a k definici způsobu využití výsledků jednotlivými koncovými uživateli. Výstupy data miningové úlohy mohou být ve formě závěrečné zprávy o dosažených výsledcích nebo ve formě softwarového řešení automatizujícího proces celé data miningové úlohy v uživatelsky využitelné podobě.

Nejdůležitější fáze je porozumění problému, která zabere 20 % času, ale má 80% význam. Časově nejnáročnější je fáze přípravy dat, která zabírá 80 % času s 20% významem, přičemž modelování a analýza zkoumaných dat zabere 5 % času a má 5% význam. (Berka 2003, str. 28).

2. Poznámky, reference

Zdroje:

  • BERKA, Petr. Dobývání znalostí z databází. Praha: Academia, 2003. ISBN 80-200-1062-9.,
  • RAUCH, Jan a Milan ŠIMŮNEK. Dobývání znalostí z databází, LISp-Miner a GUHA. Praha: Oeconomica, nakladatelství VŠE, 2014. Odborná kniha s vědeckou redakcí. ISBN 9788024520339.,
  • SKALSKÁ, Hana. Data mining a klasifikační modely. Hradec Králové: Gaudeamus, 2010. Recenzované monografie. ISBN 9788074350887.
  • CHAPMAN, Pete, et al. CRISP-DM 1.0: Step-by-step data mining guide. In: The Modeling Agency [online]. Pittsburgh: One Oxford Centre, Copyright © 1999, 2000 [cit. 2017-11-21]. Dostupné z: https://www.the-modeling-agency.com/crisp-dm.pdf,
  • LAROSE, Daniel T. Discovering knowledge in data: an introduction to data mining. Hoboken, N.J.: Wiley-Interscience, c2005. ISBN 9780471666578.