M505 : Metodika CRISP

Kód metody:

M505

Popis, obsahové vymezení

1. Metodika CRISP–DM

Cross-Industry Standard Process for Data mining (CRISP-DM) je metodika pokrývající kompletní proces data miningových úloh (Rauch, Šimůnek 2014, str. 19).
Metodika, která je při použití nezávislá na konkrétním odvětví společnosti zkoumající data, na použitých softwarových nástrojích a také na aplikaci konkrétní metody či algoritmu v oblasti data miningu. (Chapman et al. 1999, 2000, str. 1)
Chapmanovo CRISP-DM představuje standardizovanou a volně dostupnou formu vhodného přístupu k řešení data miningových problémů definovaných v rámci obchodních či výzkumných oddělení společnosti.
Dle CRISP-DM sestává každý data miningový projekt z šesti vzájemně navazujících fází . Posloupnost těchto fází je adaptivní, což znamená, že následující fáze je obvykle velmi silně ovlivněna výstupy vytvořenými v rámci fáze předchozí.
CRISP-DM je znázorněna šipkami (viz základní slide) se zpětnou orientací, kdy je možné se po zpracování jedné fáze vrátit k fázi předchozí a provést potřebné, z následné fáze plynoucí, změny.
Vnější kruh v rámci diagramu symbolizuje cyklický charakter celého procesu , u kterého není neobvyklé, že po vyhodnocení výstupů úlohy (stejně tak i po využití získaných znalostí) je vhodné se vrátit na začátek celého procesu a překonfigurovat vstupní předpoklady tak, aby došlo k co možná největšímu zlepšení celého procesu a jeho výstupů. Jednotlivé fáze procesu dobývání znalostí z databází dle metodiky CRISP-DM jsou v dalším přehledu.

1.1. Porozumění problematice/zkoumané oblasti

V rámci této fáze je kladen důraz na porozumění požadavkům a cílům projektu z manažerského pohledu , dále probíhá hodnocení rizik a přínosů, kalkulace potřebných zdrojů a nákladů.
Je také stanoven předběžný plán průběhu prací. Je také nutné porozumět zkoumané oblasti, ze které pocházejí zkoumaná data, v rámci které je jejich analýza prováděna.
Data miningové úlohy je možné provádět v rámci různých doménových oblastí, které se mohou v mnohém lišit, jako jsou telekomunikace, marketing, strojírenství, doprava atd.,
Je třeba disponovat znalostí specifik zkoumaného odvětví k rozlišení mezi novými zajímavými a již známými znalostmi plynoucími z datové analýzy.

1.2. Porozumění datům

Autoři metodiky uvádějí v její dokumentaci několik kroků, které je nutné s daty v rámci této fáze provést : (Chapman et al. 1999, 2000, str. 18):
- Sběr vstupních dat – v tomto kroku je nutné získat data nebo alespoň přístup k nim ze zdrojů definovaných v rámci projektu. Výstupem tohoto kroku je seznam získaných datových sad a metod, pomocí kterých je možné data získat, a seznam problémů, které se v průběhu sběru dat vyskytly.
- Popis dat – popisem získaných dat je myšleno prozkoumání jejich hrubých a povrchových vlastností jako jsou datové typy, počty záznamů jednotlivých datových sad, významy jednotlivých polích apod. Důležitou částí tohoto kroku je zhodnocení možnosti využití získaných dat v souladu s relevantními požadavky projektu.
- Zkoumání dat – ke zkoumání dat jsou nejčastěji využívány deskriptivní a vizualizační techniky, v rámci kterých jsou data zobrazována a zkoumána. Zkoumána je například frekvence výskytu hodnot v rámci jednotlivých atributů, průměry, mediány, maximální a minimální hodnoty atd.
- Ověření kvality dat – tento krok je zaměřený na zjištění kvality získaných dat. Jeho cílem je odpovědět na otázky typu: Pokrývají data kompletně zkoumanou oblast v potřebné míře? Jsou data správná, nebo obsahují chyby? V jakém jsou chyby zastoupení? Obsahují data chybějící hodnoty? V jaké míře a kde se vyskytují, jak jsou reprezentovány chybějící hodnoty? Jestliže se v tomto kroku projeví datové chyby, je doporučeno vytvořit seznam jejich možných řešení. Tato řešení jsou silně závislá na zkoumaných datech a obchodních znalostí.
- Příprava dat – Berka popisuje tuto fázi následujícím způsobem: „Příprava dat zahrnuje selekci dat, čištění dat, transformaci dat, vytváření dat, integrování dat a formátování dat.“ (Berka 2003, str. 26). V této fázi probíhá výběr konkrétních atributů, ale i jednotlivých záznamů použitých v analytické úloze. Mezi kritéria výběru těchto dat patří relevance ve vztahu k cílům data miningové úlohy, kvalita a možná technická omezení využitých nástrojů jako je množství a datové typy vybraných dat. V rámci čištění dat je snaha o získání takové kvality dat, která je vyžadována vybranou analytickou metodou. Může se jednat o vložení vhodných výchozích hodnot nebo nahrazení chybějících hodnot adekvátní metodou apod. Vytváření dat zahrnuje operaci s daty vytvářející odvozené atributy , celé nové záznamy nebo transformované hodnoty již existujících atributů. Odvozenými atributy jsou myšleny atributy, které jsou vytvořeny kombinací některých, v datech, již existujících atributů v rámci jednotlivých záznamů. Příkladem může být odvozený atribut ‚marže‘, který odpovídá rozdílu atributů ‚tržby‘ a ‚náklady‘. Pokud jsou různá data týkající se konkrétního objektu uložena ve více tabulkách či datových sadách, jsou v rámci kroku integrace dat kombinována tak, aby dohromady tvořila nový záznam složený kombinací relevantních dat týkajících se tohoto objektu. V rámci této integrace může být provedena i agregace dat, pokud není nutné pracovat s detailními záznamy. Příkladem takové integrace může být spojení několika tabulek obsahujících údaje o zákazníkovi, kdy v jedné tabulce jsou osobní údaje zákazníka a ve druhé údaje demografické. Spojením těchto tabulek vznikne nová tabulka obsahující osobní i demografické údaje v rámci jednoho záznamu. Pod agregací dat je možné si představit situaci, kdy není třeba zkoumat jednotlivé nákupy konkrétního zákazníka, ale zkoumaným atributem může být například počet provedených nákupů zákazníka v určitém období. Formátováním dat jsou myšleny operace s daty, které data upraví v syntaktickém smyslu . Tyto úkony jsou prováděny v rámci požadavků využitých nástrojů k následnému modelování dat . Požadavkem takového nástroje může být například pozice zkoumaného atributu v rámci datové sady, kdy může být vyžadováno umístění tohoto atributu na poslední pozici v datové sadě, nebo nutnost označení každého záznamu unikátním identifikátorem apod. Data mohou být také transformována k účelu splnění specifických požadavků jednotlivých algoritmů data miningu. Může se jednat například o diskretizaci (rozdělení numerických dat do intervalů) či binarizaci (převedení kategorických dat na data numerická). Výstupem této fáze je upravená datová sada vyhovující požadavkům konkrétního data miningového řešení a využitým algoritmům zpracovávajícím data.

1.3. Modelování

Larose popisuje tuto fázi pomocí čtyř stručných bodů, které jsou: (Larose c2005, str. 7):
- Výběr a aplikace vhodných modelovacích technik.
- Kalibrace parametrů vybraného modelu (data mining algoritmu) za účelem jeho optimálního nastavení a získání relevantních výsledků.
- Mít na paměti, že často k řešení jednoho data miningového problému je možné využít několik rozdílných technik a modelů. Obecně se doporučuje využít více různých technik a jejich výsledky kombinovat.
- Z předchozích kroků je možné, že vyplyne potřeba vrátit se zpět k fázi přípravy dat a jejich modifikaci tak, aby bylo pracováno s co nejvhodnějšími daty přizpůsobenými konkrétní zvolené data miningové technice.

1.4. Vyhodnocení výsledků

V této fázi dochází k vyhodnocení získaných znalostí, které jsou relevantní z pohledu data miningových metod. Tyto znalosti je však nutné vyhodnotit z pohledu manažerů , pro které jsou získané znalosti určeny a kteří určí, zda došlo k naplnění cílů úlohy definovaných v jejím zadání.
V rámci evaluace výsledků klasifikační úlohy je možné zjistit například následující: „Výsledky testování klasifikačních znalostí ukázaly, že systém byl příliš přísný, tedy rozpoznával klienty rizikové, ale v určitých případech (obzvláště u vyšších půjček) za rizikové označil i klienty bonitní. Bylo tedy rozhodnuto, že ve všech pobočkách banky bude využíván program, který bude rozhodovat o úvěrech do určité částky.“(Berka 2003, str. 27).
Nakonec dochází k určujícímu rozhodnutí o způsobu využití získaných výsledků.

1.5. Využití výsledků

V poslední fázi dochází k sumarizaci využitelných výsledků úlohy a k definici způsobu využití výsledků jednotlivými koncovými uživateli.
Výstupy data miningové úlohy mohou být ve formě závěrečné zprávy o dosažených výsledcích nebo ve formě softwarového řešení automatizujícího proces celé data miningové úlohy v uživatelsky využitelné podobě.
Nejdůležitější fáze je porozumění problému, která zabere 20 % času, ale má 80% význam . Časově nejnáročnější je fáze přípravy dat, která zabírá 80 % času s 20% významem, přičemž modelování a analýza zkoumaných dat zabere 5 % času a má 5% význam. (Berka 2003, str. 28).

2. Poznámky, reference

BERKA, Petr. Dobývání znalostí z databází. Praha: Academia, 2003. ISBN 80-200-1062-9.,
RAUCH, Jan a Milan ŠIMŮNEK. Dobývání znalostí z databází, LISp-Miner a GUHA. Praha: Oeconomica, nakladatelství VŠE, 2014. Odborná kniha s vědeckou redakcí. ISBN 9788024520339.,
SKALSKÁ, Hana. Data mining a klasifikační modely. Hradec Králové: Gaudeamus, 2010. Recenzované monografie. ISBN 9788074350887.
CHAPMAN, Pete, et al. CRISP-DM 1.0: Step-by-step data mining guide. In: The Modeling Agency [online]. Pittsburgh: One Oxford Centre, Copyright © 1999, 2000 [cit. 2017-11-21]. Dostupné z: https://www.the-modeling-agency.com/crisp-dm.pdf,
LAROSE, Daniel T. Discovering knowledge in data: an introduction to data mining. Hoboken, N.J.: Wiley-Interscience, c2005. ISBN 9780471666578.