Úloha
: Řešení a využití dolování dat
|
|
|
|
Kód úlohy
Standardní kód úlohy v MBI.
:
|
Autor návrhu úlohy
Jméno a příjmení autora úlohy
:
Kulhavý, L. (KIT, VŠE), MBI tým
|
|
Datum poslední úpravy
Datum poslední úpravy úlohy ve tvaru rrrr.mm.dd.
:
|
Předpokládaná pravděpodobnost užití v praxi
Předpokládaná pravděpodobnost užití úlohy v praxi, hodnoty 0 - 1. Např. 0,7 - úlohu lze využít v 7 z 10 podniků. Hodnoty jsou průběžně testovány a upřesňovány na základě anket a průzkumů.
:
|
|
|
Charakteristiky úlohy
1. “Dolování dat, Data mining“ – cíl, účel
-
Cílem
úloh data miningu jsou primárně predikce - je funkcí, která
využívá některých proměnných k předpovězení neznámých či budoucích hodnot jiných proměnných
, které nás zajímají“ (těch, které nejsou vstupy funkce) a deskripce, která se zaměřuje na hledání lidem srozumitelných vzorů popisujících data.
2. Obsah úlohy
- Obsah řešení úloh data miningu
vychází z metodiky CRISP-DM, tj. Cross-Industry Standard Process for Data Mining
.
Cílem
metodiky je vytvoření
standardního procesního modelu
, bez vazby na konkrétní prostředí, se zacílením na praktickou aplikaci data miningu (většinou komerční).
-
Základní charakteristiky metod a užití
úloh data mining jsou obsahem
faktoru MBI „Dolování dat“
(F413
).
3. Podmínky úspěšnosti úlohy
- Úspěch celého projektu závisí ve značné míře
na kvalitě třetí - přípravné fáze
. Často dochází k návratu do této fáze / aktivity
z fáze Modelování - z důvodů odhalených nepokrytých chyb v datech
, nebo nutných změn souvisejících s konkrétním algoritmem.
- Vzhledem k tomu, že neexistuje optimální metoda pro všechny úlohy,
doporučuje se hledat vhodnou metodu a vhodné nastavení parametrů
, a pro definitivní výběr nejlepší metody porovnat výsledky různých nastavení a různých metod.
4. “Dolování dat, Data mining“ - klíčové aktivity
Klíčové aktivity úlohy
odpovídají fázím metodiky CRISP-DM
:
-
Porozumění problematice
- identifikace cílů úlohy,
porozumění zadání
formulovaného manažery (vycházející z podnikových cílů),
transformace zadání do zadání vhodného pro úlohu data miningu
, zajištění vhodných zdrojů (především datových, ale i výpočetních či lidských) a stanovení předběžného plánu práce.
- Porozumění datům - získání dat a jejich následná analýza,
analýza charakteristik atributů
jako četnosti hodnot, extrémní hodnoty, rozdělení četností hodnot apod., využití přímo produktů pro data mining a vizualizačních nástrojů. Výsledkem je základní
představa o datech, která jsou k dispozici, identifikace chybějících hodnot a celková analýza kvality dat
.
- Příprava dat - příprava
finálního datového souboru
, který bude zpracováván konkrétními algoritmy. Soubor je připravován
s přihlédnutím ke konkrétnímu zvolenému algoritmu
(schopnost algoritmu zacházet s chybějícími hodnotami, vyžadované datové typy na vstupu, rozsah datového souboru). Zahrnuje
selekci dat, čištění dat, transformace dat, vytváření dat, integraci dat a formátování dat
– časově nejnáročnější operace z hlediska času v rámci celého cyklu CRISP-DM.
-
Modelování
- aplikace analytických metod (algoritmů pro úlohy data miningu),
hledání optimálních nastavení parametrů
pro jednotlivé algoritmy. Součástí je ověřování získaných výsledků.
- Vyhodnocení výsledků - kontrola dosažených výsledků oproti manažerskému zadání. V této fázi již jsou k dispozici výsledné znalosti (modely, vzory) dosažené analytickými metodami. Je důležité
zpětně zkontrolovat celý proces dobývání znalostí v souvislosti s manažerským zadáním
a případně identifikovat nedostatečně zohledněné obchodní (respektive vědecké) aspekty. Jako součást této aktivity je rozhodnutí o využití získaných znalostí.
- Využití výsledků - umožňuje další využití získaných znalostí. Výstup může mít podobu sahající
od seznamu pravidel, přes formulace získaných znalostí či analytické zprávy, až po praktická nasazení
získaných modelů (např. pro klasifikaci zákazníka) do produkčních systémů podniku.
5. Poznámky, reference
- KULHAVÝ, L. - Praktické uplatnění technologií Data Mining v pojišťovnictví - (VŠE, Praha 2011),
- Fayyad, Usama M., Piatesky-Shapiro, Gregory a Smyth, Padhraic. 1996. From Data Mining to Knowledge Discovery in Databases. AI Magzine. 1996,
- Berka, Petr. 2003. Dobývání znalostí z databází. Praha : Academia, 2003. str. 366. ISBN 80-200-1062-9,
- CRISP-DM. CRISP-DM - Home. CRISP-DM - Home. [Online] CRISP-DM..
|
|
|
|