Toto je objekt systému MBI.

MBI (Management Byznys Informatiky) je portál obsahující zobecněná řešení v řízení provozu a rozvoje IT, resp. podnikové informatiky.

Pokud máte zájem získat více informací o tomto objektu (vazby na další objekty, přílohy, apod.), ale i získat mnoho dalších užitečných materiálů, můžete tak učinit ZDE / (registrace je bezplatná).

Úloha : Řešení a využití dolování dat
Řešení a využití dolování dat
Kód úlohy

Standardní kód úlohy v MBI.

:
U445A
Autor návrhu úlohy

Jméno a příjmení autora úlohy

:
Kulhavý, L. (KIT, VŠE), MBI tým
Datum poslední úpravy

Datum poslední úpravy úlohy ve tvaru rrrr.mm.dd.

:
2016-11-19
Předpokládaná pravděpodobnost užití v praxi

Předpokládaná pravděpodobnost užití úlohy v praxi, hodnoty 0 - 1. Např. 0,7 - úlohu lze využít v 7 z 10 podniků. Hodnoty jsou průběžně testovány a upřesňovány na základě anket a průzkumů.

:
Charakteristiky úlohy

Charakteristiky úlohy

1. “Dolování dat, Data mining“ – cíl, účel
  • Cílem úloh data miningu jsou primárně predikce - je funkcí, která využívá některých proměnných k předpovězení neznámých či budoucích hodnot jiných proměnných , které nás zajímají“ (těch, které nejsou vstupy funkce) a deskripce, která se zaměřuje na hledání lidem srozumitelných vzorů popisujících data.
2. Obsah úlohy
  • Obsah řešení úloh data miningu vychází z metodiky CRISP-DM, tj. Cross-Industry Standard Process for Data Mining . Cílem metodiky je vytvoření standardního procesního modelu , bez vazby na konkrétní prostředí, se zacílením na praktickou aplikaci data miningu (většinou komerční).
  • Základní charakteristiky metod a užití úloh data mining jsou obsahem faktoru MBI „Dolování dat (F413 ).
3. Podmínky úspěšnosti úlohy
  • Úspěch celého projektu závisí ve značné míře na kvalitě třetí - přípravné fáze . Často dochází k návratu do této fáze / aktivity z fáze Modelování - z důvodů odhalených nepokrytých chyb v datech , nebo nutných změn souvisejících s konkrétním algoritmem.
  • Vzhledem k tomu, že neexistuje optimální metoda pro všechny úlohy, doporučuje se hledat vhodnou metodu a vhodné nastavení parametrů , a pro definitivní výběr nejlepší metody porovnat výsledky různých nastavení a různých metod.
4. “Dolování dat, Data mining“ - klíčové aktivity

Klíčové aktivity úlohy odpovídají fázím metodiky CRISP-DM :

  • Porozumění problematice - identifikace cílů úlohy, porozumění zadání formulovaného manažery (vycházející z podnikových cílů), transformace zadání do zadání vhodného pro úlohu data miningu , zajištění vhodných zdrojů (především datových, ale i výpočetních či lidských) a stanovení předběžného plánu práce.
  • Porozumění datům - získání dat a jejich následná analýza, analýza charakteristik atributů jako četnosti hodnot, extrémní hodnoty, rozdělení četností hodnot apod., využití přímo produktů pro data mining a vizualizačních nástrojů. Výsledkem je základní představa o datech, která jsou k dispozici, identifikace chybějících hodnot a celková analýza kvality dat .
  • Příprava dat - příprava finálního datového souboru , který bude zpracováván konkrétními algoritmy. Soubor je připravován s přihlédnutím ke konkrétnímu zvolenému algoritmu (schopnost algoritmu zacházet s chybějícími hodnotami, vyžadované datové typy na vstupu, rozsah datového souboru). Zahrnuje selekci dat, čištění dat, transformace dat, vytváření dat, integraci dat a formátování dat – časově nejnáročnější operace z hlediska času v rámci celého cyklu CRISP-DM.
  • Modelování - aplikace analytických metod (algoritmů pro úlohy data miningu), hledání optimálních nastavení parametrů pro jednotlivé algoritmy. Součástí je ověřování získaných výsledků.
  • Vyhodnocení výsledků - kontrola dosažených výsledků oproti manažerskému zadání. V této fázi již jsou k dispozici výsledné znalosti (modely, vzory) dosažené analytickými metodami. Je důležité zpětně zkontrolovat celý proces dobývání znalostí v souvislosti s manažerským zadáním a případně identifikovat nedostatečně zohledněné obchodní (respektive vědecké) aspekty. Jako součást této aktivity je rozhodnutí o využití získaných znalostí.
  • Využití výsledků - umožňuje další využití získaných znalostí. Výstup může mít podobu sahající od seznamu pravidel, přes formulace získaných znalostí či analytické zprávy, až po praktická nasazení získaných modelů (např. pro klasifikaci zákazníka) do produkčních systémů podniku.
5. Poznámky, reference
  • KULHAVÝ, L. - Praktické uplatnění technologií Data Mining v pojišťovnictví - (VŠE, Praha 2011),
  • Fayyad, Usama M., Piatesky-Shapiro, Gregory a Smyth, Padhraic. 1996. From Data Mining to Knowledge Discovery in Databases. AI Magzine. 1996,
  • Berka, Petr. 2003. Dobývání znalostí z databází. Praha : Academia, 2003. str. 366. ISBN 80-200-1062-9,
  • CRISP-DM. CRISP-DM - Home. CRISP-DM - Home. [Online] CRISP-DM..