Toto je objekt systému MBI.

MBI (Management Byznys Informatiky) je portál obsahující zobecněná řešení v řízení provozu a rozvoje IT, resp. podnikové informatiky.

Pokud máte zájem získat více informací o tomto objektu (vazby na další objekty, přílohy, apod.), ale i získat mnoho dalších užitečných materiálů, můžete tak učinit ZDE / (registrace je bezplatná).

Faktor : Jazyk R
Jazyk R
Kód faktoru

Standardní kód faktoru v MBI.

:
F418
Autor

Jméno a příjmení autora

:
Maleňák, J. (KIT, VŠE)
Podstatné charakteristik faktoru

Obsahové vymezení faktoru

1. Obsahové vymezení jazyka R
  • Jazyk R je programovací jazyk a zároveň prostředí pro statistické zpracování dat a jejich grafické zobrazení pomocí integrovaných nástrojů distribuovaný pod volnou GNU licencí pro svobodný software. R byl vytvořen a odvozen z komerční verze programovacího jazyka a prostředí výzkumníky vývojové organizace Bellových laboratoří sídlících ve Spojených státech amerických. (The Comprehensive R Archive Network, Copyright © 2000–2017).
  • Celé prostředí a rozšiřující balíčky jazyka R je možné získat z webového archivu CRAN „Comprehensive R Archive Network“ neziskového sdružení R Foundation založeného členy vývojového týmu jazyka R.
  • Toto sdružení bylo založeno za několika účely:*
  • poskytovat podporu projektu R a dalším inovacím v oboru statistických výpočtů,
    • poskytnout referenční bod pro jednotlivce, instituce nebo komerční společnosti, které chtějí podpořit nebo jinak spolupracovat s vývojářskou komunitou jazyka R,
    • držet a spravovat autorská práva a dokumentaci jazyka R.
  • Jazyk R je možné nainstalovat a provozovat na nejčastěji využívaných počítačových platformách, tedy na platformách UNIX, macOS a Windows.
1.1. Balíčky (packages) jazyka R
  • Po instalaci jazyka R je zároveň nainstalována základní sada funkcionalit umožňující statistickou a grafickou práci se zkoumanými daty. Velkou výhodou využití jazyka R je enormní možnost rozšíření těchto funkcionalit pomocí tzv. balíčků.
  • Balíčkem je myšlena kolekce funkcí a datových sad vytvořena komunitou uživatelů a vývojářů pracujících s jazykem R. Každý z balíčků neobsahuje pouze kód jazyka R, ale také dokumentaci popisující integrované funkce a způsob práce s balíčkem, testy ověřující, že vše funguje tak jak má, a zkušební datové sady.
1.2. Datové zdroje
  • Jazyk R umožňuje zpracovat data z množství datových zdrojů :
    • zdroje v podobě lokálních datových souborů, jako jsou textové, XML, .csv, excelové soubory a mnoho dalších,
    • databázové systémy, přes relační, XML databáze po NoSQL a IN-Memory databáze,
    • data z oblasti BigData například díky připojení se k frameworku Hadoop,
    • data uložená v internetových úložištích bez potřeby jejich stažení a například k datům sociálních sítí jako je Twitter, Facebook, Instagram přes speciální, k tomu určené rozhraní.
  • Každé z takovýchto připojení je realizováno pomocí funkcí definovaných v různých balíčcích . Díky těmto balíčkům je možné se tedy připojit k téměř jakémukoli zdroji dat.
1.3. RStudio Desktop
  • RStudio je softwarový nástroj umožňující snadnou práci s programovacím jazykem R . Jedná se o integrované vývojové prostředí , tzv. IDE (Integrated Development Environment), které v rámci jednoho nástroje může obsahovat editor zdrojového kódu (skript v jazyku R), kompilátor pro překlad příkazů do strojového jazyka, interpret, který slouží k přímému vykonání příkazů vytvořeného kódu, a debugger sloužící k odchytávání chyb ve zdrojovém kódu a jeho ladění. Díky integraci těchto komponent je zvyšována celková produktivita práce programátora , který není odkázaný pouze na příkazový řádek, kterým je jazyk R používán, není-li využito žádného integrovaného vývojového prostředí, což může být značně nepohodlné.
  • RStudio je vývojovým prostředím pro vytváření statistických analýz dat pomocí jazyka R. Distribuováno je ve formě klasické desktopové či serverové formě, ke které je možné vzdáleně přistupovat a plně ji využívat přes webové rozhraní pomocí internetového prohlížeče.
  • Jedná se o open-source software , díky čemuž je možné obě formy tohoto nástroje v základní verzi využívat zdarma dle podmínek upravujících možné způsoby využití open-source softwaru licence AGPL ve verzi 3. (RStudio, 2016).
1.4. Jazyk R a Data mining
  • V procesu zpracování data miningových úloh je jazyk R využit v několika fázích tohoto procesu dle metodiky CRISP-DM, to:
    • Porozumění datům – načtení dat, jejich zobrazení a zkoumání pomocí histogramů, grafů a dalších vizualizací,…,
  • Příprava dat – transformace dat, ošetření chybějících hodnot, výběr relevantních sloupců,…,
  • Modelování – definice a využití jednotlivých data miningových modelů, zpracování statistických vlastností těchto modelů, jejich ladění,…,
  • Vyhodnocení výsledků – poskytnutí výsledků - výstupních dat, statistických ukazatelů a vizualizací, o jejichž relevantnosti je rozhodováno manažery a zadavateli úlohy,… (The R Project for Statistical Computing, Copyright©2003-2017).
  • Pomocí R je možné využít téměř všechny techniky klasifikačních, predikčních a deskriptivních úloh z oblasti data miningu, jako jsou:
    • regresní modely,
    • analýzy časových řad,
    • shlukování,
    • rozhodovací stromy,
    • neuronové sítě,
  • a další.