Toto je objekt systému MBI.

MBI (Management Byznys Informatiky) je portál obsahující zobecněná řešení v řízení provozu a rozvoje IT, resp. podnikové informatiky.

Pokud máte zájem získat více informací o tomto objektu (vazby na další objekty, přílohy, apod.), ale i získat mnoho dalších užitečných materiálů, můžete tak učinit ZDE / (registrace je bezplatná).

Faktor : Jazyk R
Jazyk R
Kód faktoru

Standardní kód faktoru v MBI.

:
F418
Autor

Jméno a příjmení autora

:
Maleňák, J. (KIT, VŠE)
Podstatné charakteristik faktoru

Obsahové vymezení faktoru

1. Obsahové vymezení jazyka R

Jazyk R je programovací jazyk a zároveň prostředí pro statistické zpracování dat a jejich grafické zobrazení pomocí integrovaných nástrojů distribuovaný pod volnou GNU licencí pro svobodný software. R byl vytvořen a odvozen z komerční verze programovacího jazyka a prostředí výzkumníky vývojové organizace Bellových laboratoří sídlících ve Spojených státech amerických. (The Comprehensive R Archive Network, Copyright © 2000–2017).

Celé prostředí a rozšiřující balíčky jazyka R je možné získat z webového archivu CRAN „Comprehensive R Archive Network“ neziskového sdružení R Foundation založeného členy vývojového týmu jazyka R. Toto sdružení bylo založeno za několika účely:

  • poskytovat podporu projektu R a dalším inovacím v oboru statistických výpočtů,
  • poskytnout referenční bod pro jednotlivce, instituce nebo komerční společnosti, které chtějí podpořit nebo jinak spolupracovat s vývojářskou komunitou jazyka R,
  • držet a spravovat autorská práva a dokumentaci jazyka R.

Jazyk R je možné nainstalovat a provozovat na nejčastěji využívaných počítačových platformách, tedy na platformách UNIX, macOS a Windows.

1.1. Balíčky (packages) jazyka R

Po instalaci jazyka R je zároveň nainstalována základní sada funkcionalit umožňující statistickou a grafickou práci se zkoumanými daty. Velkou výhodou využití jazyka R je enormní možnost rozšíření těchto funkcionalit pomocí tzv. balíčků. Balíčkem je myšlena kolekce funkcí a datových sad vytvořena komunitou uživatelů a vývojářů pracujících s jazykem R. Každý z balíčků neobsahuje pouze kód jazyka R, ale také dokumentaci popisující integrované funkce a způsob práce s balíčkem, testy ověřující, že vše funguje tak jak má, a zkušební datové sady.

1.2. Datové zdroje

Jazyk R umožňuje zpracovat data z množství datových zdrojů:

  • zdroje v podobě lokálních datových souborů, jako jsou textové, XML, .csv, excelové soubory a mnoho dalších,
  • databázové systémy, přes relační, XML databáze po NoSQL a IN-Memory databáze,
  • data z oblasti BigData například díky připojení se k frameworku Hadoop,
  • data uložená v internetových úložištích bez potřeby jejich stažení a například k datům sociálních sítí jako je Twitter, Facebook, Instagram přes speciální, k tomu určené rozhraní.

Každé z takovýchto připojení je realizováno pomocí funkcí definovaných v různých balíčcích. Díky těmto balíčkům je možné se tedy připojit k téměř jakémukoli zdroji dat.

1.3. RStudio Desktop

RStudio je softwarový nástroj umožňující snadnou práci s programovacím jazykem R. Jedná se o integrované vývojové prostředí, tzv. IDE (Integrated Development Environment), které v rámci jednoho nástroje může obsahovat editor zdrojového kódu (skript v jazyku R), kompilátor pro překlad příkazů do strojového jazyka, interpret, který slouží k přímému vykonání příkazů vytvořeného kódu, a debugger sloužící k odchytávání chyb ve zdrojovém kódu a jeho ladění. Díky integraci těchto komponent je zvyšována celková produktivita práce programátora, který není odkázaný pouze na příkazový řádek, kterým je jazyk R používán, není-li využito žádného integrovaného vývojového prostředí, což může být značně nepohodlné.

RStudio je vývojovým prostředím pro vytváření statistických analýz dat pomocí jazyka R. Distribuováno je ve formě klasické desktopové či serverové formě, ke které je možné vzdáleně přistupovat a plně ji využívat přes webové rozhraní pomocí internetového prohlížeče. Jedná se o open-source software, díky čemuž je možné obě formy tohoto nástroje v základní verzi využívat zdarma dle podmínek upravujících možné způsoby využití open-source softwaru licence AGPL ve verzi 3. (RStudio, 2016).

1.4. Jazyk R a Data mining

V procesu zpracování data miningových úloh je jazyk R využit v několika fázích tohoto procesu dle metodiky CRISP-DM, to:

  • Porozumění datům – načtení dat, jejich zobrazení a zkoumání pomocí histogramů, grafů a dalších vizualizací,…,
  • Příprava dat – transformace dat, ošetření chybějících hodnot, výběr relevantních sloupců,…,
  • Modelování – definice a využití jednotlivých data miningových modelů, zpracování statistických vlastností těchto modelů, jejich ladění,…,
  • Vyhodnocení výsledků – poskytnutí výsledků - výstupních dat, statistických ukazatelů a vizualizací, o jejichž relevantnosti je rozhodováno manažery a zadavateli úlohy,… (The R Project for Statistical Computing, Copyright©2003-2017)

Pomocí R je možné využít téměř všechny techniky klasifikačních, predikčních a deskriptivních úloh z oblasti data miningu, jako jsou:

  • regresní modely,
  • analýzy časových řad,
  • shlukování,
  • rozhodovací stromy,
  • neuronové sítě,
  • a další.