CIO Business World: Společnosti jsou dnes zatíženy záplavou nejrůznějších dat z vnitřních i vnějších zdrojů. Jak oddělit zrno od plev tak, aby se růst nákladů na datové úložiště když ne zastavil, tak alespoň zpomalil?
Jozef Vondrák: Osobně se domnívám, že není reálné očekávat zmírnění nárůstu objemu dat. Nicméně, také si myslím, že díky systémům, které data organizují, je možné udržovat kvalitu uložených dat, a tedy i jejich výtěžnost. Jinými slovy, náklady porostou, ale nebude to vadit, když budou vykompenzovány přínosy.
Efektivní selekce kvalitních dat je otázkou priorit. V zásadě si musíme odpovědět na otázku, zda ukládat taková data, která nejsou systematizovaná, a jaký dáme takovýmto datům prostor.
Studie IDC ukazuje, že společnosti reálně potřebují pouze 15 % dat, která v reálu ukládají. Jakým způsobem je možné tuto statistiku zvrátit?
Pokud jde o holá čísla, jsou zde dvě cesty, jak zvýšit zmíněných 15 procent. Jednak je možné striktně omezit kapacitu neorganizovaných úložných prostor, jako jsou sdílené disky nebo kapacita individuálních mailových schránek, tedy ukládat méně dat. Tento přístup však nelze zavést, jedná-li se o finanční data nebo o data ze systémů řízení výroby.
Druhá cesta je zvýšení procenta nevyužívaných dat. Trendy ve využívání systémů pro práci s podnikovými daty, jako například rozvoj systémů CRM, ERP, BI, DMS ... a jiných, ukazují, že zvyšování výtěžnosti dat je schůdné a zároveň žádoucí pro řízení společností.
Je to tedy nejen otázka technická, ale i organizační. Do firemního prostředí musí být implementovány systémy, které dají uloženým datům adekvátní hodnotu.
Existují kromě deduplikace i další způsoby, jak snižovat extrémní objemy ukládaných dat?
Deduplikace je jedním z technických prostředků, jak dosáhnout snížení objemu ukládaných dat. Kromě technických prostředků je nutné zahrnout i prostředky organizační.
Důležitou metou v každé společnosti, která generuje větší množství provozních a jiných dat, by mělo být zavedení systému, který udržuje konstantní poměr mezi pořádkem a chaosem.
Klíčovým se ukazuje implementace procesu odstraňování nepotřebných dat a motivace uživatelů k jeho udržování. Tento proces by měl být průběžného charakteru a měl by být výsledkem jakoby mimochodem.
Kromě deduplikace je možné odstraňovat neplatná data z důvodu jejich stáří, nevyužívání nebo neaktuálnosti. K tomu však potřebujeme znát strukturu a interní vztahy mezi daty, k čemuž napomáhají systémy CRM, ERP, BI, DMS ... a spousta jiných určených pro provoz společností.
Průzkumy ukazují, že společnosti, které se důsledně zabývají datovou analytikou, mohou nad konkurencí získat zajímavé konkurenční výhody.
Ano, je to tak. Datová analytika přináší informace typu "proč". Díky analýze dat lze dělat předpovědi typu "co se stane, když". Navíc, datová analytika je sama o sobě nutným předpokladem k proaktivnímu přístupu k zákazníkům, a to jak v úrovni technické, tak i v úrovni marketingu a obchodu.
Když tedy vše sečteme, kdo dělá datovou analytiku, ví, proč je tam, kde je, ví, co se přibližně stane, když udělá to nebo ono, a ví dříve než zákazník, co je nutné vykonat pro zákazníkovu spokojenost. Toto jsou tři konkurenční výhody postavené na znalostech.
Jaké typy podniků mohou od BI očekávat největší přínosy a kde půjde naopak spíše o plýtvání penězi?
Přínos BI je všude, v každém typu podniku, komerčním i ve veřejné správě. Přínos BI se zvyšuje s tím, jak roste závislost rozhodování, a to nejen obchodního, na datech získaných činností podniku.
Lidé, kteří rozhodují o budoucnosti podniku, definují cíle, na základě své vize a dat, souvislostí, analýz a předpovědí, které jim poskytnou systémy BI.
O plýtvání penězi by se mohlo jednat snad jen v případě neúspěšné implementace BI.
V souvislosti s termínem big data se často hovoří o tom, že jde pouze o nový, marketingově atraktivní název pro dávno používané technologie. Existují kromě možnosti paralelizace úloh i další vodítka, jak poznat skutečně inovativní řešení pro zpracování dat?
Pojem big data je marketingový pojem, stejně jako například pojem cloud. Nicméně, použijeme - li tento termín, pak máme na mysli technologie pro práci s velkými objemy dat, jejich pořizování, analýzu, skladování, prohledávání, vizualizaci a sdílení. Pro přiblížení, rozsah dat bývá takový, že jej zpravidla nejsou schopny pojmout běžné relační databáze. Od toho se následně odvíjí další nakládání s takovými porcemi dat.
Pokud se týče zpracování dat, tak vědní obory jako fyzika i matematika mají pár želízek v ohni, které, až budou nasazeny do praxe, budou novým tahounem inovací. Z toho mi vychází spojení s "lidmi, kteří to již řešili" jako jedno z vodítek, na které je spolehnutí.
Velmi zajímavé výsledky přináší trend in-memory computingu, tedy rychlého zpracování obrovských objemů dat přímo v paměti serverů. Toto řešení se však zatím zdá být finančně obtížně dostupné. Přijde někdy doba, kdy se z něj stane mainstream?
Teorie říká, že v úlohách algoritmizace lze vyměnit "prostor" za "čas". Tj. úloha s velkým prostorem, tedy s velkým využitím paměti, má malou spotřebu výpočetního času v porovnání se stejnou úlohou, která je optimalizovaná na malé používání paměti.
Máme-li na mysli mainstream v technologické oblasti, potom věřím, že in-memory computing se mainstreamem stane. In-memory computing je však termín popisující technologii. Ve spotřebitelské oblasti se proto spíše budeme setkávat se službami a produkty, pro které je využití in-memory computingu klíčové a právě tato technologie bude návazné služby a produkty činit dostupnějšími.