Co vlastně znamená „poznat klienta“?
V současné době o nich existuje velké množství dat, více či méně dobře konsolidovaných v datových skladech. Stále se ale objevují nové typy dat, které umí doslova odkrýt duši zákazníka. Jako příklad lze uvést internetové stránky, na kterých klient rád nakupuje, jaký druh zboží preferuje, jaká služba ho zaujala v internetovém bankovnictví anebo už jen to, co píše na Facebooku. A stejný požadavek na zpracování nových dat je stále častěji i v jiných oblastech, například ve sféře fraudu.
Jde o typově nová data, která nemusí být nutně v řádech petabajtů. Podle všech současných zkušeností z českého trhu by bylo jejich zpracovávání v datovém skladu, což je tradiční úvodní krok, čirý nerozum. V drtivé většině jsou datové sklady o „maličko“ dražší, než se jejich vlastníkům líbí, a každý terabajt navíc znamená útok na peněženku. Tato data navíc nejsou určena mase uživatelů, ale analytikům, které bychom mohli spočítat na prstech jedné ruky. Ti se s využitím vyšší matematiky pokoušejí vdechnout datům schopnost říkat o zákazníkovi stále víc a předpovídat i jeho budoucí chování. Schopnosti těchto „data analyst“ by měly být vpravdě renesanční, počínaje zpracováním dat přes znalost dané byznys problematiky až k vyšší matematice. Oprávněně je tedy toto „povolání“ označováno jako jedno z nejvíce sexy budoucího desetiletí.
Nejnáročnějším krokem v analýze dat je jejich samotná příprava. Hlavním zdrojem bývá datový sklad. Bohužel často tyto informace k analýze nepostačují. Doplnění dat z jiných zdrojů se většinou děje ad hoc přístupem, který je náročný na čas i zdroje. Ideálním stavem by bylo shromáždit všechna data na jedno místo a jejich zpracování začínat zde, bez zbytečných časových i finančních ztrát.
Hadoop: extrémně levné uložení dat
Na trhu jsou komerční řešení, která umějí zpracovat obrovské objemy dat, nebo technologie umožňující komplexní analýzy. Většinou ale znamenají velmi zásadní investici. Rozhodnutí o takovém nákupu připomíná filozofickou otázku s tématem drůbeže a jejího produktu (slepice a vejce) zhruba v duchu: jak zjistit, zda lze monetizovat data bez nákupu analytické platformy (tedy bez investic) a kde zároveň vzít jistotu, že jde o dobrý vklad?
Vhodným řešením je analytická platforma, která „poroste“ s požadavky zákazníka a nebude vyžadovat za dobu své existence významnou investici. Může jí být populární Hadoop, který dovoluje extrémně levné uložení všech dat, a stává se tak přitažlivým pro širší spektrum analytických nástrojů. Jako příklad kvalitních open source analytických nástrojů, které umějí analýzu nad Hadoopem, lze uvést Radoop (vzniklý klonem nástroje RapidMiner). K přípravě dat jsou k dispozici také ETL nástroje, jež využívají pro transformaci přímo Hadoop. Pro tuto platformu existuje i mnoho databází.
Hadoop je vysoce škálovatelný. Může existovat jako jediný počítač – kde analytik například na vzorku zjišťuje potenciál skrytý v datech – ale i jako cluster s mnoha jádry, kde se cena například za 20 jader (tedy asi 40 TB) a za další hardware i software odhadem pohybuje kolem 300 tisíc korun. Lze si jej pronajmout i formou cloudu pro potřeby specifického výpočtu.
Hadoop není všelékem na problémy současného IT světa, ale je pro určité problémy vhodnou platformou, u jiných stojí alespoň za sledování. Takovou oblastí může být například schopnost zpracování velkého objemu dat v real-time módu, kde vznikají řešení jako HStream nebo Storm.
Dnes již lze s jistotou říct, že exploze dat okolo nás hned tak neustane, naopak. Platforma Hadoop doplněná o analytické nástroje může být komplexním a překvapivě levným řešením současných (i budoucích) potřeb na efektivní zpracování dat.
Autor působí jako principal consultant ve společnosti Profinit