;

Pět technologických trendů v BI …a jak je využít

12. 9. 2012
Doba čtení: 11 minut

Sdílet

 Autor: © Mopic - Fotolia.com
Současné trendy ve vývoji IT technologií pro byznys těží z poptávky po lepší analýze dat i po nových pohledech na tržní trendy.

Denně se na trhu objevují nové technologie pro správu a analýzu velkého objemu různých dat. Nejde ale jen o to, data zvládnout kvantitativně, ale získat z nich i kvalitativně nové informace.

V oblasti moderních analytických nástrojů se v současnosti objevuje pět hlavních trendů: velká data, technologie pro rychlejší zpracování, klesající ceny IT komodit, rozšiřování moderních technologií a sociální média.

1. Velká data

Pojem „velká data“ (anglicky „big data“) se vztahuje k rozsáhlým sadám dat, zejména k těm, které se nedaří snadno zařadit do tradičních datových skladů. To znamená v první řadě údaje získané automatizovaným procházením internetu (pomocí tzv. web crawlerů), dále údaje ze sociálních sítí, serverových logů, dodavatelských řetězců, průmyslových a sledovacích senzorů apod.

Ačkoli ne každá společnost potřebuje techniky a technologie pro zpracování velkých nestrukturovaných datových sad, myslí si Perry Rotella, CIO ve společnosti Verisk Analytics, která pomáhá finančním korporacím hodnotit rizika a spolupracuje s pojišťovnami na zjišťování podvodů prostřednictvím analýzy dat, že by se každý CIO měl přinejmenším seznámit s analytickými nástroji pro management velkých dat.

Vedoucí IT oddělení by se podle Rotella měli ztotožnit s myšlenkou, že čím více dat, tím lépe. Takové uvažování se týká zejména společností, jejichž obor podnikání zahrnuje hledání vzorců chování a korelací mezi jevy a událostmi, jejichž výskyt nelze předpovídat. Velká data jsou potenciálně výbušným trendem, zejména pro organizace, které musí zpracovat a uchovat obrovské množství dat. K takovým se řadí například banky, pojišťovny či veřejné instituce.

Jednou z nejvíce diskutovaných technologií v souvislosti s velkými daty je Hadoop, open source platforma pro zpracování dat, která byla původně vytvořena pro úkoly, jako je kompilace webových vyhledávacích indexů. Je to jedna z tzv. NoSQL technologií (další zahrnují CouchDB a MongoDB), které se v poslední době objevily, aby pomohly novým způsobem organizovat webová data. Hadoop dokáže zpracovat petabajty dat přiřazením části dat stovkám či tisícům serverů, každý z nich pak zpracovaná data vrací do „centrální správy“, která jim následně přiřazuje další práci. Hadoop může být použit buď k přípravě dat, nebo přímo jako nástroj pro jejich analýzu. Organizace nemající k dispozici dostatečnou vlastní výpočetní sílu si mohou pronajmout přístup k instancím Hadoop od poskytovatelů služeb, jako je například Amazon.

Společnost HMS, americký poskytovatel zdravotního pojištění, zvažuje použití NoSQL technologií, ne však pro své masivní zdravotní databáze. Ty obsahují strukturovaná data, která lze zpracovat tradičními warehousovými nástroji. Nicméně Hadoop by si mohl najít místo při analýze podvodných aktivit nebo ještě lépe v odhalování neefektivnosti a plýtvání. Konkrétně jde například o analýzu toho, jak často pacienti chodí k lékařům a jaká vyšetření jsou jim předepisována.

Jody Mulkey, CIO společnosti Shopzilla poskytující srovnání nabídek jednotlivých prodejních serverů, říká, že používají Hadoop k tomu, k čemu předtím sloužily tradiční aplikace pro správu dat. Navíc však mohou vypracovávat analýzy, o kterých se jim předtím ani nesnilo. Například nyní mohou zpracovat všechna analyzovaná data, aniž je musí kouskovat a zpracovávat po mezistupních. Technologie jako Hadoop však nejsou užitečné či potřebné pro každou společnost, i když operují s velkým objemem dat. Příkladem jsou organizace, které sice uchovávají množství dat, jsou však více či méně statická, není nutné je dále zpracovávat a jen se k nim přistupuje. Příkladem mohou být údaje sociálního pojištění, kde se nehledají žádné dodatečné souvislosti.

John Ternent, CIO společnosti Island One Resorts, říká, že pojem velkých dat je relativní a každá společnost si ho může definovat po svém. Nicméně v jeho firmě vážně uvažují o tom, že by začali Hadoop používat v cloudu jako cenově efektivnější způsob správy portfolia hypoték.

2. Nástroje business analytics se zrychlují

Technologie velkých dat jsou jen jedním z prvků většího trendu směřujícího k rychlejším analytikám, říká CIO Kentucké univerzity Vince Kellen. A zdůrazňuje, že uživatele v zásadě nezajímá, jak velká data má, ale jak rychle je analytické technologie dokážou zpracovat. Výpočetní výkon dnešních počítačů poskytuje mnohem větší potenciál pro zpracování dat než kdykoliv dříve, a to zejména díky rychlosti a kapacitě operačních pamětí, které jsou řádově rychlejší než při zpracování dat z tradičních pevných disků (a to i když se jedná o relativně malé objemy).

Vývoj databází směřoval dlouhou dobu k optimalizaci, to znamená zejména načítání často požadovaných dat do vyrovnávací paměti. Nicméně díky již zmíněnému výkonu se jako praktičtější mnohdy jeví načítat celé datové sady přímo do paměti serveru či clusteru více serverů. Díky tomu dnes lze provést analýzu určitého objemu dat za několik sekund, zatímco před pěti lety by to trvalo třeba celou noc. Tradiční firemní prediktivní analýzy jsou spouštěny na velkém objemu dat a zahrnují databázové dotazy, hledání vzorců a úpravy před tím, než je poslán další dotaz. Kdysi zabralo většinu času načítání dat, s dnešními technologiemi trvá delší dobu spíše vytvoření modelu než jeho spuštění.

Sloupcové databázové servery staví na hlavu tradiční relační databáze založené na sloupcích a řádcích, a díky tomu řeší jeden z problémů výkonu. Místo toho, aby takový server načítal všechna data a z nich pak požadované sloupce, může dotaz směřovat přímo na získání konkrétního sloupce. To výrazně zvýší výkon aplikací, zejména pokud analyzují jen několik sloupců z velkého databázového prostoru.

Výhoda výkonového bonusu sloupcové databáze se však projevuje jen při použití vhodné aplikace a dotazu. A obecně se zvýšení výkonu projevuje jen u databází větších než 500 GB, a to protože tento databázový typ se spoléhá na určité opakování ve struktuře dat. To se projevuje jen tehdy, pokud jich je dostatek. Ke zvýšení výpočetního výkonu lze použít i poměrně netradiční metody. Například Allan Hackney, CIO pojišťovací a finanční společnosti Jahn Hancock, používá pro výpočetní aplikace výkonné grafické procesory, které obvykle potkáváme spíše v herních počítačích. Důvod je jasný – matematické výpočty ve vizualizačních aplikacích jsou velmi podobné tomu, co se děje ve statistické analýze. A to je oblast, kde jsou GPU mnohokrát výkonnější než běžné CPU.

3. Technologie zlevňují

Analýzy těží nejen ze zvyšování výkonu, ale i ze snižujících se cen pamětí i disků. Atraktivní ceny se však netýkají jen hardwaru, ale i softwaru, kde open source alternativy úspěšně konkurují komerčním produktům. John Ternent je jedním z náruživých propagátorů open source aplikací. Než začal pracovat pro Island One, byl viceprezidentem vývoje pro společnost Pentaho, poskytovatele open source BI řešení. Island One, společnost střední velikosti, tak s Johnem Ternentem používá ke statistické analýze open source software R namísto tradičního SAS.

Bývaly doby, kdy open source nástroje nabízely jen základní reporting, ale dnes již poskytují i nejpokročilejší prediktivní analytiky. Zákazníci si tak mohou vybrat open source software v celé šířce analytických funkcionalit.

Snižování cen hardwaru i softwaru mění i některé z obvyklých způsobů rozhodování o investicích a konfiguraci systémů. Například jedním z tradičních důvodů pro budování datových skladišť byla snaha dát do jednoho místa jak samotná data, tak dostatečný výkon pro jejich zpracování. V době, kdy byla výpočetní síla vzácnější než dnes, bylo velmi důležité přenést zátěž analýzy z operačních systémů, aby se předešlo snížení výkonu poskytovaného běžným provozním aplikacím. Nicméně dnes to často není jediné správné řešení. Se současnými cenami a výkonem hardwaru si už lze dovolit přenést zpracování BI aplikací přímo na operační systém. Když odpadne nutnost připravit data k přenosu do datového skladu, je mnohdy rychlejší a snadnější je zpracovat přímo na místě.

I když výkon roste a ceny klesají, v protisměru postupují nároky na stále vyšší úložnou kapacitu, výpočetní výkon i celkový příkon elektrické energie. Zejména posledně zmíněný faktor tak může zkalit radost z rychlejších systémů a tlačit na omezení nárůstu uložených dat.

4. Mobilita kam se podíváte

Podobně jako téměř každá aplikace i BI se přesouvá do mobilních zařízení. Jmenovitě pro společnost HMS je mobilní BI prioritní záležitostí, už jen protože firemní zákazníci požadují neustálou kontrolu dodržování dohod o úrovni nabízených služeb (SLA). Prvním krokem je zatím poskytování těchto mobilních aplikací zaměstnancům, kteří si je tak mohou přečíst na tabletu. Dalším krokem bude poskytování přímo zákazníkům.

Pro CIO to znamená zajistit vytvoření uživatelského rozhraní pro mobilní telefony a tablety, takového, které je přizpůsobené dotykovému ovládání a mobilnímu přenosu dat. To bývá mnohdy vnímáno jako něco pod úroveň CIO, a proto paradoxně zanedbáváno.

Rozhodnutí, pro jaké zařízení optimalizovat mobilní aplikace, však nemusí být tak jednoduché, jak by se mohlo zdát. Před pár lety byl ještě iPhone v plenkách a po Androidu nebylo ani vidu, ani slechu, nyní jsou tyto technologie všude. Jaká však bude situace za rok, za dva?

Na druhou stranu vývoj mobilních aplikací je čím dál snadnější i díky stále propracovanějším vývojovým prostředím, která mají vývojáři k dispozici. CIO by se proto neměli obávat iniciovat co nejrychleji vytvoření mobilního přístupu k podnikovým datům, a to nejen pro čtení, ale i jejich zápis. Nakonec pro pracovníky bude mnohem pohodlnější zadávat data do systému, kdykoli je to vhodné, než s jejich vkládáním čekat, až budou mít k dispozici podnikový desktop.

5. A k tomu všemu sociální média

Facebook, Twitter a další sociální média jsou dnes téměř všudypřítomná a stále více společností stojí o to rychle analyzovat data na nich vznikající. I proto se objevily nové analytické nástroje nabízející netradiční statistické techniky jako například zpracování přirozeného jazyka či síťovou analýzu, tedy věci, které nejsou součástí typické BI sady nástrojů.

ICTS24

Analytické nástroje pro sociální sítě jsou často nabízeny jako služba (SaaS – Software as a Service). Jedním z významných produktů je Radian6, nedávno koupený společností Salesforce.com. Radian6 analyzuje pozitivní, neutrální i negativní projevy týkající se produktu či značky, ať již se objeví na Twitteru, Facebooku, blogu či v nějaké diskuzi. Užitek z monitorování diskuzí a příspěvků mohou mít stejně tak ziskové jako neziskové organizace. Například Dell používá podobné nástroje ke sledování (ne)spokojenosti se svými notebooky, včasné identifikaci konstrukčních závad a nespokojenosti s nějakou funkčností. Univerzita v Kentucky pak sleduje například podněty pro vývoj nových aplikací, které by studentům ulehčily život.

Nalézání takových impulzů a korelací mezi výstupy organizace a reakcí zákazníků hraje mimo jiné velkou roli ve snaze přesvědčit vedení společnosti, že investice do sociálních sítí mají smysl.