;

Michal Bezák, SAP: Mnoho firem má v datových skladech zastaralé informace

29. 1. 2013
Doba čtení: 5 minut

Sdílet

 Autor: © Sergej Khackimullin - Fotolia.com
Vyzpovídali jsme Michala Bezáka, PreSales Associate ve společnosti SAP, na téma velkých dat a BI.

CIO Business World: Společnosti jsou dnes zatíženy záplavou nejrůznějších dat z vnitřních i vnějších zdrojů. Jak oddělit zrno od plev tak, aby se růst nákladů na datové úložiště když ne zastavil, tak alespoň zpomalil? Lze vůbec v záplavě dat efektivně selektovat ta kvalitní (nebo jakýmkoliv způsobem přínosná) ještě před tím, než jsou vůbec uložena?

Michal Bezák, SAPMichal Bezák: To je samozřejmě možné – relevantní data a zprávy můžete „zachytávat“ s použitím technologie Complex Event Processing. Následně je možné „zachycené“ zprávy analyzovat pomocí výkonného kalkulačního enginu, který zpracovává data v operační paměti. Už zanalyzované data nemusí být nutně dlouhodobě uložena – závisí to na legislativních požadavcích případně dalších požadavcích na analýzu.

Mnoho firem také drží ve svých datových skladech již zastaralé a nerelevantní informace. Z tohoto hlediska pomůže archivace případně koncept near-line storage, kdy se méně aktuální data ukládají do ekonomičtějšího near-line úložiště, zatímco vysoce aktuální data jsou k dispozici pro okamžitou analýzu.

Výhodou je možnost optimalizace řešení z hlediska dostupnosti dat a finanční náročnosti celého řešení, nevýhodou může být relativně větší odezva dotazů na data uložená v near-line storage.

Studie IDC ukazuje, že společnosti reálně potřebují pouze 15 % dat, která v reálu ukládají. Jakým způsobem je možné tuto statistiku zvrátit?

Změnit se musí celý přístup k tomu, jak ukládáme data, která analyzujeme. V případě tradiční architektury datového skladu mají dnes společnosti několik kopií těch samých dat uložených na několika místech. Příchod in-memory databázových systémů pro management dat mění celou architekturu datového skladu a výrazně ji zjednodušuje – to přináší výhody v podobě výrazného omezení potřeby agregátů a indexů a také potřebu několika databází a několikanásobného ukládání dat pro potřeby analýzy. Platformy založené na in-memory computingu jsou totiž schopné analyzovat data v původní podobě, bez předešlé agregace.

Existují kromě deduplikace i další způsoby, jak snižovat extrémní objemy ukládaných dat?

Kromě deduplikace existují i jiné způsoby komprese dat. Každý dodavatel používá jiné technologie a přístupy ke kompresi dat. Například sloupcově orientované databázové systémy přinášejí několik výhod, mezi jinými také možnost větší komprese dat a rychlost dotazování, protože ukládají data stejného typu společně.

Příkladem může být mzda zaměstnance, která bude 12 měsíců stejná, ale uloží se jenom jednou s odkazem na jednotlivé měsíce. Výsledkem je, že několikanásobně větší objem vstupních dat je možné uložit na stejnou velikost úložiště dat. To má za následek pokles paměti potřebné k exekuci jednotlivých dotazů.

V souvislosti s termínem big data se často hovoří o tom, že jde pouze o nový, marketingově atraktivní název pro dávno používané technologie. Existují kromě možnosti paralelizace úloh i další vodítka, jak poznat skutečně inovativní řešení pro zpracování dat?

Souhlasím s tím, že termín big data způsobuje mnoho nedorozumění a je při tom těžce definovatelný.

Osobně preferuji termín big value – tedy hodnotu jakou data mají a možnost jejích transformace do podoby použitelných a relevantních informací. Pravě v této oblasti se díky inovativním technologiím jako je právě in-memory computing mohou analýzy dat posunout o krok kupředu.

Co se týče inovativních řešení, tak bych odkázal na Gartner BI Hype cycle, který jmenuje jednotlivé inovace v oblasti BI. Patří mezi ně mimo jiné data mining workbench, sloupcově uspořádané databázové systémy, in-memory databázové systémy a real-time aplikace pro podporu rozhodování.

Velmi zajímavé výsledky přináší trend in-memory computingu, tedy rychlého zpracování obrovských objemů dat přímo v paměti serverů. Toto řešení se však zatím zdá být finančně obtížně dostupné. Přijde někdy doba, kdy se z něj stane mainstream?

bitcoin_skoleni

Z mého pohledu ta doba určitě nastane a v podstatě již nastává. A nemyslím si to jenom já, ale také například analytici společnosti Gartner. Předpovídají, že in-memory technologie bude jedním z top 10 technologických trendů pro rok 2013. V dnešní době se už mnoho společností rozhodlo nasadit technologii in-memory computingu a většinou začínají s menšími projekty a selekcí jenom určité skupiny dat, která chtějí analyzovat přímo v paměti, přičemž pro analýzu ostatních dat používají klasické technologie.

Jsou ale i takové společnosti, kterým umožní in-memory computing vytvářet nové business modely a neváhají investovat do této technologie i větší finanční obnosy. Dalším příkladem jsou již celé informační systémy, které běží jenom na in-memory databázových systémech.