V takříkajíc „konzervativním” rohu stojící Bill Inmon, označovaný někdy za „otce datových skladů” se na rostoucí zájem o virtuální datové sklady dívá jako na staré dobré techniky federace – oprášené a přejmenované. Federace či EII (Enterprise Information Intelligence) je postup spřádání oddělených databází do kompaktního celku – to vše v reálném čase za pomoci middleware pro distribuované databáze. Je to technika, používaná v minulosti s určitými úspěchy, zejména pro aplikace typu OLTP, kde je umístění dat přesně definováno a tím jsou přístupové cesty předvídatelné, nikdy se ale neprosadila v masovém měřítku u BI aplikací s velkými nároky na výkon datových úložišť, u nichž podniky obvykle používají specializované datové sklady či tržiště (marts).
James Kobielus sedící ve futuristickém rohu nejprve odmítnul Inmonův „jedovatý políček virtuálním datovým skladům” a předložil svou vlastní vizi. Ta zahrnuje „virtualizované podnikové datové sklady, v nichž bude možné uchovávat data v rozličných fyzických a logických formátech… v prostředí typu IaaS (Information as a Service)”. Není ovšem zcela jasné, zda si Jim představuje mrak, v němž je virtualizováno několik databází (tedy dnešní EII na steroidech), nebo jedinou databázi běžící na několika výpočetních platformách, která „se stane mrakem” tak, že bude podporovat několik externích, koncepčních i fyzických schémat uvnitř jediného virtualizovaného systému – nebo cokoliv mezi těmito dvěma extrémy. Právě tato nejednoznačnost v konceptu je možná hlavní příčinou sporu mezi Inmonem a Kobielusem.
Výzva
Jedním z hlavních problémů při nasazování virtuálních datových skladů je otázka optimalizace distribuovaných dotazů. Klasická optimalizace dotazů je námětem pro doktorandské práce, její distribuovaná podoba je však ještě o poznání složitější – vyžaduje přinejmenším vyčerpávající a přesná technická metadata popisující, jaké vztahy existují mezi informacemi v jednotlivých databázích, a dále nástroj pro optimalizaci dotazů, založený na znalosti distribuce dat, aktuální zátěže, dostupného výpočetního výkonu a odezvy sítě.
Řada dnešních databázových systémů je právě v oblasti nákladové optimalizace dotazů velmi průměrná. Často je třeba, aby správce databáze poskytl určitou „nápovědu” nebo určil stupeň paralelismu – a to vše za situace, kdy je třeba obsloužit data uložená v jediné databázi. S rostoucím objemem dat a složitostí prováděných analýz se situace pochopitelně ještě zhoršuje. Propustnost rozhraní je častým hardwarovým omezením při „tradičních” zátěžích typu data mining či OLAP. Pokud data rozdělíme do několika úložišť, musíme přenášet rozsáhlé dílčí výsledky po síti či dokonce po internetu namísto toho, abychom je zpracovali v rámci rychlých rozhraní jediného systému.
Navíc za předpokladu, že data jsou v těchto několika úložištích uložena redundantně, musí systém zvládnout test soudržnosti – dokáže middleware spojující distribuované databáze zajistit, že dva uživatelé, pokládající stejný dotaz, dostanou tu samou odpověď, bez ohledu na to, do kterých úložišť jsou tyto dva dotazy nasměřovány? Věci se dále komplikují, pokud chceme, aby virutalizovaný systém složený z několika přesahujících redundantních databází podporoval „operativní analýzu” (tzv. aktivní datové sklady) na soustavně streamovaných datech, a to takřka v reálném čase – v takovém případě je totiž třeba nejen zjistit, která z platforem dokáže odpovědět na dotaz nejrychleji a nejefektivněji, ale také zda má k dispozici nejaktuálnější kopii požadovaných dat.
Datové sklady a privátní mraky
Přesto některé podniky již začaly nabízet své existující datové sklady coby interní či privátní mraky svým interním zákazníkům – oddělením. Vypadá to zhruba takto: můžete nadále vytvářet svá datová tržiště, poskytneme vám k tomu dokonce infrastrukturu zdarma, budete to ale dělat v „interním mraku” (což je v podstatě nevyužitá část datového skladu). V případě, že některá či všechna data, která chcete využít, již existují v datovém skladu, využijete je přímo namísto toho, abyste je kopírovali či znovu nahrávali.
Takové řešení se líbí všem. Ambiciózní vedoucí mají možnost budovat nové analytické systémy podle svých požadavků a harmonogramu – nemusí prosit a čekat na IT oddělení. Navíc mohou využít data, která již ve skladu jsou. IT má na druhou stranu lepší kontrolu nad šířením duplicitních dat a optimálně využívá dostupnou infrastrukturu. Neúspěšné projekty jsou rychleji ukončeny a uvolní místo a zdroje těm, které se osvědčí – ty je navíc možné rychleji nasadit do provozního režimu.
Virtuální datové sklady
Největším hitem v oblasti virtualizace jsou v současné době produkty jako VMware, Xen či Hyper-V, umožňující vyrovnávat zátěž na mnoha slabě zatížených serverech. Jsou to nástroje pro konsolidaci serverů, díky nimž je možné ušetřit obrovské částky za hardware, energii a chlazení. Pokud ale dodavatel databáze tvrdí, že je virtuální či „v mraku” právě díky těmto nástrojům, jedná se spíše o oportunistický marketing než o skutečnou technologickou inovaci.
Teradata zahájila virtualizaci již v době, kdy byl jednoprocesorový systém nahrazen virtualizovanými paralelními výpočetními prvky (v terminologii Teradata je označujeme „AMP” a lze je chápat jako virtualizovaná databázová jádra), které byly součástí Teradata 2 v roce 1995. Tento krok bystrozrace předvídal moderní vícevláknový a vícejádrový hardware – naše systémy tak mohou běžně pracovat s vytížením procesoru 80–90 procent.
Tato virtualizace je také základem našeho patentovaného řešení pro migraci paralelních výpočetních prvků, díky kterému jsou systémy Teradata schopny přežít selhání hardwarového uzlu a které umožňuje „koexistenci” několika generací infrastruktury – naši zákazníci mohou přidat výkon v podobě nových výpočetních uzlů, aniž by museli celý systém přebudovat.
Systém Teradata Virtual Services (TVS), který je součástí databázového řešení Teradata 13, je naším dalším krokem v oblasti virtualizace – zejména v oblasti pokročilé správy úložišť. Díky němu je možné v jediném systému používat různé velikosti diskových jednotek – uživatelé tak mohou využívat novější, levnější disky s vyšší hustotou záznamu a menší cenou za terabyte pro uložení „studených” dat, zatímco často využívaná a kritická „horká” data jsou uložena na výkonnějších discích s nižší hustotou. To je výhodné zejména s tím, jak se objevují zákonné požadavky na uchovávání některých typů dat, která je takto možné skladovat levněji.
Příznivcům jiných databázových systémů se možnost mixovat různé velikosti disků v jediném systému možná nezdá převratná, TVS je ovšem transparentní a umožňuje, aby Teradata RDBMS rozděloval data rovnoměrně do dostupných úložišť pro dosažení nejlepšího možného paralelního výkonu – to vše bez nutnosti ručních zásahů. TVS navíc dokáže automaticky detekovat „teplotu” – tedy význam dat – a přesouvat ta „horká” na vnější sektory pevných disků, kde je výkon čtení a zápisu nejvyšší.
Tato automatizovaná migrace dat je chytrým trikem, který v budoucnu umožní podporovat v jediném systému různé typy úložišť – SSD disky pro nejčastěji využívaná data, disky fibre channel pro často požadované informace a konečně klasické SATA disky o kapacitě 1 TB a vyšší pro data, která organizace musejí uchovávat, přistupují k nim ale velmi zřídka a s nízkou prioritou dotazů.
V posledním čtvrtletí Teradata navíc ohlásila několik řešení v oblasti výpočetního mraku – Teradata Enterprise Analytics Cloud poskytuje zákazníkům flexibilní architekturu, která umožňuje využít cloud computingu pro analytické operace. Řešení Teradata Express pro Amazon EC2 pak umožňuje snadno a rychle vytvářet nízkonákladová modelová řešení a prototypy databází v prostředí veřejného mraku s využitím služeb Amazon EC2. Podobně lze využít Teradata Express for VMware Player – podnikovým uživatelům dávají veřejné i interní výpočetní mraky možnost rychle a snadno svépomocí vybudovat krátkodobá analytická datová tržiště, aniž by museli pořizovat nákladnou infrastrukturu. Vytvořit podpůrné řešení pro rozhodování lze díky výpočetnímu mraku levně a rychle.
Evoluce, nikoliv revoluce
Dopad cloud computingu na datové sklady bude spíše evolučního než revolučního charakteru. Budou-li platné fyzikální zákony, tak tu sofistikované, mnohaterabajtové a mnohauživatelské aktivní datové sklady zůstanou. Cloud computing ale již dnes nabízí cenově výhodnou možnost, jak nasazovat jednoduché, levné datové sklady či tržiště. EII middleware bude ale muset ujít značný kus cesty, než se „federace na steroidech” ve webovém prostředí stane použitelnou. Virtualizaci se v architekturách nejvýznamnějších poskytovatelů DMBS daří dobře – je základem pro inteligentnější ukládání informací a lepší využití výkonu serverů.