Vše začalo nenápadně – nástrojem pro indexaci webových stránek. Dnes je ale open source softwarová platforma Hadoop nástrojem, který může schraňovat a analyzovat obrovské objemy dat. Objemy, které by tradiční databázové systémy a datové sklady rychle dostaly na kolena.
Není proto divu, že na loňské podzimní konferenci Hadoop World 2010 v New Yorku bylo jedním z hlavních témat nasazení Hadoop v podnikovém prostředí – zejména v oblastech datových skladů a BI. Na přetřes přišel Hadoop i o pár týdnů později na konferenci Teradata Partners v San Diegu, které jsme se společně s lidmi z české pobočky a jejich zákazníky zúčastnili.
Hadoop je skutečně fenomenální nástroj pro chroustání dat, není možná vhodný pro všechny oblasti BI, ale pro opravdu komplexní a rozsáhlé analýzy může být velmi užitečný. Jedním z hlavních problémů řady společností provozujících rozsáhlé zákaznické systémy je objem dat, který generují – nejrozumnějším řešením se při používání klasických datových skladů a BI nástrojů zdá jejich zahození. Takovým problémům rozumí nejlépe lidé z Yahoo (zúčastnili se konference v New Yorku) nebo eBay (s nimi bylo pro změnu možné se setkat v San Diegu) a v podstatě se shodují v tom, že zahodit jakákoliv data, včetně generovaných zákaznickými weby a webovými transakčními systémy, je chyba – na způsoby, jak je využít, můžete často přijít až za rok či dva a možnost analyzovat v takovém případě zpětně historická data může být nedocenitelná.
A právě cluster Hadoop, využívající levný „komoditní“ hardware, může být cenově dostupnou cestou, jak taková data uchovávat a v budoucnu případně i analyzovat. Není proto divu, že jej podporuje stále větší počet renomovaných výrobců softwaru – mimo jiné právě Yahoo v minulém roce představilo řadu doplňků a vylepšení, které mohou být atraktivní pro podnikové uživatele. Integrační nástroje pro podnikové uživatele nabízí také výrobce BI softwaru Pentaho a cestu, jak využívat Hadoop coby hybridní rozšíření datových skladů, nabízí také spolupráce společností Teradata a Cloudera (dodává vlastní distribuci Hadoop).
Yahoo samotné patří pochopitelně k největším uživatelům Hadoop. Platforma je zde využívána jako rozsáhlý datový sklad, ale též pro schraňování informací a logů chování uživatelů (na jaké články, odkazy, sekce a inzeráty klikají) či veškerého obsahu a článků publikovaných na Yahoo. Eric Baldeschweiler k tomu vysvětluje: „Jedná se o velmi rozličný obsah, vtip je v tom, dokázat při tvorbě nových produktů a služeb vytvořit dotazy a analýzy, kombinující všechny tyto oblasti.“ Mezi vylepšení, která pro Hadoop vydalo samo Yahoo, patří například možnost provozu přes několik firewallů současně – doposud bylo pro zabezpečení dat uložených v Hadoop třeba umístit celý cluster za jediný firewall a důsledně kontrolovat přístupy. Mezi další novinky patří úprava plánovače workflow, nazývaná Ooozie, a vysokoúrovňové programovací prostředí Pig, umožňující spouštět úlohy MapReduce.
Mezi unikátní schopnosti Hadoop patří například možnost sběru, uspořádání a kondenzace obrovských objemů dat před jejich umístěním do relační databáze. Je také výborným nástrojem pro analýzy vztahů mezi lidmi a předměty, postupu označovaného jako „analýza sociálních grafů“, což je technika, s níž se tradiční relační databáze vyrovnávají o poznání hůře. Pochopitelně že ani Hadoop není dokonalý. Díky své distribuované povaze není tak rychlý jako jiné BI systémy – jeho odezva je skutečně výrazně pomalejší, a neměl by tedy být chápán jako alternativa k transakčnímu databázovému systému či datovému skladu, ale spíše jako platforma pro provádění úloh, s nimiž mají tato tradiční řešení problémy.
„Není to databáze. Je to odlišný druh datového úložiště i analytické platformy. Pokud máte problém, který vyžaduje relační databázi, měli byste si ji pořídit,“ vysvětluje Mike Olson, CEO společnosti Cloudera, která propojuje Hadoop právě s BI a DW řešeními Pentaho a Teradata. „Naopak pokud chcete kombinovat komplexní nestrukturovaná data z mnoha zdrojů a vytvořit sofistikované nástroje pro detekci vzorců v nich, pak je Hadoop jedinou možnou volbou,“ dodává Olson.
Hadoop
Apache Hadoop je softwarová platforma vyvíjená nadací Apache Software v jazyce Java a poskytovaná zdarma v rámci Apache License 2.0. Jedná se o multiplatformní distribuovaný souborový systém a sadu nástrojů umožňující, aby aplikace pracovaly s tisíci uzlů a řádově petabajty dat. Hadoop byl inspirován pojednáními o technologiích Google MapReduce a Google File System. Jeho původním tvůrcem je Doug Cutting, který jej pojmenoval po plyšovém slonu svého syna. http://hadoop.apache.org