Hlavní navigace

Jak zpracovat petabajty dat: Vědecké sítě příští generace

3. 3. 2003
Doba čtení: 19 minut

Sdílet

Vědecké experimenty, které budou spuštěny v následujících letech, vyprodukují obrovská množství nových dat. Jejich skladování, distribuce i zpracování si vyžádá zcela nové přístupy. Proto vzniká nová počítačová síť jménem GriPhyN. V roce 1990 vznikl v Evropských laboratořích částicové fyziky (CERN) v Ženevě systém world wide web. I nyní je toto pracoviště zapojeno v projektu, který by měl posunout možnosti počítačového zpracování dat o pořádný kus cesty dopředu.

Vědecké experimenty, které budou spuštěny v následujících letech, vyprodukují obrovská množství nových dat. Jejich skladování, distribuce i zpracování si vyžádá zcela nové přístupy. Proto vzniká nová počítačová síť jménem GriPhyN. V roce 1990 vznikl v Evropských laboratořích částicové fyziky (CERN) v Ženevě systém world wide web. I nyní je toto pracoviště zapojeno v projektu, který by měl posunout možnosti počítačového zpracování dat o pořádný kus cesty dopředu.

Do projektu GriPhyN (Grid Physics Network) se přitom zapojí také university z USA a americká National Science Foundation (NSF) již oznámila udělení grantu ve výši téměř 12 miliónů dolarů.

V CERNu se na urychlovači částic LHC (Large Hadron Collider) připravují experimenty, které by měly umožnit nahlédnout do úplných základů struktury hmoty. Cílem je zodpovědět otázky typu "proč proton váží 2000krát více než elektron". Každý z experimentů zaměstná řádově tisíce vědců z celého světa. A každý z nich bude produkovat petabyty dat (peta = 10^15) ročně.
Již v loňském roce byl přitom zahájen další velmi ambiciózní projekt - pátrání po gravitačních vlnách produkovaných pulzary, supernovami a dalšími exotickými vesmírnými objekty. Už nyní je v provozu také automatická prohlídka oblohy (SDSS - Sloan Digital Sky Survey), jejímž cílem je pořízení dosud nejobsáhlejšího astronomického katalogu v digitální podobě.

Grid pro fyziky
Enormní množství dat, jejich skladování, zpracování a zpřístupnění tisícům vědců z celého světa, to všechno jsou faktory dosud bezprecedentní. Žádný počítač není dostatečně výkonný, aby všechny tyto funkce zvládl. Koncepce GriPhyN proto přináší řešení v podobě propojení universit, superpočítačových center, výzkumných laboratoří a dalších zdrojů do jediného obřího počítače virtuálního. Jeden z vedoucích celého projektu, profesor Ian Foster z University of Chicago, přirovnal GriPhyN k jakémusi Napsteru pro vědce.
Pojmenování Grid ukazuje na analogii s elektrickou rozvodnou sítí. Kdykoliv připojíte spotřebič k této síti, nevíte zda odebíranou energii vyrobila tepelná elektrárna nacházející se v severních Čechách, vodní elektrárna na Vltavě či jedna z jaderných elektráren - pouze očekáváte její dodávku. Princip Gridu je podobný. Po zadání úlohy do celosvětové sítě daný vědec nebude vědět, zda jeho úlohu zrovna řeší Národní počítačové centrum v Indianě či PC na některé universitě. Síť automaticky tuto úlohu zadala některému v daný okamžik zrovna nevyužitému zdroji.
Aby bylo možno uvést myšlenku Gridu do praxe, musí informační technologie překonat řadu doposud neřešených problémů:
- rychlý a jednoduchý přístup k datovým souborům z databází, jejichž velikost vzroste v následujícím desetiletí ze 100 TB na 100 PT.
- jednoduchý přístup k distribuovaným výpočetním zdrojům, jejichž výkon během následujících deseti let vzroste z teraflopů na petaflopy.
- spojení řádově tisíců pracovišť, přičemž šířka přenosového pásma jednotlivých z nich se může lišit o celé řády.

Cílů projektu přitom nelze dosáhnout pouhým přidáním výpočetních zdrojů. Realizace myšlenky bude vyžadovat řadu nových řešení, například algoritmy distribuovaného počítání, vysokorychlostní sítě, uchování rozsáhlého množství dat a prostředky pro jeho řízení a kontrolu.
Mezi jednotlivými experimenty, pro jejichž řešení GriPhyN vzniká, existuje navíc řada odlišností. Hledání velmi slabých signálů v rámci projektu LIGO bude vyžadovat velký výpočetní výkon, řádově až petaflopy, což je nesrovnatelně více než oba experimenty na LHC. Tyto pokusy budou na druhé straně ale produkovat o dva řády více dat než LIGO, jehož množství výstupních dat je zase mnohem větší než u SDSS. Rovněž rozsah vědecké komunity u jednotlivých experimentů je různý. Zatímco data LHC budou očekávat tisíce vědců, u zbývajících projektů to budou stovky.

Vrstevnatá struktura
Navrhované řešení předpokládá propojení výpočetních zdrojů CERNu, univerzit a výzkumných laboratoří do víceúrovňové hierarchické počítačové sítě, jež by byla mezikontinentální co se týká geografického rozložení. Tato síť by měla mít pět vrstev:

- Vrstva 0 - CERN, experimenty ATLAS a CMS
- Vrstva 1 - americké národní centrum pro experimenty ATLAS, CMS, LIGO a SDSS
- Vrstva 2 - regionální centra umístěná na universitách (malé země, státy USA)
- Vrstva 3 - výpočetní zdroje výzkumných skupin na jednotlivých univerzitách
- Vrstva 4 - individuální pracovní stanice (tisíce)

Každá vrstva je definována kapacitou dat, které je schopna ukládat a poskytovat na vstupu/výstupu. V rámci grantu americké Národní vědecké nadace bude financována vrstva 2, zatímco vrstvu 1 by mělo vybudovat americké Ministerstvo energetiky (DoE), neboť právě v jeho národních laboratořích budou centra pro ATLAS a CMS. Vrstvu nula má na starosti samozřejmě CERN. A zbývající dvě vrstvy jsou úkolem jednotlivých pracovišť, která budou do Gridu zapojena.
Zatímco vrstvy 3 a 4 vzniknou v podstatě "jenom" rozšířením současných kapacit a zdrojů, u vrstvy 2 se bude jednat o zcela nový výpočetní zdroj. Multigigabitová páteřní síť propojí jednotlivá pracoviště 2. vrstvy s centry vrstvy 1 a s CERNem. K této síti budou připojena pracoviště nižších vrstev pomocí v té době již existujícího internetu nové generace. Předpokládá se existence 19-20 center 2. úrovně. Zatím nejsou pevně stanovena kritéria pro jejich výběr, ale předpokládá se jejich geografická rozptýlenost, možnost co nejsnazšího připojení k vysokorychlostní páteřní síti a také poloha v oblastech se zastoupením kvalifikovaného personálu. Odhadované náklady na jejich zřízení jsou 85-90 miliónů dolarů investovaných v průběhu 5 let.

Expertní obsazení
Tým GriPhyN je tvořen sedmi výzkumnými skupinami a členy všech čtyř rozsáhlých experimentů. Analýza dat z těchto experimentů představuje obrovskou výzvu. Tisíce vědců roztroušených po celém světě a spojených sítěmi s přenosovou kapacitou lišící se o celé řády musejí totiž být schopny získávat velmi slabé signály z extrémního pozadí. Požadavky na výpočetní výkon během následujícího desetiletí vzrostou řádově ze stovek terabytů na stovky petabytů. Výpočetní i skladovací kapacity musí být z technických i strategických důvodů geograficky rozloženy mezi národní, regionální a universitní centra i individuální počítače. Rozsah tohoto úkolu zdaleka přesahuje současné možnosti řízení a zpracování dat.
Základem koncepce budoucího systému je proto představa tzv. virtuálních dat (Virtual Data), která zahrnuje definici a dodání potenciálně neomezeného virtuálního prostoru. V tomto virtuálním datovém prostoru bude každý požadavek uspokojen buď přímým přístupem k datům, nebo výpočtem. Užitá strategie při řešení každého požadavku bude záviset na lokálních i globálních zdrojích a bezpečnostních omezeních.
Ačkoliv hlavním cílem projektu GriPhyN je základní výzkum v oblasti virtuálních datových sítí, budou zároveň vytvářeny i softwarové systémy a aplikovány technologie umožňující analýzu dat. Vzniklé výpočetní kapacity najdou své uplatnění například i v biologii (projekt čtení lidského genomu), medicíně (projekt mapování lidského mozku), studiu životního prostředí (dálkový průzkum Země), rentgenové krystalografii (databáze molekulárních struktur), geofyzice (časové řady seizmických dat), meteorologii (analýza satelitních snímků) a řadě dalších oborů.

Virtuální datová síť
Ve zmíněných experimentech se objevují problémy, lišící se v následujících aspektech od v současné době vyřešených úkolů:
- analýza dat je nejen výpočtově, ale i datově intenzivní a může zahrnovat tisíce počítačů a dalších síťových zdrojů. Problémem není jenom přenos velkého množství dat, ale též koordinované řízení jejich zpracování.
- potřebná koordinace se přitom týká velkého počtu zdrojů, které jsou ze strategických a technických důvodů geograficky značně distribuované a nejsou ani centrálně řízené.
- rozsah uživatelských požadavků a možností jednotlivých zdrojů je obrovský - od komplexních problémů jednotlivých experimentů po individuálních požadavky jednotlivých účastníků.

Virtuální datová sít má proto následující charakteristiky:
- velký rozsah (národní, celosvětový), zahrnuje velké množství zdrojů
- je to víc než "jenom" síť v podobě jakou má například dnešní internet; poskytuje nové sofistikované služby, mechanismy a rozhraní, které dohromady umožní, aby vzdálené zdroje byly využity při koordinovaném úsilí
- poskytuje nový stupeň průhlednosti v tom, jak jsou integrovány manipulace s daty dat a zpracovací kapacity. Tato průhlednost je nezbytná z toho důvodu, aby síť využívající mnohaúrovňové a rozptýlené zdroje bylo možno nějak optimalizovat.

Představa virtuálních dat znamená, že všechna data - s výjimkou dat experimentálních - mohou existovat pouze jako specifikace postupu jejich odvození z experimentálních dat. To znamená, že Grid může obsahovat nula, jednu či hned několik kopií odvozených dat v závislosti na pravděpodobnosti požadavků na ně a na relativních nákladech jejich výpočtu, skladování a přenosu.
Konkrétní příklad může vypadat následujícím způsobem (viz také schéma). Astronom se zabývá souvislostmi mezi orientací galaxií a efektem gravitační čočky vytvořené temnou mezigalaktickou hmotou. Ke svému výzkumu využije data pocházející ze SDSS. Potřebuje přitom analyzovat řádově desítky miliónů galaxií. Pro každou z nich musí nejdříve získat její snímek, zpracovat jej a uložit výsledek. Vykonání tohoto požadavku znamená několikanásobný přístup do katalogu virtuálních dat. Nejdříve je zjištěno, zda už podobná analýza nebyla provedena. Pokud ne, jsou vyhledány aplikace potřebné pro transformaci hrubých dat a k určení místa jejich uložení. Může se jednat o síťovou cache, vzdálené diskové systémy či "hluboký" archív. Dále jsou zjištěny možnosti zapojení jednotlivých počítačů a sítí, kterou budou schopny požadované operace provést. Tento jednotlivý požadavek tak může zahrnovat využití tisíců procesorů a přesun terabytů dat po celé síti.
Cílem projektu přitom samozřejmě není jen teoretický výzkum v dané oblasti, ale rovněž aplikace získaných poznatků při vývoji výpočetních nástrojů. Postupně by měla být vyvinuta celá komplexní sada nástrojů virtuální sítě (Virtual Data Toolkit, VDT).

IT pro virtuální data
Realizace pojmu virtuálních dat v sobě zahrnuje nutný výzkum ve třech hlavních směrech.
- technologie virtuálních dat. Budou vyžadovány nové metody katalogizace, charakterizace, ověřování a archivace softwarových produktů, které budou sloužit k integraci manipulace s virtuálními daty s existujícími informačními modely a přenosovými protokoly. Tyto metody musejí být aplikovány v prostředí, ve kterém jsou jednotlivé softwarové komponenty, data a výpočetní kapacity distribuovány, pod lokální kontrolou a s možností updatu. Katalog virtuálních dat je zdrojem mnoha typů informací, například metadata, procedury, reprodukce dat či informace o samotném gridu. Ačkoliv obsahuje různé typy dat s různými charakteristikami, jednotná reprezentace a přístupové metody zjednoduší plánování požadavků. Výzkum koordinuje Reagan W. Moore a podílí se na něm odborníci ze San Diego Supercomputer Center a University of California (Berkeley).

- plánování síťových dat a výpočetních zdrojů. Faktory, které ovlivňují vývoj plánu, zahrnují požadavek uživatele, plánování na globální i lokální úrovni a celkový stav systému. Požadavek nemusí znamenat pouze samotnou žádost o splnění určitého úkolu, ale může zároveň obsahovat optimalizační kritéria, jako je zpracování v nejkratším možném čase či využití co nejmenšího množství síťových zdrojů. Jakýkoliv plán je samozřejmě omezen dostupností zdrojů a to znamená nutnost získání informací o systému. To ovšem komplikuje plánování kvůli rozsáhlosti systému a obtížnosti stanovení budoucího stavu systému. Výzkum v této oblasti, který vychází ze zkušeností už zmíněného projektu Monarc, vede Ian Foster. Jeho tým zahrnuje vědce z University of Chicago, Florida, Indiana a Southern California.

- řízení výměny dat a prováděných úkolů mezi jednotlivými centry a organizacemi. Poté, co je vyvinut plán pro vyřešení daného požadavku, vyvstane potřeba mechanismu, který bude řídit provedení tohoto plánu v rámci virtuální datové sítě. V souladu s představou nástrojů virtuálních dat mají i výkonné mechanismy splňovat vrstevnatou strukturu. Budou založeny na existenci agentů různých úrovní, kteří budou řídit distribuované výpočty, lokalizaci a následné zapojení zdrojů, detekci chyb a interakci mezi plánem a jeho provedením. Simulace chování Gridu budou velmi důležitým vývojovým nástrojem. Výzkum naváže na výsledky experimentů Condor, Globus a dalších, vede jej Miron Livny a dále na něm spolupracují University of Florida, Wisconsin a California, San Diego.

Budoucnost
Vysoce decentralizovaná síť umožní uživatelům nacházejícím se kdekoliv na světě efektivní přístup ke špičkovým datům z jednotlivých fyzikálních oborů. Co je ještě důležitější, Grid zcela převrátí celosvětově zažitou představu jednotlivých pracovišť soustředěných do center. Namísto přesunu lidí a zdrojů z různých míst do těchto laboratorních center umožní přesun dat k lidem na různých místech.
Využití ve vědeckém výzkumu je zřejmé. Ale i komerční společnosti by mohly možností těžit z možností nové sítě. Pokud by tato myšlenka přilákala soukromé investory, mohl by Grid velmi rychle následovat bouřlivý rozvoj internetu, který následoval po jeho otevření komerčnímu světu.

CS24

SSDI - Sloan Digital Sky Survey
Jedná se o jednu z nejambicióznějších astronomických map oblohy všech dob. Cílem projektu je detailní zmapování jedné čtvrtiny oblohy, určení pozic a absolutních jasností více než 100 miliónů astronomických objektů a změření vzdáleností více než miliónu galaxií a kvasarů. Určení vzdáleností blízkých galaxií umožní sestavit třírozměrný obraz vesmíru v objemu tisíckrát větším než bylo dosud uskutečněno. Naopak zjištění vzdáleností kvasarů, tedy nejvzdálenějších známých objektů ve vesmíru, poskytne nevídaný pohled na rozložení hmoty až na samé hranici pozorovatelného vesmíru.
Pozorování probíhá na Apache Point Observatory, která se nachází v Sacramento Mountains (Nové Mexiko). Observatoř je položená ve výšce 2 788 metrů, což společně s odlehlou polohou poskytuje tmavé noci bez světelného znečištění a smogu. Pojmenování dostala podle nadace, která ji z velké části financuje. Dalekohled pro přehlídku má průměr hlavního zrcadla 2,5 metru a je vybaven elektronickým detektorem, který převádí záření kosmických objektů do digitální podoby. Dalekohled rovněž obsahuje dvojici spektrografů, které slouží k zjištění složení a vzdálenosti sledovaných objektů. Fotometrický dalekohled o průměru 0,5 metru slouží k monitorování podstatných změn v atmosféře během pozorování, aby bylo posléze možné měření získaná hlavním dalekohledem kalibrovat. Kamera hlavního dalekohledu se skládá ze 30 "fotometrických" CCD čipů s matricí 2048 x 2048 obrazových bodů, uspořádaných v poli 5 x 6 a z dalších 24 čipů o rozměrech 2048 x 400, které slouží pro astrometrii (měření poloh) a kontrole zaostření.
Projekt byl zahájen v roce 1999 a v konečném výsledku se předpokládá zmapování téměř 8 500 čtverečních stupňů hvězdné oblohy. Na začátku letošního roku byl zhruba v jedné polovině, podařilo se zmapovat 52 % plánové plochy a pořídit spektra 38 % objektů. Ve srovnání s ostatními experimenty zahrnujícími projekt GriPhyN je SDSS sice "nejmenší", ale jeho obrovský význam spočívá v tom, že už dodává výsledky a vyvíjené nástroje virtuální datové sítě na nich mohou být testovány.
Projekt už i dnes, tedy v době, kdy ještě nevyužívá výpočetního gridu, přináší velmi zajímavé výsledky. Nedávno byl například oznámen objev tří extrémně vzdálených kvasarů, které jsou od nás vzdáleny kolem 13 miliard světelných roků. Pozorujeme je tedy v době, kdy byl vesmír starý "pouhých" 800 miliónů let.

LIGO - Laser Interferometer Gravitational-Wave Observatory
Cílem projektu LIGO je detekce kosmických gravitačních vln. Skládá se ze dvou vzdálených observatoří umístěných ve Spojených státech. Jedna z nich je v Hanfordu (stát Washington), druhá v Livingston (Luisiana).
Každá observatoř je tvořena interferometrem s ramenem o délce 4 km, který pomocí laserové paprsku měří změny ve vzdálenostech testovacích hmot. Změny jsou řádu 10^-16 centimetru. Znamená to, že testovací hmoty musejí být izolovány od jakéhokoliv rušení. Pro vyhodnocování získaných dat to znamená hledání extrémně slabého signálu ve srovnání se zdroji zašumění. Další výzvou je velmi nízká frekvence detekovaných jevů. Odhaduje se, že LIGO zachytí méně než jeden projev gravitačních vln za rok.
Existenci gravitačních vln předpověděl v obecné teorii relativity Albert Einstein už v roce 1916, ale dosud nebyla k dispozici technika, která by je byla schopna detekovat. Gravitační vlny jsou vlny ve struktuře prostoročasu, vznikající při mohutných jevech ve vzdáleném vesmíru. Příkladem takových jevů jsou srážky černých děr či exploze supernov.

LHC - Large Hadron Collider
Doslova explozi nových dat bude znamenat zprovoznění urychlovače nové generace v CERNu. Množství získaných dat bude ohromující a bude se pohybovat v řádu petabytů (10^15 bytů) ročně. Vědci budou postaveni před úkol nalézt velmi vzácné události vznikající při rozpadu nových těžkých částic. Předpokládá se, že experimenty na LHC dodají během deseti let provozu řádově 100 PB dat.
Urychlovač LHC by měl být zprovozněn v roce 2007. Jeho úkolem je proniknout mnohem hlouběji do struktury hmoty, než bylo možné doposud. Prostředkem k tomu bude urychlení paprsků protonů a jejich srážky s energií 14 TeV. Pro srovnání - s energií 1 TeV (teraelektronvolt) se pohybuje letící komár, v urychlovači se ovšem s takovou energií "pracuje" v prostoru biliónkrát menším než je rozměr našeho komára.
Dosažení obrovských energií (a tedy rychlostí) je umožněno extrémně silným magnetickým polem, které protony urychluje. Takové magnetické pole je možno vytvořit využitím jevu supravodivosti. Ovšem v tak velkém měřítku jako u LHC supravodivosti ještě použito nebylo. Protože k supravodivosti dochází při velmi nízkých teplotách, bude LHC pracovat téměř při teplotě absolutní nuly. Částice budou urychlovány v prstenci o obvodu 27 km, který bude postaven v blízkosti Ženevy na úpatí pohoří Jura. Ke kolizím částic bude v urychlovači docházet 800miliónkrát každou sekundu.

Další informace
http://www.griphyn.org/index.php - projekt GriPhyN
http://www.sdss.org - výzkum Sloan Digital Sky Survey
http://www.ligo.caltech.edu - Laser Interferometer Gravitational Wave Observatory
http://public.web.cern.ch/public/ - European Organization for Nuclear Research
Obrázky, schemata a tabulky související s tímto článkem najdete v tištěném Computerworldu 8/2003, kde tento článek právě vychází...

Autor článku