ETL vývoj poháněný metadaty

24. 9. 2012

Doba čtení: 8 minut

V současné době již nejsou řešení business intelligence (BI) a datových skladů (DWH) výhradní doménou specializovaných firem a jejich řešení. S osvětou, rozšířeností a množstvím projektů dnes tato řešení dodávají i méně specializované softwarové firmy.

Existuje však mnoho důvodů, proč své řešení svěřit do rukou zkušených dodavatelů nabízejících vyšší přidanou hodnotu a reference. Takoví dodavatelé totiž mohou snížit nejen současné, ale hlavně budoucí náklady na rozvoj, zvýší efektivitu celého řešení, sníží nároky na jeho administraci, redukují čas potřebný k nasazení nebo případně minimalizují riziko skrytých chyb.

Je nutné říci, že byť se mluví o datových skladech jako o komoditě, kterou stačí jednou prodat, vyvinout a dodat a následně již nekonečně opakovaně přeprodávat dále, je to v naprosté většině případů velmi mylná představa. Každý projekt má svá specifika, používá jiné vstupy, logiku dat, klade jiné požadavky na výstupy. Na druhou stranu nemá šanci uspět projekt, který alespoň částečně komoditizován není, tedy nepoužívá ucelené části, které byly vyvinuty na předešlých projektech. Šanci uspět nemá proto, že v době snížených firemních rozpočtů, zvýšených požadavků na efektivitu dodávky a špatné referencovatelnosti takového projektu se stává příliš dlouhým, drahým a s nejistým výsledkem. Zákazníci sázejí na zkušenost a jistotu a pochopitelně nechtějí platit za vývoj nových řešení.

Existuje více způsobů, jak potřebné efektivity dodávky dosáhnout – vždy to závisí na několika proměnných daného projektu. Těmi hlavními jsou zejména byznysová orientace projektu a zvolená technologická platforma. Omezíme-li se pouze na projekt datového skladu, který je nutnou součástí komplexního řešení business intelligence každé firmy, pak jeden ze způsobů efektivizace dodávky představuje použití platformy pro rychlý rutinní vývoj ETL (načítacích datových pump) s vysokou spolehlivostí (nízkou chybovostí). Postupnou evolucí trhu vznikly tři hlavní proudy vývoje ETL:

1. Standardní ETL nástroje (Informatica PowerCenter, Oracle Data Integrator, Microsoft Integration Services, Ab Initio atd.)

Takové nástroje přinášejí úsporu hlavně v přesně definovaných dílčích úlohách, pro které jsou určeny. Typicky jde o „klikací“ nástroje, které jsou sice robustní, ale na druhou stranu se v nich velice složitě udržuje jednotná logika zpracování, nejsou příliš přehledné a mají vysoké nároky na údržbu (např. při změně na úrovni logiky mapování zdrojových atributů na cílové apod.)

2. Předpřipravená řešení (appliance, fast track – Teradata, Netezza, Greenplum, HP NeoView, Microsoft PDW atd…)

Jde o předpřipravená řešení zvolené technologie, operačního systému, hardwaru a datového úložiště. Výhod těchto řešení je mnoho: výkonnost, snížené nároky na administraci, vysoká dostupnost, jednoduchá škálovatelnost a vysoká time-to-value hodnota. Nevýhody ale existují také: nízká míra flexibility při zpracování ETL, obtížné řešení nestandardních problémů a vysoká závislost na dodavateli.

3. Kombinace standardních ETL nástrojů a proprietárních nadstaveb

Byť to tak trochu vypadá jako úskok stranou k nestandardu, evoluce přináší vznik jedné z nejefektivnějších metod, která dává zákazníkovi kombinaci benefitů standardních ETL nástrojů s předpřipraveným řešením. Partneři výrobců jednotlivých ETL nástrojů si postupně budují své vlastní proprietární řešení částečně využívající výhody a znalosti plynoucí z množství realizovaných projektů. Znalosti jsou v tomto případě interpretovány pomocí práce s byznysovými a technickými metadaty.

Výhoda spočívá v tom, že oproti předpřipravenému řešení je implementační partner schopen přizpůsobit chování ETL stroje tak, aby fungoval přesně podle specifických požadavků zákazníka. Vzhledem k malé všeobecné znalosti tohoto trendu a nízké informovanosti klientů se u něj chvíli zastavme. Účelem datového skladu je získat požadované informace ze zdroje, načíst je, ztransformovat a dále poskytovat uživatelům. Celý tento proces má jasně definovaný zdroj – datový prvek primárního systému a cíl – datový prvek datového skladu. Problematickým místem bývá transformace mezi těmito dvěma prvky. Uvážíme-li příklad, že datový sklad má nezřídka několik tisíc takových transformací, je na místě úvaha, jak tento proces učinit co nejefektivnějším, nejspolehlivějším (nejméně chybovým) a nejpřehlednějším.

Transformace může být i poměrně netriviálního charakteru a může mít několik kroků. Takovou netriviální transformací může být uniformní logika integrace několika zdrojových systémů (CRM, produktových katalogů, výrobních dat, záznamů o různých typech hovorů, sloučení konsolidovaných a nekonsolidovaných finančních dat apod). Několik kroků má kvůli víceúrovňovým validacím, byznys kontrolám a transformacím tak, aby bylo zajištěno, že se data načetla do cíle v požadované podobě a kvalitě. Komplexnost celé úlohy pak pramení z faktu, že každá firma má jinou podobu a kvalitu zdrojových dat, jiné požadavky na použití cílových dat, a tím i jiné transformace nutné k jejich doručení. Tento fakt tak do jisté míry určuje unikátnost kombinace každé implementace a omezení použití univerzálního řešení typu appliance. Na druhou stranu nechceme každý mapping, každou transformaci opakovaně ručně zadávat do ETL nástroje. Řešením je tedy použití nadstavby zvoleného ETL nástroje a databázového stroje, které přímo podle požadavků na jednotlivé druhy transformací a validací dokáže zajistit spolehlivou, bezchybnou a kvalitní extrakci (E), načtení (L) a transformaci (T). Zde se dostáváme do zajetí metadat, která jsou hlavním nositelem logiky nadstavby.

Metadata v našem pojetí znamenají kombinaci systémových a technických metadat, tj. informace o datovém zdroji, jeho entitách, prvcích entit, jejich datových typech, obsahu a vazbách na jiné prvky. Datovým úložištěm informací o datových prvcích bývá nejčastěji case nástroj nebo metadatabáze umístěná vedle relační datové databáze DWH. Nástrojem, který vytváří vlastní ETL kód, je pak buď add-in do case-nástroje, nebo sada rutin vytvářejících ETL kód nad databází. Zde se dostáváme ke klíčové odpovědi, proč je tento přístup efektivní metodou vývoje ETL. ETL framework má dodavatel připraven pro použití, má v něm několik předpřipravených transformací, obsahuje technické validační patterny a má v sobě zakomponovanou logiku možnosti byznysových kontrol. Vycházíme-li z např. z předpokladu, že daný projekt využije 70% předdefinovaných transformačních pravidel, 70% technických validačních patternů a 20?% byznysových kontrol, pak stačí pouze dodefinovat zbývající malou část pravidel do již existujícího frameworku. Dodefinice využívá dosavadní funkcionalitu a úsilí na implementaci dodatečných pravidel se v celkovém úsilí projektu projeví zanedbatelně. Kromě úsilí má tento přístup ještě mnoho dalších podstatných výhod, které jiné metody poskytují pouze zčásti nebo vůbec:

- Time-to-value vývoj přináší významnou úsporu v čase i investovaném úsilí

- Jednotné a přehledné úložiště informací o datových prvcích, jejich validacích a kontrolách, které může tvořit základ dokumentace ETL kódu pro technické i byznys uživatele

- Transparentní generovaný ETL kód, jehož logika je uniformní napříč DWH

- Změna transformačních pravidel, validací a kontrol se konzistentně projeví všude v celém DWH

- Provádění změn nepředstavuje zásah do černé skříňky, změna ETL pravidel je běžným požadavkem a uskuteční se na jednom nebo několika jednotkách či místech

- Testování a UAT – transformace jsou definovány na jednom místě, a tudíž fungují stejně napříč všemi ETL

Historie a zkušenosti konzultačních a dodavatelských firem dokazují, že uvedený přístup znamená krok správným směrem, a přibývají další projekty, ve kterých je proprietární nadstavba ETL nástroje používána. U velkých projektů to platí na 100?%. Pro zákazníka z toho plyne, že by měl o tomto přístupu vědět a ve svých RFP a po dodavatelích jej vyžadovat.

Autor působí jako BI senior konzultant ve společnosti Adastra.

Našli jste v článku chybu?

David Kaláb

Témata:

21. 11. Mews zase nakupuje

Český jednorožec Mews kupuje švédskou firmu Atomize, která se specializuje na software pro řízení výnosů (RMS). Díky pokročilým algoritmům umožňuje platforma Atomize hotelům dynamicky upravovat ceny a lépe využívat kapacity, což otevírá cestu k vyšším příjmům a efektivnějšímu řízení.
Mews zároveň nedávno posílil svou pozici na trhu akvizicí francouzské společnosti Quotelo, jejíž technologie usnadňuje hotelům organizaci eventů a automatizuje administrativní procesy spojené se skupinovými a firemními rezervacemi. Mews Ventures má na svém kontě od svého vzniku celkem jedenáct akvizic.
6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

Vítězství Donalda Trumpa vyvolalo výrazný nárůst hodnoty bitcoinu (BTC). Výzkum společnosti Finbold zjistil, že za posledních 30 dní vzniklo 11 487 nových bitcoinových adres, které drží 1 milion dolarů nebo více, a to především díky 7,5% růstu BTC od doby, kdy se náskok Donalda Trumpa ve volbách stal drtivým.
Nyní drží 132 842 adres v bitcoinech více než milion dolarů: 121 126 adres drží od 1 do 9,99 milionu dolarů, zatímco 11 697 adres drží 10 milionů dolarů a více. Analýza využila historické údaje a porovnávala předvolební údaje ze 7. října 2024, získané pomocí webového archivačního nástroje Wayback Machine, s nejnovějšími povolebními statistikami k 6. listopadu 2024.
6. 11. První akvizice EET v Česku

Strategickou akvizici divize náhradních dílů společnosti Moravia Consulting, která se specializuje především na obchod s náhradními díly k produktům Hewlett Packard a Hewlet Packard Enterprise uskutečnila distribuční společnost EET Group. Upevňuje tak svou pozici předního poskytovatele náhradních dílů pro IT po celé Evropě. Zároveň jde o první akvizici firmy z České republiky po vstupu EET Group na český trh.
30. 10. Miliony pro start-upy

Agentura CzechInvest otevírá další výzvu projektu Technologická inkubace. V pořadí již pátá výzva s alokací 104,8 milionu korun bude spuštěna v pravé poledne 30. října a potrvá do 29. listopadu 2024. Program, který podporuje startupové prostředí prostřednictvím sedmi specializovaných technologických hubů, nabízí podnikatelům pomoc s jejich inovativním produktem či službou. Nyní spolupracuje s téměř 180 firmami z plánovaných 250, projekt se tak již přehoupl přes svou symbolickou polovinu.
Více informací o programu a nové výzvě naleznete zde.
30. 10. Rozšiřující se DIA

Vzhledem ke sjednocování souvisejících agend přechází kompletní správa, rozvoj a financování registru obyvatel a registru osob od 1. listopadu 2024 z Ministerstva vnitra, resp. Českého statistického úřadu na Digitální a informační agenturu (DIA).
V době samotného převodu obou registrů od 31. října 20:00 do 1. listopadu 04:00 se může projevit snížená dostupnost jejich služeb, jinak by se podle tvrzení DIA dostupnost služeb nijak měnit neměla.

Sdílet

1. Standardní ETL nástroje (Informatica PowerCenter, Oracle Data Integrator, Microsoft Integration Services, Ab Initio atd.)

2. Předpřipravená řešení (appliance, fast track – Teradata, Netezza, Greenplum, HP NeoView, Microsoft PDW atd…)

3. Kombinace standardních ETL nástrojů a proprietárních nadstaveb

Autor článku

David Kaláb

Témata:

Mohlo by vás zajímat

Businessworld Newsletter

HP Knowledge HUB
pro moderní firemní IT

Krátce

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Windows chystá offline AI vyhledávání souborů Catchy headline:

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Třetí čtvrtletí letošního roku ryze českých investic

Gmail chystá dočasné „štítové“ e-mailové adresy proti spamu

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Sledují vás přes HDMI? Revoluční útok využívá AI a elektromagnetické záření

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

ETL vývoj poháněný metadaty

Sdílet

1. Standardní ETL nástroje (Informatica PowerCenter, Oracle Data Integrator, Microsoft Integration Services, Ab Initio atd.)

2. Předpřipravená řešení (appliance, fast track – Teradata, Netezza, Greenplum, HP NeoView, Microsoft PDW atd…)

3. Kombinace standardních ETL nástrojů a proprietárních nadstaveb

Autor článku

Mohlo by vás zajímat

Kvíz týdne

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Z našich webů

Windows chystá offline AI vyhledávání souborů Catchy headline:

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Třetí čtvrtletí letošního roku ryze českých investic

Gmail chystá dočasné „štítové“ e-mailové adresy proti spamu

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Sledují vás přes HDMI? Revoluční útok využívá AI a elektromagnetické záření

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Dále u nás najdete

Každý osmý diabetik má problémy s očima

Prémiové AI funkce: Stojí za příplatek?

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Novu nebude tvořit AI. A umělé moderátory v ČRo nečekejte

Od dynamitu k Viagře. Výbušný nitroglycerin uvolňuje cévy

Změny v dárcovství: za spermie 2 tisíce, za vajíčka 28 tisíc

Vyznejte se v kuřatech. Takhle se liší selské od venkovského

Ročně dostane ledvinu deset dětí, důležitá je velikost

Dřívější neplodnost dnes řeší miniinvazivní operace

Češi riskují s daty, podceňují zálohy i bezpečnost

Kdy začít péct cukroví? Vhodná doba nastává o adventu

Firmy s vazbami na Čínu jsou problém. Zákaz je i o geopolitice

Osvědčené způsoby, jak snížit vysoký krevní tlak

Papírové letáky budou zpoplatněny, může jít o desetník za kus

Města ve Středočeském kraji mění koeficienty k dani z nemovitostí

Přílišné uklízení škodí plicím stejně jako cigarety

Temný rekord, počet kyberútoků dosáhl historického maxima

Balík od DPD si nově můžete vyzvednout i na České poště

Biolog zasvětil život lanýžům. Poznejte ho i s jeho psí parťačkou

Nevyžádané marketingové hovory přísnější zákon nevymýtil