;

Analyzujte údaje z datových skladů

4. 2. 2022
Doba čtení: 6 minut

Sdílet

 Autor: Depositphotos
Analytika je disciplína, která zahrnuje principy, algoritmy, nástroje a osvědčené postupy na relevantních informacích z údajů. Umožňuje řešit nejen teoretické úkoly, ale také praktické obchodní problémy.

Datová analytika odhaluje, co a proč se děje, a predikuje vývoj do budoucnosti. Pokročilé analytické modely se vytvářejí na základě poznatků z více vědních oborů, například ze statistiky, operačního výzkumu, vědy o řízení, strojového učení, lingvistiky, kognitivních metod, průmyslové optimalizace či umělé inteligence.

Co nám prozradí analýzy

Údaje samotné obsahují jen jednoduchá fakta, přičemž se samozřejmě předpokládá, že  v nich jsou někde ukryté určité informace. Ty však vystoupí na povrch až tehdy, pokud k údajům přibudou souvislosti. Pokud do hry zasáhne kromě informací i tvůrčí inteligence, výsledkem procesu budou znalosti. Zobecněním znalostí se na vrcholu informační pyramidy získá „moudrost“, to znamená schopnost přesného zhodnocení znalostí a jejich následné uplatnění v reálné praxi.

Záměrem každého provozovatele IT systému, ať už je to ve sféře výroby, logistiky, energetiky, financí, zdravotnictví, je získat komplexní informace o tom, co se momentálně děje. A to jak s cílem přijmout adekvátní opatření v případě problémů, tak rovněž na podporu rozhodování s cílem zefektivnění procesů.

Chcete dostávat do mailu týdenní přehled článků z CIO Business Worldu? Objednejte si náš mailový servis a žádná důležitá informace vám neuteče. Objednat si lze také newsletter To hlavní, páteční souhrn nejdůležitějších článků ze všech našich serverů. Newslettery si můžete objednat na této stránce.

Odpovědi na otázky typu „co se stalo?“ se získají analýzou operačních údajů v reálném čase. Tyto analýzy poskytují cenný náhled na aktuální stav procesů, umožňují pochopit, co se v současnosti děje, avšak pro přijetí strategických rozhodnutí jsou zapotřebí zkušenosti. Pro diagnostické analýzy, které mají poskytnout odpovědi na otázky typu „proč se to stalo?“ již je třeba analyzovat údaje za určitý časový úsek směrem do minulosti. Diagnostické analýzy využívají propojení mezi zdroji údajů včetně názorů zákazníků či kontextových dat s cílem zjistit příčiny zkoumaného či identifikovaného jevu.

Pro podporu rozhodování je důležité znát co nejpřesnější odpověď na otázku „co se stane?“ a tyto odpovědi poskytují prediktivní analýzy, které předpovídají budoucnost na základě pochopení minulosti. Aby analytické a dataminingové algoritmy mohly udělat prediktivní analýzy, potřebují mít k dispozici údaje za delší časové období a nejlépe ve vhodně strukturované formě.

Předpokládejme, že známe odpověď na otázky, co se stalo, proč se to stalo, a dokonce i odpověď na to, co se stane v blízké budoucnosti. Zde mohou nastat dvě situace: buď se firmě či organizaci výsledek prediktivní analýzy zamlouvá a tak management chce, aby se předpověď naplnila. Pokud je předpověď nepříznivá, tehdy se management bude ze všech sil snažit, aby se reálný vývoj tímto směrem neubíral. V jednom i ve druhém případě budou manažeři požadovat odpověď na otázku „co máme dělat?“, aby předpovídaný scénář nastal, respektive nenastal.

Odpověď na tuto klíčovou otázku poskytují preskriptivní analýzy. Jsou-li dobře specifikovány cíle, omezení a kritéria, preskriptivní analýzy dávají návody na optimální rozhodnutí. Tyto analýzy mohou být aplikovány na dvou scénářích, na podporu rozhodování, kde je doporučení rozhodnutí poskytnuto člověku, nebo na rozhodování, které se dělá v systémech automaticky.

Proč potřebujeme údaje „ze skladu“

Prediktivní i preskriptivní analýzy se dějí ve dvou fázích. První fáze je učící, v jejím rámci se analyzují historické údaje se známými výsledky. Cílem této etapy je vytvoření modelu, který na základě atributů hodnotí pravděpodobnost zkoumané události, například reálný dosah marketingových kampaní. Tento model se následně aplikuje na nová data, u kterých jsou výsledky zatím neznámé.

Dynamické podnikatelské prostředí vyžaduje adaptivní prediktivní analýzy s co nejkratší dobou mezi vytvořením modelu a generováním předpovědí. Proto musejí být údaje skladované správným způsobem. Dobrou analogií je logistika, například sklady komponent vstupujících do výrobního procesu. Efektivita logistiky závisí na optimální organizaci skladů.

Datový sklad

Úkolem datového skladu je shromažďovat a uchovávat informační bohatství firmy za co nejdelší období tak, aby byl k údajům co nejlepší přístup. Datový sklad musí poskytovat aktuální a přesné odpovědi na cílené poptávky a musí je produkovat v co nejkratším čase. Údaje se získávají a ukládají do produkčních (operačních) databází a následně se v pravidelných intervalech shromáždí, předzpracují a uloží do datového skladu. Jinak řečeno, datový sklad je také databáze, nicméně je organizována podle trochu jiných pravidel.

Skladované údaje jsou kategorizovány podle subjektu, kterým může být kupř. zákazník, dodavatel, zaměstnanec, výrobek a podobně. Údaje musejí být konzistentní, takže z heterogenního operačního prostředí je nutné je upravit, vyčistit a sjednotit. Klíčovým atributem zaručujícím integritu je neměnnost, takže údaje v datovém skladu v žádném případě nesmějí být dodatečně modifikovány. Pouze tehdy může být datový sklad považován za jediný zdroj datové pravdy.

Údaje v datovém skladu jsou sice uložené v klasických databázových tabulkách, tedy ve dvourozměrných strukturách, avšak tak aby umožnily snadné vytváření multidimenzionálních datových struktur nazývaných také OLAP (Online Analytical Processing) databáze. Přestože takové struktury mají zpravidla více než tři dimenze, můžeme je nazývat i OLAP kostky. Multidimenzionální databáze obsahují dva typy dat: fakta a dimenze. 

Fakta jsou numerické měrné jednotky obchodování a jsou umístěné na průsečících dimenzí. Ta může být například časová, produktová, geografická, zákaznická. Každá OLAP kostka má několik dimenzí. Na rozdíl od geometrické kostky může mít multidimenzionální databázový model mnohem více dimenzí, které obsahují logicky nebo organizačně hierarchicky uspořádané údaje.

Dimenzi můžeme většinou rozložit na několik úrovní granulity. Například časovou lze využít na úrovni hodina, den, týden měsíc, kvartál a rok. Produktovou zase na kategorii, podkategorii, variantu a produkt. Geografickou dimenzi na stát, kraj, okres a město či obec. Podle hierarchických úrovní dimenzí se pak v analýzách můžeme vnořovat na nižší úrovně, nebo naopak posuzovat údaje na vyšší rovině granulity. Podle aktuálních požadavků je pak možné analyzovat údaje pouze pro určité produkty za dané časové období z určitého regionu, a získat tak podklady pro rozhodování regionálních či produktových manažerů.

Multidimenzionální datový model vytvořený na základě údajů z datového skladu poskytuje rychlý přístup k velkému objemu dat potřebných pro komplexní analýzy, pro modelování a prognózy. U dobře navrženého datového skladu by „konzumenti“ informací, které jsou výsledkem analýz, neměli pocítit žádné snížení výkonu, přestože počet záznamů postupem času roste.

Analýza operačních údajů

Rozhraní mezi relačními a analytickými systémy není ostré a jednoznačné. Klasické transakční systémy se plynule prolínají se systémy pro podporu řízení a rozhodování nebo jinak řečeno, prolínají se úrovně okamžitých transakcí s firemní operativně taktickou úrovní. Jelikož datový sklad je většinou relativně investičně i organizačně náročnou záležitostí, mnoho firem se snaží vystačit si s analýzou údajů v operačních databázích archivovaných za delší časový úsek.

Stále výkonnější výpočetní systémy si s tím určitě poradí, problém je spíše s nehomogenní strukturou údajů, protože databáze jsou z různých systémů podnikové informatiky. Databáze, kterou vytváří ERP systém, je jiná než databáze z CRM a podobně. Výhodou datového skladu je, že obsahuje vyčištěné homogenní údaje, což usnadňuje práci analytickým nástrojům.

Účelem procesů v rámci BI (Business Intelligence) je konvertovat velké objemy údajů na poznatky, které jsou potřebné pro koncové uživatele. Tyto znalosti lze efektivně využít například v procesu rozhodování a mohou tvořit velmi významnou konkurenční výhodu. Rychle se měnící trh, konkurence, potřeby zákazníků, nabídky dodavatelů, to vše jsou faktory, které vyžadují přijímání rozhodnutí téměř okamžitě.

bitcoin_skoleni

Předpokladem pro hodnotné rozhodnutí jsou však kvalitní informace, které jsou k dispozici ve správný čas, na správném místě a v požadované podobě. Aby manažeři měli pro svá rozhodnutí k dispozici všechny potřebné informace, musejí v organizaci fungovat procesy, jež zajistí poskytování údajů pro podporu rozhodování.

Autor je redaktor NexTech
Článek vyšel v CIO BW 6/21.

 

CIO Business World si můžete objednat i jako klasický časopis (v tištěné i v digitální podobně) Věnujeme se nejnovějším technologiím a efektivnímu řízení podnikové informatiky. Přinášíme nové ekonomické trendy a analýzy a zejména praktické informace z oblasti podnikového IT se zaměřením na obchodní a podnikatelské přínosy informačních technologií. Nabízíme možná řešení problémů spojených s podnikovým IT v období omezených rozpočtů. Naší cílovou skupinou je vyšší management ze všech odvětví ekonomiky.