Čištění a kontrola kvality dat

23. 5. 2007

Získávání závěrů z dat, ať už transakčních a operačních nebo výzkumných či monitorovacích, sbíraných ručním zápisem, přímým počítačovým vstupem nebo automatickým měřením, je pouze malou částí datového procesu. Nutnou a základní podmínkou pro správnost a spolehlivost závěrů, které mohou mít rozhodující dopad na činnost organizace, jsou kvalitní data.

Kvalita dat je v praxi tím faktorem, který nejvíce podlamuje spolehlivost závěrů. Přestože v mnoha organizacích jsou již běžně používány podnikové informační systémy a provozovány datové sklady, stává se zcela běžně, že i tato data obsahují značný podíl nekvalitních údajů. Vysoké kvality dat dosahujeme mnoha způsoby, zajištěním přesnosti záznamu, u subjektivních dat ovšem také vhodným způsobem dotazu, kontrolami hodnot i logických podmínek správnosti a smysluplnosti dat, ale nutně i kontrolou všech datových vlastností a vztahů při přebírání dat pro analýzu a při přípravě souboru.

Příprava

Etapa přípravy dat a kontroly kvality i s tím spojená úloha čištění dat a zajišťování vysoké kvality vstupů je nutnou součástí všech procesů a projektů, v nichž se připravuje datový soubor pro rozhodovací datový proces. Především tam, kde jde o podklady pro operativní řízení organizací a trhu v reálném čase a o data miningové a predikční modely (dávkové i průběžné) ústící do skórování a odhadů budoucnosti či neznámých latentních stavů, je naprosto nutné věnovat této etapě vysokou pozornost. Nekvalitní data ovlivňují odhady průměrů a procent, ale především zkreslují vztahy v predikčních modelech a výpočty skórovacích hodnot (např. u rizik, pravděpodobností odchodů zákazníků, u odhadu budoucích nákupů apod.). I malé procento nekvalitních údajů dokáže podstatným způsobem znehodnotit výsledný model.

Existuje několik základních přístupů k odhalování nekvalitních dat a jejich reparaci či odstranění. Především je to kontrola správnosti dat, ve které se zaměřujeme na přípustnost hodnot, duplicitní záznamy, jednotné a srovnatelné úrovně jednotek, hrubé chyby v záznamech hodnot apod.

Logika a rozpory

Dále kontrolujeme nelogická a zřetelně rozporná data (jako jsou chybně připojené produkty k výrobci nebo ke kategoriím, dvacetiletí prarodiče či těhotní muži). Většina proměnných má svá logická omezení, která musejí všechny hodnoty proměnné splňovat. U číselných proměnných jsou to zejména hranice a přípustné hodnoty, které musejí být dodrženy. Například hmotnost nemůže být záporná nebo podíl části na celku musí být v intervalu 0–1. Další typy omezení se týkají kategorizovaných proměnných, které mohou nabývat jen přesně určených hodnot. Důležitá jsou také pravidla, která kontrolují věcný smysl kombinací dvou nebo více proměnných.

Empirické vlastnosti

Celá řada kontrol a oprav vychází z empirických vlastností datových distribucí a je prováděna statistickými, matematickými a logickými postupy. Patří sem především odhalování odlehlých a podezřelých záznamů. Explorační jednorozměrná i mnohorozměrná statistická analýza upozorní na podezřelý případ, který je buď eliminován, nebo prověřen a případně opraven.
V uvedených případech jsou vždy možné manuální modifikace, ale se vhodnými softwarovými prostředky je třeba mít k dispozici i automatický proces oprav, který je nutný především u velkých souborů stále doplňovaných dat a v procesech transakčních a operačních záznamů.

Přínosy zaručeny

Data miningové modely přinášejí úspory a zisky, snižují rizika a zvyšují pravděpodobnost úspěšnosti v průběhu konkrétních marketingových, prodejních či kontrolních procesů. Kontrola kvality, monitorování spolehlivosti a sledování nejrůznějších technických, sociálních či politických procesů a jejich predikce přinášejí informace pro optimalizaci řízení a efektivní rozhodování. K tomu jsou kvalitní data nutně zapotřebí. To se týká obchodních, finančních, výzkumných, vědeckých a akademických či státních organizací, stejně tak jako policie, armády nebo boje proti terorismu.

Autor je analytikem společnosti SPSS.

Našli jste v článku chybu?

Ondřej Brom

6. 1. Thein koupil CubeTeam

Digitální část české investiční skupiny Thein získala společnost CubeTeam, která se specializuje na zakázkový vývoj aplikací. Akvizice posílí tým vývojářů a podpoří strategii skupiny v oblasti digitálních technologií.
Zakladatelé společnosti CubeTeam se také stávají součástí skupiny Thein a budou posilovat stávající a rozvíjet nové obchodní příležitosti. CubeTeam se specializuje na vývoj softwarových řešení na míru. Klíčovou část portfolia tvoří webové aplikace.
19. 12. Spolu dalších pět let

Operátor O₂ a vlastník O₂ areny a O₂ universum, společnost Bestsport, prodloužili na dalších pět let partnerství. Obě haly tak i nadále ponesou jméno největšího operátora v Česku. Operátor slibuje sportovním i kulturním fanouškům z řad svých zákazníků nové, exkluzivní výhody. Například na přednostní nákup vstupenek, zrychlený vstup do haly nebo možnost rezervace parkování.
19. 12. Klesá zájem o české počítače?

V rámci statistiky zahraničního obchodu se v loňském roce z Česka vyvezlo ICT zboží za 277 miliard Kč a na celkovém vývozu z Česka se toto zboží podílelo 6,2 %. Naopak dovezeno bylo ICT zboží v hodnotě téměř 368 miliard Kč (8,5 % z celkového dovozu zboží do Česka).
Oproti roku 2022 došlo v obou případech k poklesu, kdy hodnota vývozu ICT zboží meziročně poklesla o 56 miliard a hodnota dovozu o 35 miliard korun. Vyplývá to z údajů Českého statistického úřadu.
25. 11. Kdo stojí za provozem na internetu?

Přestože je internet domovem miliard různých webů, databází, sociálních sítí, cloudů a dalších platforem, pouze šest největších společností produkuje více internetového provozu než všechny ostatní dohromady. Americká šestice firem MAMAAN, neboli Meta (Facebook, Instagram), Alphabet (Google), Microsoft, Apple, Amazon a Netflix zodpovídá za více než polovinu veškerého internetového provozu. Do TOP 8 se však zapojují další dvě velká jména: TikTok a Disney+. Vyplývá to z analýzy Sandvine zveřejněné českou společností ComSource, která se zaměřuje na kyberbezpečnost, síťovou infrastrukturu a datovou analytiku.
„Pokud bychom sečetli šestici společností MAMAAN, Disney+ a TikTok, došli bychom k závěru, že těchto osm společností tvoří více než dvě třetiny veškerého provozu na internetu. Zejména TikTok nám pak ukazuje, že žádná pozice není neotřesitelná. Podle analýzy Sandvine z minulého roku nebyl TikTok zařazen ani mezi prvních šest míst a dnes je jeho celkový provoz vyšší než u Apple nebo Microsoftu,“ říká Michal Štusák, expert na kybernetickou bezpečnost a spolumajitel společnosti ComSource.
21. 11. Mews zase nakupuje

Český jednorožec Mews kupuje švédskou firmu Atomize, která se specializuje na software pro řízení výnosů (RMS). Díky pokročilým algoritmům umožňuje platforma Atomize hotelům dynamicky upravovat ceny a lépe využívat kapacity, což otevírá cestu k vyšším příjmům a efektivnějšímu řízení.
Mews zároveň nedávno posílil svou pozici na trhu akvizicí francouzské společnosti Quotelo, jejíž technologie usnadňuje hotelům organizaci eventů a automatizuje administrativní procesy spojené se skupinovými a firemními rezervacemi. Mews Ventures má na svém kontě od svého vzniku celkem jedenáct akvizic.

Sdílet

Autor aktuality

Ondřej Brom

Mohlo by vás zajímat

Businessworld Newsletter

Krátce

6. 1. Thein koupil CubeTeam

19. 12. Spolu dalších pět let

19. 12. Klesá zájem o české počítače?

25. 11. Kdo stojí za provozem na internetu?

21. 11. Mews zase nakupuje

Anketa

Jste spokojeni se schopnostmi aktuálně dostupných genAI modelů?

SPECIÁLNÍ PROJEKTY

Čištění a kontrola kvality dat

Sdílet

Autor aktuality

Ondřej Brom

Mohlo by vás zajímat

Co najdete v posledním letošním magazínu CIO 6/2024

Zabezpečení neviditelného: Obrana koncových zařízení v éře hybridní práce

TechnoVision: 5 klíčových technologických trendů, které stojí za to sledovat v roce 2025

Businessworld Newsletter

Kvíz týdne

Krátce

6. 1. Thein koupil CubeTeam

19. 12. Spolu dalších pět let

19. 12. Klesá zájem o české počítače?

25. 11. Kdo stojí za provozem na internetu?

21. 11. Mews zase nakupuje

Anketa

Jste spokojeni se schopnostmi aktuálně dostupných genAI modelů?

SPECIÁLNÍ PROJEKTY

Dále u nás najdete

Rok 2024 v IT: skomírající Intel a parádní Plasma 6

Krev z USA kvůli výzkumu vozí kurýři. Cestu zvládnou do 30 hodin

Trpěl boláky, před 30 lety ho zachránila pupečníková krev

Dan Rosendorf, ICZ: Přehnaná regulace svírá celé odvětví

Myjeme si ruce, jíme céčko a věříme, že to bude stačit

Nový ruský kvantový počítač a předpovědi pro rok 2025

Neunikla vám data? Efektivní nástroje pro ochranu soukromí

Změny pro zaměstnavatele i zaměstnance od roku 2025

Příspěvky pojišťoven: jedna přidá na plavání, jiná ubere u sportu

Značku založila na popud svých synů. Pomáhali jí i s prodejem

Příčinou laryngitidy bývá virová infekce, u dospělých i kouření

Když přestanete kouřit, riziko rakoviny klesne na půlku

Přehled změn, které se na podnikatele chystají v roce 2025

Barva roku 2025 má změnit vnímání hnědé

Čipy v roce 2024: ČR vytvoří evropský procesor

Rok 2024: Crowdstrike, vzestup AI, pan Megaupload mířící do USA

Žlučníkovou koliku může spustit česnek, tučné jídlo, stres i námaha

Přiznejte, že si taky pletete kapary s ančovičkami

Rok 2025 ve zdravotnictví: mění se vracení doplatků za léky

Politické kampaně 2025: ANO slíbí zvýšení důchodů