Data: Vydolujte maximum

20. 1. 2020

Doba čtení: 7 minut

Databáze a různé zdroje nestrukturovaných dat skrývají obrovské informační bohatství, často je však problém, jak ho zpřístupnit – vydolovat. A právě to je úkolem procesu nazývaného dolování dat nebo v originální terminologii datamining.

Datamining je netriviální proces zjišťování platných, neznámých, potenciálně užitečných a snadno pochopitelných závislostí v údajích.

Datamining je proces analýzy dat z různých perspektiv a jejich přeměny na užitečné informace. Z matematického a statistického hlediska jde o hledání korelací, tedy vzájemných vztahů nebo vzorů v údajích. Využívá statistické metody, neuronové sítě a další metody z oblasti umělé inteligence. Umožňuje studovat, pochopit a pravděpodobně i vylepšit prakticky jakýkoli proces ve vzájemně velmi odlišných oblastech, jako jsou například řízení procesu výroby, lidské zdroje, analýza lékařských vzorků, analýza signálů... prostě všude tam, kde je možné shromažďovat údaje z procesů.

Pomáhá sledovat a analyzovat trendy a předvídat události. Může se využívat v bankovnictví při analýze a predikci úvěrového rizika, predikci rizika při vydávání kreditních karet, u operátorů telekomunikačních sítí, při optimalizaci dopravní infrastruktury, ve zdravotnictví pro analýzu laboratorních vzorků a podobně.

Jako příklad z oblasti zdravotnictví uvedeme screening karcinomu prostaty. Na základě různých kritérií se lékaři rozhodují, komu pomocí nepříjemné a bolestivé biopsie přes konečník odebrat vzorky na laboratorní vyšetření. Berou přitom v úvahu různé rizikové faktory a záznamy o výsledcích tisíců vyšetření. Je třeba upřesnit, které atributy zohlednit při rozhodnutí.

Co datamining neumožňuje

Po přečtení úvodu by se zdálo, že datamining by mohl být univerzální a téměř „všemocnou“ metodou. Samozřejmě tomu tak není. Někdy je sice možné na základě víceméně náhodně vybraných vstupů získat cenné informace, jindy však může být výsledek dataminingu triviální, v praxi nevyužitelný, ba dokonce žádný.

Nemá totiž smysl dokonce ani při procvičování dataminingu aplikovat dataminingový model na databázi naplněnou náhodnými daty. Kde se v údajích žádné informace ani souvislosti neskrývají, nemůžete je samozřejmě ani vydolovat. I při reálných údajích musejí tyto informace být kvalitní, tedy kvalitně připraveny.

Procesní schéma dataminingu

Proces dataminingu je možné rozdělit do tří fází: průzkum dat čili učení, nalezení souvislostí čili poznatků a v poslední třetí fázi se udělá predikce. Ve fázi trénování a vytváření modelu lze v údajích, které jsou k dispozici, odkrývat různé závislosti, jež tyto informace v sobě skrývají.

Takto vytvořené znalosti se pak využívají při prediktivní analýze nových případů. V učicí fázi se dataminingový model učí a zpřesňuje své parametry na množině dat získaných z dosud existujících případů. Jako podklad pro učicí fázi slouží dosud shromážděné (naměřené) a vyhodnocené údaje. V etapě predikce se již naučený dataminingový model aplikuje na množinu vstupních dat, ze kterých potřebujeme získat souvislosti. Aplikace pro datamining mají zpravidla implementovány algoritmy typu lineární regrese, logistická regrese, rozpadové stromy, shlukování, sekvenční shlukování, asociační pravidla časové řady, neuronové sítě, naive Bayes a mnohé další.

Jednoznačné doporučení pro výběr nejvhodnějšího algoritmu pro tu kterou roli neexistuje, vždy to závisí na každém konkrétním případu.
Například algoritmus využívající rozhodovací stromy je velmi rychlý a podporuje predikci diskrétních i spojitých atributů. Cílem algoritmu je identifikovat entity popsané různými atributy a rozdělit je do tříd. Rozhodovací strom se vytváří z množiny daných objektů, které se zařazují do skupin. Někdy se pro tento algoritmus používá i označení rozpadové stromy.

Algoritmus na odhalování shluků dat se snaží organizovat podobné objekty do skupin. Vyhledávají se přirozené shluky (clustery) dat, přičemž kritéria shlukování nejsou předem daná, ale odhalují se z přirozené struktury dat. Algoritmus je vhodný například k identifikaci zákaznických segmentů, které jsou založeny na společných charakteristikách, například demografických, sociálních, profesních a podobně.

Na úlohy typu analýza nákupního košíku se často využívají algoritmy na bázi asociačních pravidel, zaměřené na odkrývání vztahů v datech a odhalování různých souvislostí přiřazování. Z hlediska matematické statistiky jde o zkoumání korelace, ať už pozitivní nebo negativní.
Algoritmus analýzy časových řad umožňuje na základě analýzy údajů z minulosti a současnosti definovat určitá pravidla, pomocí kterých pak předpovídá budoucí trend dané proměnné, typicky obratu či zisku. V principu jde o regresi časových úseků, takže předpovědi trendů v sobě zahrnují i krátkodobé cyklické fluktuace, například zvýšení obratu před obdobím nákupní špičky.

Zpracování pomocí neuronových sítí nevychází ze žádného statistického rozdělení, ale pracuje podobně jako lidský mozek na principu rozpoznávání vzorů a minimalizace chyb. Tento proces si můžete představit jako příjem informací a poučení se z každé zkušenosti. Neuronové sítě tvoří uzly uspořádané do vrstev. Předtím, než se začne vlastní proces, údaje se rozdělí do trénovací a testovací množiny. Během každé iterace jsou vstupy zpracovávány systémem a jsou porovnávány se skutečnou hodnotou. Změří se chyba a předá se ke zpracování systému, aby upravil původní váhy. Proces končí zpravidla v okamžiku dosažení předem určené minimální chyby.

Samoobslužné dolování dat

Výběr algoritmů pro řešení typických okruhů úloh není jednoduchý a už zdaleka ne jednoznačný. Management potřebuje získat odpovědi na otázky typu: „Jaké typy kampaní a členských karet má nabízet obchodní firma?“, „Jaký okruh zájemců osloví reklamní a marketingová kampaň?“, „Proč firma ztrácí zákazníky?“, „Bude zamýšlený produkt úspěšný?“

Datoví vědci nebo v menších firmách specialisté na analýzy pak experimentují a hledají nejvhodnější algoritmy a jejich parametry. Takto se to dělalo v minulosti, v současnosti se u špičkových analytických aplikací prosazuje trend samoobslužné BI čili manažeři dokážou pomocí interaktivních a názorných průvodců vytvářet modely pro běžné analytické úlohy sami.
Tomu jsou přizpůsobeny i tutoriály, které jsou maximálně srozumitelné, až žertovné. Například tutoriál od Oraclu využívá jako cvičné údaje tabulku s informacemi o tom, jak jednotlivá plemena psů hrají poker. Je to parodie na hru dogsplayingpoker.org. Je to fiktivní, ale pro každého srozumitelné. Pokud by byl použit námět příkladu z byznysu, nemuseli by mu rozumět biologové, a naopak.

Stejně srozumitelný, ale z reálné praxe, je cvičný příklad dataminingu umožňující na základě atributů určit, zda je zkoumaná houba jedlá, nebo nejedlá, či jedovatá.

Tutoriál s námětem palatibility hub je užitečnější, než by se na první pohled mohlo zdát. Aplikováním modelu rozpadových stromů na databázi obchodních případů můžete na základě atributů dosavadních prodejů a seznamu zákazníků z CRM databáze predikovat, zda si ten který zákazník produkt potenciálně koupí, a v tom případě má smysl oslovit ho s marketingovou nabídkou, nebo téměř jistě nekoupí.

Datamining je věda a umění extrahování skrytých hodnotných informací z velkých objemů dat, které se použijí při tvorbě efektivních rozhodnutí. Je to způsob učení se z minulosti, tak aby se v budoucnu přijímala lepší rozhodnutí.
Datamining umožňuje přeměnit reaktivní firmu na proaktivní. Organizace, které nevyužívají své nejhodnotnější aktivum – data a v nich ukryté informace, budou poraženy konkurencí používající strategie vyvinuté na základě extrahování informací z jejich dat.

Autor je redaktorem PC Revue.

Našli jste v článku chybu?

Ľuboslav Lacko

Témata:

21. 11. Mews zase nakupuje

Český jednorožec Mews kupuje švédskou firmu Atomize, která se specializuje na software pro řízení výnosů (RMS). Díky pokročilým algoritmům umožňuje platforma Atomize hotelům dynamicky upravovat ceny a lépe využívat kapacity, což otevírá cestu k vyšším příjmům a efektivnějšímu řízení.
Mews zároveň nedávno posílil svou pozici na trhu akvizicí francouzské společnosti Quotelo, jejíž technologie usnadňuje hotelům organizaci eventů a automatizuje administrativní procesy spojené se skupinovými a firemními rezervacemi. Mews Ventures má na svém kontě od svého vzniku celkem jedenáct akvizic.
6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

Vítězství Donalda Trumpa vyvolalo výrazný nárůst hodnoty bitcoinu (BTC). Výzkum společnosti Finbold zjistil, že za posledních 30 dní vzniklo 11 487 nových bitcoinových adres, které drží 1 milion dolarů nebo více, a to především díky 7,5% růstu BTC od doby, kdy se náskok Donalda Trumpa ve volbách stal drtivým.
Nyní drží 132 842 adres v bitcoinech více než milion dolarů: 121 126 adres drží od 1 do 9,99 milionu dolarů, zatímco 11 697 adres drží 10 milionů dolarů a více. Analýza využila historické údaje a porovnávala předvolební údaje ze 7. října 2024, získané pomocí webového archivačního nástroje Wayback Machine, s nejnovějšími povolebními statistikami k 6. listopadu 2024.
6. 11. První akvizice EET v Česku

Strategickou akvizici divize náhradních dílů společnosti Moravia Consulting, která se specializuje především na obchod s náhradními díly k produktům Hewlett Packard a Hewlet Packard Enterprise uskutečnila distribuční společnost EET Group. Upevňuje tak svou pozici předního poskytovatele náhradních dílů pro IT po celé Evropě. Zároveň jde o první akvizici firmy z České republiky po vstupu EET Group na český trh.
30. 10. Miliony pro start-upy

Agentura CzechInvest otevírá další výzvu projektu Technologická inkubace. V pořadí již pátá výzva s alokací 104,8 milionu korun bude spuštěna v pravé poledne 30. října a potrvá do 29. listopadu 2024. Program, který podporuje startupové prostředí prostřednictvím sedmi specializovaných technologických hubů, nabízí podnikatelům pomoc s jejich inovativním produktem či službou. Nyní spolupracuje s téměř 180 firmami z plánovaných 250, projekt se tak již přehoupl přes svou symbolickou polovinu.
Více informací o programu a nové výzvě naleznete zde.
30. 10. Rozšiřující se DIA

Vzhledem ke sjednocování souvisejících agend přechází kompletní správa, rozvoj a financování registru obyvatel a registru osob od 1. listopadu 2024 z Ministerstva vnitra, resp. Českého statistického úřadu na Digitální a informační agenturu (DIA).
V době samotného převodu obou registrů od 31. října 20:00 do 1. listopadu 04:00 se může projevit snížená dostupnost jejich služeb, jinak by se podle tvrzení DIA dostupnost služeb nijak měnit neměla.

Sdílet

Autor článku

Ľuboslav Lacko

Témata:

Mohlo by vás zajímat

Businessworld Newsletter

HP Knowledge HUB
pro moderní firemní IT

Krátce

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Nový Projekt Manhattan: Umělá inteligence jako klíč k technologické dominanci

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Třetí čtvrtletí letošního roku ryze českých investic

Hackeři zneužili reklamy na Facebooku k šíření falešných správců hesel pro Chrome – pak ukradnou…

Arrow Electronics v EMEA spouští Cloud Amplification Program

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Windows chystá offline AI vyhledávání souborů

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Data: Vydolujte maximum

Sdílet

Autor článku

Mohlo by vás zajímat

Kvíz týdne

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Z našich webů

Nový Projekt Manhattan: Umělá inteligence jako klíč k technologické dominanci

Canalys: Příprava na AI je v plném proudu, investice do cloudové infrastruktury vystřelily o 21 %

Třetí čtvrtletí letošního roku ryze českých investic

Hackeři zneužili reklamy na Facebooku k šíření falešných správců hesel pro Chrome – pak ukradnou…

Arrow Electronics v EMEA spouští Cloud Amplification Program

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Windows chystá offline AI vyhledávání souborů

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Dále u nás najdete

Windows chystá offline AI vyhledávání souborů

Digitální transformace znamená neustálé změny a úpravy

Od dynamitu k Viagře. Výbušný nitroglycerin uvolňuje cévy

Dřívější neplodnost dnes řeší miniinvazivní operace

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Vyznejte se v kuřatech. Takhle se liší selské od venkovského

Potíže, které dříve znamenaly neplodnost, umí lékaři vyřešit

Šestka nad čtyřkou? Zastaralé. Čtyřka nad šestkou!

Papírové letáky budou zpoplatněny, může jít o desetník za kus

Nitroděložní tělíska jsou spolehlivá a hodí se i pro mladé ženy

Češi riskují s daty, podceňují zálohy i bezpečnost

Prokletí slavného spisovatele: duševní poruchy a sebevraždy

Temný rekord, počet kyberútoků dosáhl historického maxima

Jak Mikýř vyděsil Novu, ale nakonec vydělaly obě strany

Jihlava a Havlíčkův Brod mění daň z nemovitostí. Co další města?

Podnikatelé s nižšími příjmy si za celý rok připlatí skoro o 13 tisíc víc

V obchodech je máslo s obsahem tuku jen 61 %. Rarita, ale povolená

Osvědčené způsoby, jak snížit vysoký krevní tlak

Ročně dostane ledvinu deset dětí, důležitá je velikost

Hackeři zneužili reklamy na Facebooku k šíření falešných správců hesel pro Chrome – pak ukradnou Facebook účet