Budúca podoba internetu: Svet ontológií a agentov

9. 6. 2004

Doba čtení: 11 minut

Ontológie sú predmetom skúmania umelej inteligencie za účelom reprezentácie, zdieľania a opakovateľného použitia znalostí. Vyhľadávacie agenty by mali byť schopné smer prehľadávania webu aktívne usmerňovať, rozpoznávať hierarchie pojmov, identifikovať synonymá a rozlišovať rôzne použitia toho istého pojmu

Počas dlhých rokov svojej existencie prešiel internet mnohými zmenami. Od poskytovania čisto textových informácií protokolom gopher, cez rýchly nástup kombinácie textu a obrázkov, až po súčasné dynamické či adaptívne weby alebo webové aplikácie. Aké sú ďalšie perspektívy? Jednu, ale nie jedinú, možnosť predstavuje sémantický web. Svet autonómnych agentov môže však na seba vziať mnoho rôznych podôb.

Objem informácií na súčasnom webe je obrovský; vyhľadávacia služba Google indexuje viac ako 3,3 miliardy webových stránok. Toto množstvo je však len časťou všetkého on-line prístupného obsahu. Mnohé stránky nie sú z rôznych dôvodov prehľadávacím službám prístupné (na požiadanie dynamicky generované stránky, stránky s prístupom pomocou autentifikácie používateľa, explicitný zákaz indexácie prehľadávacími službami a pod.) a mnohé dokumenty na webe sú uložené v rôznych ojedinelých formátoch.
Prehľadávanie takéhoto heterogénneho obsahu obrovskej kvantity sa stáva čoraz ťažšie. I keď sa vyhľadávacie služby neustále zdokonaľujú, stále horšie sa dosahuje dobrá presnosť vyhľadávania, t.j. pomer medzi nájdenými dokumentmi, ktoré sú pre používateľa vyhľadávacej služby skutočne relevantné, a všetkými dokumentmi nájdenými vyhľadávacou službou.

Problémy HTML
Problémom automatického vyhľadávania informácií je to, že najpoužívanejší formát na prezentáciu údajov na súčastnom webe, hypertextový značkovací jazyk (HTML, hypertext markup language) nepopisuje štruktúru údajov, ale iba ich spôsob zobrazenia na obrazovke počítača. Napríklad na rozčlenenie stránky sa v drvivej väčšine prípadov používajú tabuľky napriek tomu, že ich obsah je v drvivej väčšine prípadov "netabuľkový".
Takmer akokoľvek komplikovaná webová stránka je pre človeka na prvý pohľad pochopiteľná, ale počítač má pri jej "pochopení" veľké problémy. Môže maximálne zistiť, čo je názov stránky, vyselektovať dôležité pojmy na základe toho, že sú vyznačené tučným písmom a podobne, ale neexistuje spôsob, ako by mohol stroj "pochopiť" súvislosti medzi jednotlivými pojmami alebo časťami stránok.
I autor súčastnej podoby webu – Tim Berners Lee – je sklamaný. Predstavoval si svoj nápad zrealizovaný značne odlišne: ako jeden obrovský rezervoár informácií, alebo ešte lepšie znalostí, ktorý by všetci používatelia nielen pasívne využívali, ale by do neho aj aktívne prispievali. To mal Lee na mysli, keď hovoril o webe ako o interaktívnom. Bol sklamaný, keď médiá začali web označovať ako interaktívny iba preto, "lebo sa na ňom dá klikať". Začal preto v súvislosti so svojou predstavou webu hovoriť nie o interaktivite, ale o interkreativite.

Prechod k sémantike
Spojiť heterogénne údaje z rôznych zdrojov je veľmi ťažká úloha a v súčastnej podobe webu realizovaného jazykom HTML je jej realizácia nemožná. Okrem toho, že sa tie isté pojmy používajú na označenie rozličných vecí (tzv. polysémický problém) a že sa na označovanie tých istých vecí používajú rôzne pojmy (tzv. synonymický problém), na súčasnom webe nie sú nijakým spôsobom zachytené významy jednotlivých pojmov ani vzťahy medzi nimi.
Riešením nastoleného problému môže byť vytvorenie sémantického webu, t.j. webu, ktorý by nereprezentoval iba text ako reťazce znakov a obrázky ako matice farebných bodov, ale web, ktorý by definoval pojmy a vzťahy medzi nimi (úvod do problematiky sémantického webu viď CW XY/2003). A keďže – ako bolo uvedené vyššie – v súčasnosti používané vyjadrovacie prostriedky webu v podobe jazyka HTML na tento účel nepostačujú, je potrebné uvedený problém riešiť od základov.
Vyjadrovací prostriedok na popis údajov je XML (extensible markup language), čo je metajazyk, umožňujúci definovať nové značkovacie jazyky, presne podľa potrieb konkrétnych aplikácií. Snahou je definovať také značkovacie jazyky, ktoré nebudú popisovať, ako majú údaje vyzerať, ale čo znamenajú. Samotné formátovanie, ktoré bolo dominantnou črtou jazyka HTML, sa odsúva mimo definície údajov do tzv. štýlov. Okrem spomínaného oddelenia významu údajov od ich konkrétnej reprezentácie sa týmto spôsobom dosahuje aj veľmi pozitívny bočný efekt, a to, že jedny a tie isté údaje možno z toho istého zdroja reprezentovať rôzne, aplikovaním štýlu podľa potreby. Ako príklad možno uviesť údaje s firemnej databázy: tie isté údaje sa budú formátovať inak pre potreby automatického systému riadiaceho výrobnú linku a inak pre potreby manažéra kontrolujúceho efektivitu prevádzky.

Nielen XML
XML je ale nástroj na veľmi nízkej úrovni, má teda aj patričné silné a slabé stránky. Jeho silnou stránkou je vlastnosť všetkých nízkoúrovňových nástrojov: dokáže sa vysporiadať s akýmkoľvek problémov, t.j. XML dokáže popísať akékoľvek údaje a vzťahy medzi nimi. Tento popis je však technicky veľmi náročný, ale hlavne neexistuje žiadny všeobecne prijatý štandard popisu údajov pomocou čistého XML.
Ak si teda chcú dve strany – napríklad zákazník a obchodník – vymieňať informácie – napríklad cenníky – vo formáte XML, musia vopred formálne definovať typy údajov, ktoré si budú vymieňať, a spôsob, akým budú tieto údaje popisovať. Toto sa deje pomocou dokumentov DTD (document type definiton).
XML ale dáva veľmi dobrý základ na budovanie nástrojov na popis údajov a vzťahov na vyššej úrovni. Za ďalší stupeň vyjadrovacích možností možno považovať RDF (resource definition framework). Kým XML popisuje iba štruktúru údajov, RDF umožňuje popisovať tvrdenia platiace o údajoch, t.j. "údaje o údajoch", tzv. metaúdaje. Nadstavbou nad RDF sú tzv. RDF schémy (RDFS), ktoré umožňujú vytvárať RDF štruktúry. Pomocou RDF schém je možné vytvárať hierarchie pojmov, čo je ďalší veľmi dôležitý krok k dobrej reprezentácii významu – t.j. k sémantike – informácií.
RDF a RDFS už poskytujú dosť dobré prostriedky na reprezentáciu informácií pre účely sémantického webu. Sú však stále jednoduché a na nízkej úrovni, aby mohli byť aplikovateľné na popis státisícov pojmov a státisícov vzťahov medzi nimi. Na popis nejakého výseku reálneho sveta, tzv. konceptualizácie, sa preto používajú formálne, explicitné špecifikácie, nazývané ontológie. To, že tieto sú formálne a explicitné, zaručuje ich strojovú spracovateľnosť.

Typy ontológií
Ontológie boli a sú predmetom skúmania umelej inteligencie za účelom reprezentácie, zdieľania a opakovateľného použitia znalostí. A o to ide aj v prípade sémantického webu: Umožniť znalosti konzistentne reprezentovať, efektívne zdieľať a dovoliť ich široké použitie bez väčšej námahy. Je nutné poznamenať, že na rozdiel od XML či RDF nie sú ontológie len prostriedkom na popis pojmov a vzťahov medzi nimi, ale sú už výsledkom, konkrétnym popisom nejakej doménovej oblasti, "výrezu reálneho sveta".
Aj ontológie existujú rôzne, podľa toho, čo popisujú. Ontológie popisujúce všeobecné, v širokom meradle platiace pojmy, vzťahy a zákonitosti, sa nazývajú generické ontológie alebo ontológie vyššieho rádu. Najčastejším typom sú ale tzv. doménové ontológie, popisujúce nejakú konkrétnu problémovú oblasť (môže to byť napr. medicína, architektúra, hutnícky priemysel a pod.). Ešte špecifickejšie sú úlohové ontológie, ktoré sa zameriavajú na popis úloh a metódy ich riešení. Na rozdiel od predtým spomínaných typov, ktoré sa zameriavajú prevažne na reprezentáciu znalostí o svete, úlohové ontológie skôr popisujú procesy. Nakoniec najšpecifickejšie sú aplikačné ontológie, prispôsobené na konkrétne úlohy v konkrétnej doménovej oblasti.

Svet agentov
Prvým cieľom, ku ktorému smeruje myšlienka sémantického webu, je to, aby sa na ňom rovnako dobre ako ľudia dokázali pohybovať stroje, autonómne programové agenty. Tieto agenty by mali v prvom rade slúžiť na vyhľadávanie informácií. Toto vyhľadávanie by malo byť odlišné od toho, ktoré poznáme teraz. Súčastné vyhľadávače pracujú s textom iba ako s reťazcami znakov bez toho, aby im rozumeli. Dokonca sa im ani nesnažia rozumieť. Dnešné vyhľadávače teda poskytujú iba nízkoúrovňový nástroj pre spracovanie informácií na vyššej úrovni.
Vyhľadávacie agenty by mali byť schopné smer prehľadávania webu aktívne usmerňovať, rozpoznávať hierarchie pojmov, identifikovať synonymá a rozlišovať rôzne použitia toho istého pojmu (viď synonymický a polysémický problém vyhľadávania spomínaný vyššie). Tieto vlastnosti bude možné dosiahnuť práve na základe toho, že agenty budú rozumieť príslušným ontológiám, ktoré im povedia, aké sú synonymá určitého pojmu, v akých rôznych súvislostiach sa daný pojem používa, čo je jeho zovšeobecnením, aké pojmy sú jeho špeciálnym prípadom a k akým iným pojmom sa viaže.
Ďalším cieľom, pravdepodobne vzdialenejším – predpokladá totiž úspešné dosiahnutie prvého cieľa – je, aby spomínané agenty nielen informácie z webu získavali, ale aby boli schopné ich aj do webu pridávať. Malo by sa tak diať na základe komunikácie s používateľmi, keď by agent žiadal od používateľa buď spresnenie požiadavky na vyhľadávanie, alebo pomoc v situácii, keď už agent nebude schopný pokračovať v prehľadávaní webu a odvodzovaní nových informácií.

Web ako mozog
Zaujímavý pohľad na web načrtáva prof. Sarnovský vo svojej knihe Kybernetický svet (Elfa, Košice, 1999); tento pohľad môže byť o to zaujímavejší, že je aplikovateľný už na web v súčastnej podobe, i keď sa v ňom vyskytujú prvky Leeovskej interkreativity. Sarnovský pripodobňuje web ľudskému mozgu, hypertext asociatívnej pamäti. Linky medzi dokumentami prirovnáva k asociáciám medzi konceptami uloženými v mozgu. Túto analógiu rozvíja na procesy učenia a myslenia.
V mozgu aj na webe považuje získanie informácie za proces "šírenia a aktivácie". Vrcholy (koncepty alebo dokumenty), blízke hľadanej informácii sú aktivované a táto aktivácia sa šíri cez spojenia (synapsie alebo hyperlinky) na susedné vrcholy. Od budúcnosti webu Sarnovský očakáva, že bude na ňom možné ľahšie nájsť aj odpovede na zle alebo neúplne položené otázky a požiadavky. Web si v takom prípade predstavuje ako externú pamäť uchovávajúcu obrovské množstvo informácií, čo používateľovi umožní sústrediť sa na vyššie formy činnosti vedomia.

Budúci vývoj
World wide web sa dynamicky menil za celú dobu svojej existencie. Je jasné, že sa bude meniť aj ďalej. Či to bude smerom k sémantickému webu či akémusi superbrainu je otázne. Možno vývoj narazí na neochotu zverejňovať informácie pre iných a rozvinú sa spôsoby obchodu s informáciami. Možno pôjde vývoj úplne iným smerom a myšlienky sémantického webu upadnú do zabudnutia, odkiaľ ich opäť niekto sčasu-načas vyberie a opráši. Isté je len jedno – súčasný web sa bude určite ďalej vyvíjať a všetko nasvedčuje tomu, že tento vývoj bude rýchly.

Našli jste v článku chybu?

Jozef Babjak

21. 11. Mews zase nakupuje

Český jednorožec Mews kupuje švédskou firmu Atomize, která se specializuje na software pro řízení výnosů (RMS). Díky pokročilým algoritmům umožňuje platforma Atomize hotelům dynamicky upravovat ceny a lépe využívat kapacity, což otevírá cestu k vyšším příjmům a efektivnějšímu řízení.
Mews zároveň nedávno posílil svou pozici na trhu akvizicí francouzské společnosti Quotelo, jejíž technologie usnadňuje hotelům organizaci eventů a automatizuje administrativní procesy spojené se skupinovými a firemními rezervacemi. Mews Ventures má na svém kontě od svého vzniku celkem jedenáct akvizic.
6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

Vítězství Donalda Trumpa vyvolalo výrazný nárůst hodnoty bitcoinu (BTC). Výzkum společnosti Finbold zjistil, že za posledních 30 dní vzniklo 11 487 nových bitcoinových adres, které drží 1 milion dolarů nebo více, a to především díky 7,5% růstu BTC od doby, kdy se náskok Donalda Trumpa ve volbách stal drtivým.
Nyní drží 132 842 adres v bitcoinech více než milion dolarů: 121 126 adres drží od 1 do 9,99 milionu dolarů, zatímco 11 697 adres drží 10 milionů dolarů a více. Analýza využila historické údaje a porovnávala předvolební údaje ze 7. října 2024, získané pomocí webového archivačního nástroje Wayback Machine, s nejnovějšími povolebními statistikami k 6. listopadu 2024.
6. 11. První akvizice EET v Česku

Strategickou akvizici divize náhradních dílů společnosti Moravia Consulting, která se specializuje především na obchod s náhradními díly k produktům Hewlett Packard a Hewlet Packard Enterprise uskutečnila distribuční společnost EET Group. Upevňuje tak svou pozici předního poskytovatele náhradních dílů pro IT po celé Evropě. Zároveň jde o první akvizici firmy z České republiky po vstupu EET Group na český trh.
30. 10. Miliony pro start-upy

Agentura CzechInvest otevírá další výzvu projektu Technologická inkubace. V pořadí již pátá výzva s alokací 104,8 milionu korun bude spuštěna v pravé poledne 30. října a potrvá do 29. listopadu 2024. Program, který podporuje startupové prostředí prostřednictvím sedmi specializovaných technologických hubů, nabízí podnikatelům pomoc s jejich inovativním produktem či službou. Nyní spolupracuje s téměř 180 firmami z plánovaných 250, projekt se tak již přehoupl přes svou symbolickou polovinu.
Více informací o programu a nové výzvě naleznete zde.
30. 10. Rozšiřující se DIA

Vzhledem ke sjednocování souvisejících agend přechází kompletní správa, rozvoj a financování registru obyvatel a registru osob od 1. listopadu 2024 z Ministerstva vnitra, resp. Českého statistického úřadu na Digitální a informační agenturu (DIA).
V době samotného převodu obou registrů od 31. října 20:00 do 1. listopadu 04:00 se může projevit snížená dostupnost jejich služeb, jinak by se podle tvrzení DIA dostupnost služeb nijak měnit neměla.

Sdílet

Autor článku

Jozef Babjak

Mohlo by vás zajímat

Businessworld Newsletter

HP Knowledge HUB
pro moderní firemní IT

Krátce

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Windows chystá offline AI vyhledávání souborů Catchy headline:

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Třetí čtvrtletí letošního roku ryze českých investic

Gmail chystá dočasné „štítové“ e-mailové adresy proti spamu

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Sledují vás přes HDMI? Revoluční útok využívá AI a elektromagnetické záření

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Budúca podoba internetu: Svet ontológií a agentov

Sdílet

Autor článku

Mohlo by vás zajímat

Kvíz týdne

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Z našich webů

Windows chystá offline AI vyhledávání souborů Catchy headline:

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Třetí čtvrtletí letošního roku ryze českých investic

Gmail chystá dočasné „štítové“ e-mailové adresy proti spamu

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Sledují vás přes HDMI? Revoluční útok využívá AI a elektromagnetické záření

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Dále u nás najdete

Vyznejte se v kuřatech. Takhle se liší selské od venkovského

Firmy s vazbami na Čínu jsou problém. Zákaz je i o geopolitice

První pacientka podstoupila genovou terapii bránící slepotě

Youtubeři a influenceři se musí registrovat

Po infarktu hrozí šok a smrt. Lékaři hledají způsoby, jak lidi zachránit

Resort spravedlnosti nestíhá digitalizaci, ČR tím přišlo o miliony

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Prokletí slavného spisovatele: duševní poruchy a sebevraždy

Domácí mazlíčci jí téměř ožívají pod rukama. Figurky vyrábí z vlny

ÚOOÚ šetří české vydavatele kvůli „pay or ok“

Nevyžádané marketingové hovory přísnější zákon nevymýtil

Pokud potřebujete půjčit, nemusíte prodávat bitcoiny. Stačí je zastavit

Češi riskují s daty, podceňují zálohy i bezpečnost

Jak Mikýř vyděsil Novu, ale nakonec vydělaly obě strany

Policie zatkla provozovatele tržiště pro DDoS útoky

Bolest prsu nemusí hned značit vážné onemocnění

Temný rekord, počet kyberútoků dosáhl historického maxima

Dřívější neplodnost dnes řeší miniinvazivní operace

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

SSD už také mají obrovskou kapacitu – až 122 TB