Internetové vyhledávače čekají revoluční proměny

24. 11. 2004

Doba čtení: 10 minut

Výzkumníci hodlají v příštích několika letech přinést do oblasti vyhledávání na internetu revoluci. Jedním z hlavních cílů jejich práce je personalizace vyhledávačů. Měly by tak například vědět, že jste odborníkem v oblasti IT a pokud hledáte slovo myš, pak vás zajímá spíše počítačová periferie než údaje o zvířatech.

Většina lidí pracujících s informacemi by měla velké problémy, kdyby měla jmenovat něco, co změnilo jejich profesní život tolik, jako internetové vyhledávače. Zázračné služby, které jsou schopny vyhledat žhavá témata daného dne, projít miliony webových stránek a během několika sekund zobrazit informace o nových produktech, výzkumech, jménech odborníků a další údaje, které by jinak bylo možné nalézt jen s velkými obtížemi nebo vůbec.

I přes své silné stránky ale mají vyhledávače také spoustu slabých míst. Pokud se například nějaký uživatel v srpnu letošního roku rozhodl hledat přes Google slovo Linux, po hledání trvajícím pouhých 0,19 sekundy, dostal více než 95 milionů výsledků. To ho jistě neuspokojilo v případě, že ten jím požadovaný byl desetitisící na seznamu. Že je chyba na straně uživatele? Nikoli v případě, pokud přijmeme tezi, že uživatel má vždy pravdu...
Výzkumníci hodlají v příštích několika letech přinést do oblasti vyhledávání na internetu revoluci. Jedním z hlavních cílů jejich práce je personalizace vyhledávačů. Měly by tak například vědět, že jste odborníkem v oblasti IT a pokud hledáte slovo myš, pak vás zajímá spíše počítačová periferie než údaje o zvířatech.

Agenti

Adele Howeová, profesorka počítačových věd na státní univerzitě Colorada, a její postgraduální student Gabriel Somlo již vytvořili nástroj testující použitelnost naznačeného konceptu nazvaný QueryTracker. Jedná se o softwarového agenta, který tvoří jakousi mezivrstvu mezi uživatelem a běžným vyhledávačem a sbírá informace o opětovných oblastech jeho zájmu -- tím mohou být například nejnovější informace o chronické nemoci daného uživatele. QueryTracker následně postupuje jednou denně dotaz uživatele vyhledávači a zobrazuje výsledky -- současně sleduje, které stránky se od předchozího dotazu změnily.
Kouzlo QueryTrackeru spočívá v automatickém vytváření dodatečných každodenních dotazů –- které jsou podle Howeové často kvalitnější než ty, které zadává sám uživatel. A to na základě zjištění o zájmech uživatele a jeho prioritách v průběhu času. Nástroj se stará o filtrování výsledků obou druhů dotazů na základě relevance a jejich odeslání uživateli.
„Schopnost nástroje QueryTracker vytvářet vlastní dotazy může kompenzovat špatně zformulované otázky, jež mnozí uživatelé vytvářejí,“ tvrdí Howeová. „Dokonce i lidé znalí webu jsou často buď příliš líní, nebo neinformovaní o tom, jakým způsobem by měli psát dobré dotazy,“ dodává. Nejběžnější chybou jsou podle ní příliš krátké dotazy, jako je výše uvedený jednoslovný výraz Linux.

Specializace

Jeannette Jenssenová, profesorka matematiky na Dalhousie University v Halifaxu pokročila s personalizačními technikami ještě o krok dále -– zaměřila se na boty (crawlery) indexující obsah webu předtím, než se provádí vyhledávání. Jenssenová tvrdí, že oblíbené vyhledávače mají tři nedostatky: Ve stále vyšší míře za své služby účtují vysoké částky firemním uživatelům, zkreslují výsledky ve prospěch inzerentů a často stahují ohromné množství irelevantních informací. Ale specializované crawlery, které Jenssenová vytvořila, indexují pouze ty stránky, jež mají vztah k předem definovaných tématům, a hodnocení následně přizpůsobují zájmům uživatele.
Podle Jenssenové by například lékařská firma mohla každou noc spouštět svůj crawler, který by indexoval pouze stránky vztahující se k medicíně. Současně by hodnotil výsledky způsobem, který dává smysl v oblasti lékařství, nikoliv tak, jak to požadují inzerenti nebo běžní uživatelé webu. Výsledky indexování by se stále zlepšovaly na základě pozorování úspěšnosti vyhledávání.
Specializované crawlery hledají stránky, obsahující údaje, jež odpovídají určitým kritériím. Jenssenová umí rozpoznat skryté nebo nepřímé odkazy pomocí procesu, který sama připodobňuje k dětské hře „samá voda -– přihořívá –- hoří.“ Vysvětluje to na příkladu webového crawleru, jenž se specializuje na oblast počítačových věd. Výsledky výzkumů v této oblasti jsou často na stránkách výzkumných pracovníků, kteří je napsali, a jejich stránky obsahují odkazy na jejich domovské univerzity. „Když se crawler dostane na stránky univerzity, pak hledá cíleněji, než na stránkách nějaké firmy,“ říká Jenssenová. „Říká –- přihořívá.“
Filippo Menczer, profesor počítačových věd na alabamské univerzitě, říká, že běžné vyhledávače určují relevanci dokumentu na základě izolovaného zvážení různých kritérií. Například mohou nejprve zvolit dokument proto, že obsahuje daná klíčová slova. K vyhodnocení pořadí následně vezmou v potaz, kolik odkazů na tento dokument směřuje. Lepších výsledků by podle jeho názoru bylo možné docílit zvážením mnoha takových „měřítek relevance“ –- včetně preferencí uživatele -– v jejich kombinaci, a na základě kombinace vyhledaných stránek, nikoliv jednotlivých dokumentů.
Takovéto komplexní a silné vyhledávače budou podle jeho názoru dostupné v praxi během tří až pěti let, kdy výkony počítačů opět vzrostou. „Budeme provádět dolování dat hrubou silou ve velkém rozsahu po celém webu –- napříč mnoha terabajty informací,“ upřesňuje Menczer.

Studnice dat

Hrubá síla -– to je celkem přesný popis práce ohromného linuxového clusteru IBM WebFoutain, na němž nepřetržitě běží 9 000 programů, procházejících každým dnem 50 milionů nových stránek. Ale WebFountain neprovádí prosté indexování slov; využívá analýzy přirozeného jazyka k extrahování významu z nestrukturovaného textu.
Tak například určuje, zda je daná entita jménem osoby, firmy, místa, produktu a podobně, a následně k ní připojuje XML metadata, v nichž lze vyhledávat. „Značkujeme celý web, všechny diskusní skupiny a další zdroje,“ říká Dan Gruhl, šéfarchitekt WebFountain z výzkumného centra IBM.
Použitý software podle Gruhla funguje již dnes velmi dobře -- je úspěšný pokud jde o extrahování a označování sémantického významu nestrukturovaného textu. Ale náročnější operace, jako například analýza významu, sloužící třeba k tomu, aby firmy mohly automaticky monitorovat pověst svých produktů, vyžaduje podle jeho slov množství další práce.
Výzkumní pracovníci IBM Almaden Research Center experimentují s nástrojem Sentiment Analyzer, jenž se pokouší vybírat z on-line textových dokumentů slova označující pocity a názory. „Ford Explorer je skvělý -- takový výraz je snadné klasifikovat,“ upřesňuje Gruhl. „Ale pokud by zákazník sarkasticky řekl, „Je skoro tak dobrý, jako je Ford Pinto,“ pak je to pro sémantickou analýzu obtížný úkol. Analýza smyslu takovýchto výroků je jedním z cílů výzkumu IBM.

Extrakce entit

„Odvětví hledání a správy obsahu se povětšinou zabývá nestrukturovanými nebo polostrukturovanými informacemi, nikoliv transakčními daty v relačních databázích,“ říká Prabhakar Reghavan, šéftechnolog firmy Verity. Podle něj má většina celosvětově zaznamenaných údajů nestrukturovanou podobu, přesto mají tato data pro firmy menší hodnotu, než údaje v jejich relačních databázích. A důvod? Zjištění jejich jednoznačného významu je obtížné.
„My potřebujeme vzít hromady slov a přidat k nim různé formy struktur,“ vysvětluje Reghavan. Technologie, která má tento úkol, tedy extrakci entit, na starosti je podle jeho slov již poměrně robustní. Zvládne již relativně spolehlivě určit, že některá slova označují jména osob, firem, zeměpisných míst a podobně.
Ale i když jsou nástroje pro extrakci entit poměrně vyspělé, aplikace, které tyto nástroje využívají –- třeba systém pro třídění žádostí o zaměstnání -– bohužel nikoliv. „Aplikace se dosud nedostaly tak daleko, aby firmy mohly říci: Dobrá, mohly bychom místo našeho systému lidských zdrojů využít jednu z takových věcí.“
„Z technického hlediska jsme ve stádiu, kdy můžeme říci, že systém umí přečíst e-mail od zákazníka a zjistit, kterému oddělení patří, zjistit odesílatele a skutečnost, že se jedná o významného zákazníka, a na základě toho tento e-mail předat vyšší úrovni podpory. Umí dokonce provést i analýzu nálady -– třeba zda je odesílající zákazník rozzloben,“ tvrdí Reghavan. Ale zde už leží hranice jeho schopností.
Podle Reghavana jsou dostupné nástroje dost dobré při extrahování struktury, ale spolehlivé využití takové struktury stále vyžaduje specifické vyladění v dané oblasti, sloužící ke zmapování terminologie. Například firma, jež se zabývá v anglicky mluvící zemi on-line prodejem vstupenek do divadla, by měla vědět, že výraz „stall“ ve Velké Británii znamená totéž, co v USA výraz „orchestra seat“ (křesla v první řadě).
Raghavan se přesto domnívá, že stav současného poznání v oblasti technologií vyhledávačů přesahuje očekávání většiny firemních uživatelů. „Na nás je, abychom o tom průmysl přesvědčili. Cesta spočívá v tom, že vezmeme tyto sady nástrojů a ukážeme, že poskytují přesvědčivé hodnoty pro určité vertikální odvětví.“
„Dnes, pokud byste řekli, že můžete vzít svůj CRM systém, jenž spoléhá na databázi, a přeměnit jej v mnohem větším rozsahu tak, aby využíval textový obsah, pak byste získali určité zájemce. Ale ti by řekli: Tak nám to ukažte. A na nás je, abychom do dokázali,“ uzavírá Raghavan.

Vědci z kalifornské univerzity odhadují, že v roce 2002 bylo na papíru, filmech a magnetických či optických médiích zaznamenáno 5 exabajtů informací? Kolik že to přesně je?

Kilobajt - 1 024, tedy cca 10 exp 3 bajtů, 2 KB = jedna strojopisná stránka
Megabajt – 10 exp 6 bajtů, 1 MB = krátký román
Gigabajt – 10 exp 9 bajtů, 1 GB = nákladní auto plné knih
Terabajt – 10 exp 12 bajtů, 1 TB = knihy, vytištěné na papíře z 50 tisíc stromů
Petabajt – 10 exp 15 bajtů, 2 PB = veškeré vědecké knihovny v USA
Exabajt - 10 exp 18 bajtů, 5 EB = všechna slova, která kdy lidé vyslovili

Našli jste v článku chybu?

Gary HAnthes

21. 11. Mews zase nakupuje

Český jednorožec Mews kupuje švédskou firmu Atomize, která se specializuje na software pro řízení výnosů (RMS). Díky pokročilým algoritmům umožňuje platforma Atomize hotelům dynamicky upravovat ceny a lépe využívat kapacity, což otevírá cestu k vyšším příjmům a efektivnějšímu řízení.
Mews zároveň nedávno posílil svou pozici na trhu akvizicí francouzské společnosti Quotelo, jejíž technologie usnadňuje hotelům organizaci eventů a automatizuje administrativní procesy spojené se skupinovými a firemními rezervacemi. Mews Ventures má na svém kontě od svého vzniku celkem jedenáct akvizic.
6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

Vítězství Donalda Trumpa vyvolalo výrazný nárůst hodnoty bitcoinu (BTC). Výzkum společnosti Finbold zjistil, že za posledních 30 dní vzniklo 11 487 nových bitcoinových adres, které drží 1 milion dolarů nebo více, a to především díky 7,5% růstu BTC od doby, kdy se náskok Donalda Trumpa ve volbách stal drtivým.
Nyní drží 132 842 adres v bitcoinech více než milion dolarů: 121 126 adres drží od 1 do 9,99 milionu dolarů, zatímco 11 697 adres drží 10 milionů dolarů a více. Analýza využila historické údaje a porovnávala předvolební údaje ze 7. října 2024, získané pomocí webového archivačního nástroje Wayback Machine, s nejnovějšími povolebními statistikami k 6. listopadu 2024.
6. 11. První akvizice EET v Česku

Strategickou akvizici divize náhradních dílů společnosti Moravia Consulting, která se specializuje především na obchod s náhradními díly k produktům Hewlett Packard a Hewlet Packard Enterprise uskutečnila distribuční společnost EET Group. Upevňuje tak svou pozici předního poskytovatele náhradních dílů pro IT po celé Evropě. Zároveň jde o první akvizici firmy z České republiky po vstupu EET Group na český trh.
30. 10. Miliony pro start-upy

Agentura CzechInvest otevírá další výzvu projektu Technologická inkubace. V pořadí již pátá výzva s alokací 104,8 milionu korun bude spuštěna v pravé poledne 30. října a potrvá do 29. listopadu 2024. Program, který podporuje startupové prostředí prostřednictvím sedmi specializovaných technologických hubů, nabízí podnikatelům pomoc s jejich inovativním produktem či službou. Nyní spolupracuje s téměř 180 firmami z plánovaných 250, projekt se tak již přehoupl přes svou symbolickou polovinu.
Více informací o programu a nové výzvě naleznete zde.
30. 10. Rozšiřující se DIA

Vzhledem ke sjednocování souvisejících agend přechází kompletní správa, rozvoj a financování registru obyvatel a registru osob od 1. listopadu 2024 z Ministerstva vnitra, resp. Českého statistického úřadu na Digitální a informační agenturu (DIA).
V době samotného převodu obou registrů od 31. října 20:00 do 1. listopadu 04:00 se může projevit snížená dostupnost jejich služeb, jinak by se podle tvrzení DIA dostupnost služeb nijak měnit neměla.

Sdílet

Autor článku

Gary HAnthes

Mohlo by vás zajímat

Businessworld Newsletter

HP Knowledge HUB
pro moderní firemní IT

Krátce

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Windows chystá offline AI vyhledávání souborů Catchy headline:

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Třetí čtvrtletí letošního roku ryze českých investic

Gmail chystá dočasné „štítové“ e-mailové adresy proti spamu

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Sledují vás přes HDMI? Revoluční útok využívá AI a elektromagnetické záření

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Internetové vyhledávače čekají revoluční proměny

Sdílet

Autor článku

Mohlo by vás zajímat

Kvíz týdne

21. 11. Mews zase nakupuje

6. 11. Výhra Trumpa vytvořila nové milionáře díky BTC

6. 11. První akvizice EET v Česku

30. 10. Miliony pro start-upy

30. 10. Rozšiřující se DIA

Anketa

Je pro váš podnik umělá inteligence vhodným řešením některých požadavků?

SPECIÁLNÍ PROJEKTY

Z našich webů

Windows chystá offline AI vyhledávání souborů Catchy headline:

Coffee break: Když Wi-Fi potřebuje překonávat i kovové zdi

Třetí čtvrtletí letošního roku ryze českých investic

Gmail chystá dočasné „štítové“ e-mailové adresy proti spamu

HPE ocenilo partnery roku 2024, nejlepším distributorem je DNS

Na co mají zaměstnanci nárok, pokud se starají o nemocné blízké?

Sledují vás přes HDMI? Revoluční útok využívá AI a elektromagnetické záření

IDC: Dodávky průmyslových tiskáren stagnují, výkonnost segmentů se ale liší

Na NIS2 si vyhraďte minimálně 6 měsíců, radí Jan Sedlák z MasterDC

Dále u nás najdete

První pacientka podstoupila genovou terapii bránící slepotě

Po infarktu hrozí šok a smrt. Lékaři hledají způsoby, jak lidi zachránit

SSD už také mají obrovskou kapacitu – až 122 TB

Co dělat, když vám zavřou dodavatele IT služeb?

Youtubeři a influenceři se musí registrovat

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Celý příští týden se můžete nechat anonymně otestovat na HIV

Prokletí slavného spisovatele: duševní poruchy a sebevraždy

Chrome OS se zřejmě promění v Android

Policie zatkla provozovatele tržiště pro DDoS útoky

USA zastavují dodávky pokročilých AI čipů TSMC do Číny

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

Balík od DPD si nově můžete vyzvednout i na České poště

Jak Mikýř vyděsil Novu, ale nakonec vydělaly obě strany

Čeští středoškoláci očekávají vypuštění své družice

Domácí mazlíčci jí téměř ožívají pod rukama. Figurky vyrábí z vlny

Nevyžádané marketingové hovory přísnější zákon nevymýtil

ÚOOÚ šetří české vydavatele kvůli „pay or ok“

Děti, které nemají praktika, mohou jít do nemocničních ordinací

V aplikaci Záchranka je rozcestník péče pro nevyléčitelně nemocné