Seznam tak usnadní práci na projektech, které pracují s velkými daty a daty získanými z internetu. Protože se bude StartupYard v roce 2014 specializovat na projekty v oblasti velkých dat, hledání a datové analytiky nad daty z internetu, rozhodl se Seznam.cz nabídnout účastníkům jarního běhu StartupYardu část technologie, na které funguje jeho vyhledávání. Chce tím usnadnit rozběh jejich projektů. Týmům nabídne soubor dokumentů, které zaindexoval robot Seznam.cz a které byly předem klasifikovány dle určitých parametrů. Seznam pro práci s velkými daty používá technologii Hadoop a HBase.
Týmy budou mít v jarním běhu programu akcelerátoru StartupYard přístup do testovacího clusteru. Ten obsahuje zhruba 100 milionů pravidelně aktualizovaných dokumentů z internetu. Všechna tato data jsou stažená z webových stránek a předem zanalyzovaná a rozřazená podle domén, webserverů a URL. Každá z těchto entit dále obsahuje informace o specifických signálech a dalších atributech tak, aby umožnila rychlou analýzu obsahu daných internetových stránek. Seznam.cz týmům ve StartupYard neodhalí všechny signály, které používá v produkčním vyhledávání, jelikož nemůže zcela otevřít svoje know-how. To by totiž mohlo ovlivnit a poškodit kvalitu výsledků hledání.
V příštím období se předpokládá větší internacionalizac projektu StartupYard. „Pro rok 2014 jsme si ve StartupYardu vytyčili ambiciózní cíl: chceme do Prahy přilákat ty nejambicióznější a nejnadějnější projekty v oblasti datové analytiky, hledání nebo velkých dat obecně. Chceme jim pomoci, aby se z jejich projektů staly fungující firmy, které na trhu obstojí. K tomu využíváme i naše specializované mentory. S těmi se mohou týmy, které z Evropy do Prahy přivezeme a nabídneme jim po celé tři měsíce běhu programu i bezplatné ubytování, setkat právě díky jarnímu běhu StartupYardu,“ doplňuje Cedric Maloux, výkonný ředitel StartupYardu.
Seznam.cz se o své know-how se začínajícími podnikateli dělí již několik let. Konkrétně s pražským akcelerátorem StartupYard bude Seznam.cz spolupracovat již třetí rok.
„Naši fulltextovou technologii jsme si vyvinuli sami a stojí na ní zhruba 30 % našich tržeb, které přináší Sklik. I tak jsme se rozhodli část své technologie nabídnout jako pomoc pro evropské týmy, které se budou účastnit jarního běhu StartupYardu. Věříme, že právě tato data pomohou přinést na trh nové zajímavé projekty zaměřené na velká data a hledání. Těším se na další nápady týmů, nejen na celkem obligátní nástroje na monitoringy médií nebo prediktivní marketing,“ komentoval krok společnosti Seznam.cz její generální ředitel Pavel Zima.
Všichni zájemci o účast ve StartupYardu se zajímavým projektem z oblasti dat, hledání nebo datové analytiky se mohou hlásit až do konce ledna 2014.
Čtěte také:
→ Seznam vybuduje vlastní datové centrum
→ Kariéra v cloudovém IT