Hlavní navigace

Pět způsobů implementace vlastního velkého jazykového modelu pro AI

21. 12. 2023
Doba čtení: 12 minut

Sdílet

 Autor: CIO.cz s využitím DALL-E
Vybudování nového velkého jazykového modelu (LLM) od nuly může společnost stát miliony – nebo dokonce stovky milionů dolarů. Existuje však několik způsobů, jak nasadit přizpůsobené LLM, které jsou rychlejší, jednodušší a hlavně levnější.

Je to nejrychleji se rozvíjející nová technologie v historii. Generativní umělá inteligence mění svět a mění způsob, jakým vytváříme obrázky a videa, zvuk, text a kód.

Podle zářijového průzkumu společnosti Dell mezi osobami s rozhodovací pravomocí v oblasti IT 76 % uvedlo, že generativní AI bude mít „významný, ne-li transformační“ dopad na jejich organizace, a většina očekává, že během příštích 12 měsíců uvidí smysluplné výsledky.

Kvíz: Hodíte se na CIO? Přečtěte si také:

Kvíz: Hodíte se na CIO?

Velký jazykový model (LLM) je typ generativní umělé inteligence, který se zaměřuje na text a kód namísto obrázků nebo zvuku, i když některé začaly integrovat různé modality. Nejoblíbenější LLM v dnešním podniku jsou ChatGPT a další modely OpenAI GPT, Claude od společnosti Anthropic, Llama 2 od společnosti Meta a Falcon, model s otevřeným zdrojovým kódem od Technology Innovation Institute v Abu Dhabi, nejlépe známý pro svou podporu jiných jazyků než angličtiny.

Existuje několik způsobů, jak společnosti nasazují LLM, jako je poskytování přístupu zaměstnanců k veřejným aplikacím, používání rychlého inženýrství a rozhraní API k vkládání LLM do stávajícího softwaru, používání vektorových databází ke zlepšení přesnosti a relevance, dolaďování stávajících modelů nebo vytváření vlastních.

Implementace veřejných LLM

Dig Security je izraelská společnost pro zabezpečení cloudových dat a její inženýři používají ChatGPT k psaní kódu. „Každý inženýr používá věci, které mu pomáhají psát kód rychleji,“ říká generální ředitel Dan Benjamin. A ChatGPT je jedním z prvních a nejjednodušších asistentů kódování. 

Ale je v tom problém – nikdy si nemůžete být jisti, zda informace, které nahrajete, nebudou použity k trénování další generace modelu. Dig Security řeší tuto možnost dvěma způsoby. Za prvé, společnost používá zabezpečenou bránu ke kontrole, jaké informace se nahrávají.

Vítězové soutěže Případová studie 2023 Přečtěte si také:

Vítězové soutěže Případová studie 2023

„Naši zaměstnanci vědí, že nemohou nahrát nic citlivého,“ říká Benjamin. „Je to zablokované.“

Za druhé, společnost nasměruje své inženýry k verzi ChatGPT běžící na privátním cloudu Azure. To znamená, že Dig Security získá svou vlastní samostatnou instanci ChatGPT. I s tímto přístupem k bezpečnosti pomocí preventivních opatření to není dokonalé řešení, říká Benjamin. „Dokonalé řešení neexistuje. Každá organizace, která si myslí, že existuje, klame sama sebe.“

Někdo může například použít VPN nebo osobní počítač a získat přístup k veřejné verzi ChatGPT. Zde přichází na řadu další úroveň zmírnění rizik.

„Všechno je to o školení zaměstnanců,“ říká, „a ujištění se, že rozumí tomu, co mají dělat, a že jsou dobře vyškoleni v oblasti zabezpečení dat.“

Společnost Dig Security v tom není sama.

Skyhigh Security v Kalifornii uvádí, že k ChatGPT přistupoval prostřednictvím podnikové infrastruktury během první poloviny roku 2023 téměř milion koncových uživatelů, přičemž objem uživatelů vzrostl mezi lednem a červnem o 1 500 %, říká Tracy Holdenová, ředitelka podnikového marketingu Skyhigh.

A v červencové zprávě od Netskope Threat Labs je zdrojový kód zasílán do ChatGPT více než jakýkoli jiný typ citlivých dat s rychlostí 158 incidentů na 10 000 podnikových uživatelů za měsíc.

V poslední době společnosti získávají bezpečnější a podnikově přívětivější možnosti, jako je Microsoft Copilot, který kombinuje snadné použití s dalšími ovládacími prvky a ochranou. A na OpenAI DevDay na začátku listopadu generální ředitel Sam Altman řekl, že nyní je 100 milionů aktivních uživatelů používajících chatbota ChatGPT společnosti, dva miliony vývojářů používajících jeho API a více než 92 % společností z Fortune 500 staví na platformě OpenAI.

Vektorové databáze a RAG

Pro většinu společností, které chtějí přizpůsobit své LLM, je tou správnou cestou rozšířená generace vyhledávání (RAG). Pokud někdo mluví o embeddingu nebo vektorových databázích, obvykle má na mysli právě toto. Funguje to tak, že uživatel položí otázku týkající se, řekněme, firemní politiky nebo produktu. Tato otázka není pro LLM nastavena hned. 

Místo toho se nejprve zpracuje. Má uživatel právo na přístup k těmto informacím? Pokud existují přístupová práva, pak jsou všechny potenciálně relevantní informace získány, obvykle z vektorové databáze. Poté jsou otázka a příslušné informace odeslány do LLM a vloženy do optimalizované výzvy, která může také specifikovat preferovaný formát odpovědi a tón hlasu, který by LLM měl používat.

Kyberútočníci si pomáhají umělou inteligencí, obránci oplácejí stejnou mincí Přečtěte si také:

Kyberútočníci si pomáhají umělou inteligencí, obránci oplácejí stejnou mincí

Vektorová databáze je způsob organizace informací do řady seznamů, z nichž každý je seřazen podle jiného atributu. Můžete mít například abecední seznam a čím blíže jsou vaše odpovědi v abecedním pořadí, tím jsou relevantnější.

Abecední seznam je jednorozměrná vektorová databáze, ale vektorové databáze mohou mít neomezený počet dimenzí, což vám umožňuje vyhledávat související odpovědi na základě jejich blízkosti k libovolnému počtu faktorů. Díky tomu jsou ideální pro použití ve spojení s LLM.

„Právě teď vše převádíme na vektorovou databázi,“ říká Ellie Fieldsová, hlavní produktová a technická ředitelka společnosti Salesloft, prodejce platformy pro zapojení do prodeje. „A ano, fungují.“

A je to efektivnější než používání jednoduchých dokumentů k poskytování kontextu pro dotazy LLM, říká.

Společnost primárně používá ChromaDB, open-source vektorový obchod, jehož primární použití je pro LLM. Další vektorovou databází, kterou Salesloft používá, je Pgvector, rozšíření pro vyhledávání podobnosti vektorů pro databázi PostgreSQL.

Ale také jsme provedli nějaký výzkum pomocí FAISS a Pinecone, říká. FAISS, neboli Facebook AI Similarity Search, je open-source knihovna poskytovaná společností Meta, která podporuje podobnostní vyhledávání v multimediálních dokumentech.

A Pinecone je proprietární cloudová vektorová databáze, která se taktéž stala oblíbenou u vývojářů, a její bezplatná vrstva podporuje až 100 000 vektorů. Jakmile jsou relevantní informace načteny z vektorové databáze a vloženy do výzvy, bude dotaz odeslán do OpenAI spuštěné v soukromé instanci v Microsoft Azure.

Video ke kávě

Máte čas na rychlé a informativní video? 

„Nechali jsme Azure certifikovat jako nový subprocesor na naší platformě,“ říká Fieldsová. „Vždy dáváme zákazníkům vědět, když máme nového zpracovatele pro jejich informace.“

Ale Salesloft také spolupracuje s Googlem a IBM a pracuje na funkci generativní umělé inteligence, která tyto platformy také využívá.

„Určitě budeme spolupracovat s různými poskytovateli a různými modely,“ říká. „Věci se mění týden od týdne. Pokud se nedíváte na různé modely, ujede vám loď.“ RAG tak umožňuje podnikům oddělit svá proprietární data od samotného modelu, což usnadňuje výměnu modelů dovnitř a ven, když jsou vydávány lepší modely. Kromě toho lze vektorovou databázi aktualizovat, a to i v reálném čase, aniž by bylo nutné provádět další dolaďování nebo přeškolování modelu.

„Nahradili jsme modely z OpenAI za OpenAI v Azure,“ říká Fieldsová. „A přecházeli jsme mezi různými modely OpenAI. Můžeme dokonce podporovat různé modely pro různé části naší zákaznické základny.“

Někdy mají různé modely různá API, dodává. „Není to triviální,“ říká. Vyměnit model je ale stále jednodušší než rekvalifikace. „Ještě jsme nenašli případ použití, který by lépe vyhovoval jemnému ladění než vektorová databáze,“ dodává Fieldsová. „Věřím, že existují případy využití, ale zatím jsme nenašli žádný, který by fungoval lépe.“

Pět hlavních technologických trendů, které je třeba sledovat příští rok Přečtěte si také:

Pět hlavních technologických trendů, které je třeba sledovat příští rok

Jednou z prvních aplikací LLM, kterou Salesloft zavedl, bylo přidání funkce, která zákazníkům umožňuje generovat prodejní e-mail potenciálnímu zákazníkovi. „Zákazníkům psaní těchto e-mailů zabíralo spoustu času,“ říká Fieldsová. „Bylo těžké začít a je tu spousta bloků při psaní.“ Nyní tedy mohou zákazníci specifikovat cílovou osobnost, svou hodnotovou nabídku a výzvu k akci – a zpět dostanou tři různé koncepty e-mailů, které si mohou přizpůsobit. Salesloft používá k psaní e-mailu OpenAI GPT 3.5, říká Fieldsová.

Lokálně spouštěné modely s otevřeným zdrojovým kódem

Ikigai Labs se sídlem v Bostonu nabízí platformu, která společnostem umožňuje vytvářet vlastní velké grafické modely nebo modely AI navržené pro práci se strukturovanými daty. Ale aby se rozhraní zjednodušilo, Ikigai napájí svůj frontend pomocí LLM. Společnost například používá verzi open source LLM Falcon se sedmi miliardami parametrů a pro některé své klienty ji provozuje ve vlastním prostředí.

Pro dodávání informací do LLM používá Ikigai vektorovou databázi, která je také spuštěna lokálně. Je postavena na algoritmu Boundary Forest, říká spoluzakladatel a generální ředitel společnosti Devavrat Shah.

„Na MIT jsme před čtyřmi lety s některými mými studenty experimentovali s množstvím vektorových databází,“ říká Shah, který je také profesorem umělé inteligence na MIT. „Věděl jsem, že to bude užitečné, ale netušil jsem, že to bude až takhle užitečné.“

Jak spolehlivé jsou harddisky ve skutečnosti? Přečtěte si také:

Jak spolehlivé jsou harddisky ve skutečnosti?

Udržování jak modelu, tak vektorové databáze na lokální úrovni znamená, že žádná data nemohou uniknout třetím stranám, říká. „Pro klienty, kteří jsou v pohodě s posíláním dotazů ostatním, používáme OpenAI,“ říká Shah. „Jsme LLM agnostičtí.“

Společnost PricewaterhouseCoopers, která vytvořila svůj vlastní nástroj ChatPWC, je také LLM agnostickou. „ChatPWC činí naše spolupracovníky schopnějšími,“ říká Bret Greenstein, partner firmy a vedoucí strategie pro uvádění na trh gen AI. [Nástroj] obsahuje například předem připravené výzvy ke generování popisů úloh. „Má všechny moje formáty, šablony a terminologii,“ říká. „Máme HR, data a rychlé odborníky a navrhujeme něco, co vytváří velmi dobré nabídky práce. Nyní nikdo nemusí vědět, jak udělat úžasné výzvy, které generují popisy práce.“

Nástroj je postaven na platformě Microsoft Azure, ale společnost jej postavila také pro Google Cloud Platform a AWS. „Musíme sloužit našim klientům a ti existují v každém cloudu,“ říká Greenstein. Podobně je optimalizován pro použití různých modelů na back endu, protože to tak klienti chtějí. „Všechny modely fungují,“ dodává. „Llama 2, Falcon – máme všechno.“

Trh se samozřejmě rychle mění a Greenstein navrhuje, aby podniky při zavádění AI přijaly politiku „bez lítosti“.

„Lidé mohou dělat mnoho,“ říká, „např. vytváření dat nezávislých na modelech a budování správy.“ Když se pak trh změní a vyjde nový model, data a struktura řízení budou stále relevantní.

Ladění k dokonalosti

Manažerská poradenská společnost AArete vzala open source model GPT 2 a doladila jej na vlastních datech. „Bylo to snadné,“ říká Priya Iragavarapu, viceprezidentka pro digitální technologické služby společnosti. „Chtěli jsme, aby to open source bylo možné vzít a zveřejnit interně v našem prostředí.“

Pokud by firma Aarete použila hostovaný model a připojila se k němu přes API, nastaly by problémy s důvěrou. „Máme obavy, kde mohou data z výzvy [prompt] skončit,“ říká. „Nechceme riskovat.“

Při výběru modelu s otevřeným zdrojovým kódem sleduje, kolikrát byl dříve stažen, jeho komunitní podporu a hardwarové požadavky.

„Základní model by měl mít také určitou relevanci úkolu,“ říká. „Existují některé modely pro konkrétní úkoly. Nedávno jsem se například podívala na model Hugging Face, který analyzuje obsah z PDF do strukturovaného formátu.“

Pište pro CIO Business World

 

Máte dobré nápady, máte co říct? Chcete se podělit o své znalosti se čtenáři CIO BW?

Je tu ideální příležitost. V redakci neustále hledáme externí autory, kteří rozšíří náš záběr. Nabízíme možnost publikací zajímavých článků nejen na webu, ale také v našem tištěném magazínu. Pokud máte zájem, ozvěte se šéfredaktorovi na e-mail: radan.dolejs@iinfo.cz

Mnoho společností ve finančním světě a ve zdravotnictví dolaďuje LLM na základě vlastních dodatečných datových souborů.

„Základní LLM se školí na celém internetu,“ říká. Díky jemnému ladění může společnost vytvořit model specificky zaměřený na jejich případ obchodního použití.

Běžným způsobem, jak toho dosáhnout, je vytvořit seznam otázek a odpovědí a doladit na nich model. OpenAI ve skutečnosti začala umožňovat jemné ladění svého modelu GPT 3.5 v srpnu pomocí přístupu Q&A a na svém listopadovém DevDay rozvinula sadu nových možností jemného ladění, přizpůsobení a RAG pro GPT 4.

To je užitečné zejména pro zákaznický servis a aplikace help desk, kde společnost již může mít databanku často kladených dotazů.

Také v průzkumu společnosti Dell dává 21 % společností přednost „přetrénování“ stávajících modelů pomocí vlastních dat ve vlastním prostředí.

„Nejpopulárnější možností se zdá být Llama 2,“ říká Andy Thurai, viceprezident a hlavní analytik společnosti Constellation Research Inc. Llama 2 se dodává ve třech různých velikostech a je zdarma pro společnosti s méně než 700 miliony uživatelů měsíčně. Společnosti jej mohou doladit na svých vlastních souborech dat a poměrně rychle mají nový vlastní model, říká. 

Ve skutečnosti žebříčku Hugging Face LLM v současnosti dominují různá doladění a přizpůsobení Llama 2. Před Llamou 2 byl nejoblíbenější open source LLM Falcon, dodává. „Právě teď je to závod ve zbrojení.“ Jemné ladění může vytvořit model, který je přesnější pro konkrétní případy obchodního použití, říká. „Pokud používáte generalizovaný model Llama, přesnost může být nízká.“

A oproti vkládání RAG má jemné doladění některé výhody. S vkládáním musí společnost pro každý dotaz hledat vektorovou databázi. „A máte implementaci databáze,“ říká Thurai. „To taky nebude jednoduché.“

Neexistují žádná omezení kontextového okna pro jemné doladění. S vkládáním lze do výzvy přidat jen určité množství informací. Pokud společnost dolaďuje, nedělala by to často, pouze když vyjde výrazně vylepšená verze základního modelu umělé inteligence.

A konečně, pokud má společnost rychle se měnící soubor dat, lze jemné ladění použít v kombinaci s vkládáním. „Nejdřív to můžete doladit a poté provést RAG pro přírůstkové aktualizace,“ říká.

Rowan Curran, analytik společnosti Forrester Research, očekává, že během příštího roku se objeví spousta vyladěných modelů specifických pro doménu a společnosti mohou také destilovat modely, aby byly efektivnější při konkrétních úkolech. Ale jen malá menšina společností – 10 % nebo méně – to udělá, říká.

Softwarové společnosti vytvářející aplikace, jako jsou aplikace SaaS, mohou použít jemné ladění, říká Greenstein z PricewaterhouseCoopers. „Pokud máte vysoce opakovatelný vzor, jemné doladění může snížit vaše náklady,“ říká, ale u podnikových nasazení je RAG efektivnější v 90 až 95 % případů.

„Ve skutečnosti hledáme dolaďování modelů pro konkrétní vertikály,“ dodává Sebastien Paquet, viceprezident ML ve společnosti Coveo, kanadské společnosti pro vyhledávání a doporučení. „Máme několik specializovaných vertikál se specializovanou slovní zásobou, jako je vertikála v oblasti medicíny. Podniky, které prodávají díly nákladních vozidel, mají svůj vlastní způsob, jak jsou díly pojmenovány.“

Prozatím však společnost používá OpenAI GPT 3.5 a GPT 4 běžící na privátním cloudu Azure s izolovanými výzvami LLM API, takže Coveo může v případě potřeby přejít na různé modely. Pro specifické případy použití také používá některé open source LLM od Hugging Face.

Vybudujte LLM od nuly

Jen málo společností se chystá vybudovat vlastní LLM od nuly. Koneckonců, LLM jsou ze své definice docela velké. OpenAI GPT 3 má 175 miliard parametrů a byl trénován na datovém souboru 45 terabajtů a jeho trénování stálo 4,6 milionu dolarů. A podle generálního ředitele OpenAI Sama Altmana stála GPT 4 přes 100 milionů dolarů.

Právě tato velikost dává LLM jejich kouzlo a schopnost zpracovávat lidskou řeč s jistou mírou zdravého rozumu a také schopnost řídit se pokyny.

„Nemůžete to trénovat jen na svých vlastních datech,“ říká Carm Taglienti, uznávaný inženýr společnosti Insight. „Je tu hodnota, která pochází z tréninku na desítkách milionů parametrů.“

Dnes téměř všechny LLM pocházejí od velkých hyperscalerů nebo startupů zaměřených na umělou inteligenci, jako jsou OpenAI a Anthropic.

Dokonce i společnosti s rozsáhlými zkušenostmi s budováním vlastních modelů se vyhýbají vytváření vlastních LLM.

Například Salesloft již roky buduje své vlastní modely umělé inteligence a strojového učení, včetně modelů generativní umělé inteligence využívající dřívější technologie, ale váhá s vytvořením zcela nového, špičkového základního modelu od nuly.

„Je to obrovský výpočetní krok, u kterého, alespoň v této fázi, nevidím, že bychom se do něj pustili,“ říká Fieldsová.

 

CIO Business World si můžete objednat i jako klasický časopis (v tištěné i v digitální podobně) Věnujeme se nejnovějším technologiím a efektivnímu řízení podnikové informatiky. Přinášíme nové ekonomické trendy a analýzy a zejména praktické informace z oblasti podnikového IT se zaměřením na obchodní a podnikatelské přínosy informačních technologií. Nabízíme možná řešení problémů spojených s podnikovým IT v období omezených rozpočtů. Naší cílovou skupinou je vyšší management ze všech odvětví ekonomiky.