Úvod
Niekoľko rokov dozadu boli vyvinuté prvé AI systémy, ktoré však mali problémy so základnými úlohami a nedokázali pochopiť kontext. V posledných rokoch sa však situácia dramaticky zmenila. Prešli sme na iný druh architektúry, čo nám umožnilo vytvárať modely, ktoré "ukladajú" a prepájajú informácie naprieč miliardami parametrov.
Vizuálne modely
Jedným z najužitočnejších AI systémov, ktoré sú dnes k dispozícii, sú Vision Large Language Models (Vision LLMs) - nová trieda systémov navrhnutých pre reálne nasadenie, schopná pracovať s obrázkami alebo videom a porozumieť kontextu.
Na rozdiel od tradičných technológií im ich vizuálne porozumenie a nepretržité monitorovanie umožňujú získavať informácie na úrovni, ku ktorej sme doteraz nemali prístup.
Či už pôsobíte v zdravotníctve, výrobe alebo dokonca v primárnych sektoroch, ako je ťažobný priemysel, Vision LLMs vám otvárajú možnosti, ktoré predchádzajúce systémy jednoducho nedokázali poskytnúť.
Náš prístup
Veľké technologické firmy trénujú AI vďaka obrovským množstvám dát, aby "vedeli všetko". Takéto systémy síce dokážu uvažovať, ale často za cenu neefektívnosti a zbytočnej komplexnosti. Náš prístup je úplne iný. Používame tie isté princípy, ale v kompaktnej, praktickej forme. Namiesto univerzálnej AI, ktorá sa snaží odpovedať na všetko, vytvárame špecializované modely priamo pre konkrétne problémy a špecifické aplikácie.
Prečo je to dôležité?
Predstavte si, že by ste používali obrovský AI model, ktorý rozumie takmer každému konceptu, namiesto starostlivo navrhnutého, špecializovaného modelu vytvoreného nami. Veľké modely vyžadujú výrazne viac energie a silnejšiu infraštruktúru a keďže AI pracuje v cykloch (odoslanie dát, vyhodnotenie, opätovné odoslanie atď.), vykonávajú úlohy oveľa pomalšie než menšie modely. Samozrejme, môžete si myslieť, že obrovská AI dokáže pomôcť so všetkými úlohami vo vašej firme, ale položte si jednu otázku: Aký je zmysel mať jednu nešpecializovanú "osobu", ktorá robí všetky špecializované úlohy? Je to rovnaké, ako keby právnici písali kód namiesto právnych dokumentov. Určite to časom zvládnu, ale bude výsledok lepší než od vývojára? Myslíme, že pointu chápete.
Trénovanie
V ideálnom svete by sme mali každý model trénovať od nuly pre každého klienta, aby bol skutočne špecifický. Kompletné trénovanie však vyžaduje obrovské množstvo dát, energie a času - čo je pre väčšinu prípadov príliš nákladné a neefektívne. Namiesto toho sa spoliehame na fine-tuning. V podstate učíme existujúce predtrénované modely, aby sa prispôsobili a vykonávali špecializované úlohy. Vyberieme kvalitný základný model, ktorý následne prispôsobíme tak, aby sme dosiahli takmer rovnaký výkon, akoby sme trénovali model úplne od začiatku. Samozrejme, existujú určité obmedzenia, ale pri nasadení ich nespozorujete. Tak ako to robíme?
Pomocou QLoRA
Alebo celým názvom Quantized Low-Rank Adaptation (QLoRA), čo je naša preferovaná metóda pri tvorbe vlastných modelov. V podstate fine-tunujeme model len na časti jeho parametrov, pričom dosahujeme až 90% presnosti oproti úplnému fine-tuningu. Jednoducho povedané, proces funguje takto: vezmeme základný model, "zamrazíme" väčšinu jeho vrstiev, zmenšíme jeho veľkosť pomocou kvantizácie (4-bit alebo 8-bit) a následne pridáme a trénujeme nové vrstvy, ktoré sa naučia nové informácie.
Pridávanie RAG(u)
Pre ďalšie vylepšenie niektorých modelov pridávame RAG (Retrieval-Augmented Generation). Umožňuje to modelu čerpať dáta z overených zdrojov - firemných dokumentov (fotografie, údaje, databázy a pod.), čím vytvárame "validačnú bariéru" pre model. To znamená, že ak je váš model zameraný na financie, s RAG vám nikdy nebude zobrazovať nič iné než finančne orientované výstupy.
Pripravený na spoluprácu?