Úvod
Před několika lety vznikly první AI systémy, které však měly potíže se základními úlohami a nedokázaly chápat kontext. V posledních letech se ale situace dramaticky změnila. Přešli jsme na nový typ architektury, který nám umožňuje vytvářet modely, jež "ukládají" a propojují informace napříč miliardami parametrů.
Vizuální modely
Jedním z nejužitečnějších AI systémů dostupných dnes jsou Vision Large Language Models (Vision LLMs) - nová třída systémů navržená pro reálné nasazení, schopná pracovat s obrazem nebo videem a porozumět kontextu.
Na rozdíl od tradičních technologií jim vizuální porozumění a nepřetržité monitorování umožňuje získávat informace na úrovni, ke které jsme dříve neměli přístup.
Ať už působíte ve zdravotnictví, výrobě nebo dokonce v primárních sektorech, jako je těžební průmysl, Vision LLMs vám otevírají možnosti, které předchozí systémy jednoduše nedokázaly nabídnout.
Náš přístup
Velké technologické společnosti trénují AI na obrovských objemech dat s cílem, aby "věděla všechno". Takové systémy sice dokážou uvažovat, často však za cenu neefektivity a zbytečné komplexity. Náš přístup je odlišný. Používáme stejné principy, ale v kompaktní a praktické podobě. Místo univerzální AI, která se snaží odpovědět na vše, vytváříme specializované modely přímo pro konkrétní problémy a specifické aplikace.
Proč je to důležité?
Představte si, že byste používali obrovský AI model, který rozumí téměř každému konceptu, místo pečlivě navrženého specializovaného modelu vytvořeného námi. Velké modely vyžadují výrazně více energie a robustnější infrastrukturu a jelikož AI funguje v cyklech (odeslání dat, vyhodnocení, zpětný přenos atd.), provádějí úlohy výrazně pomaleji než menší modely. Můžete si říct, že jedna univerzální AI zvládne všechny úkoly ve vaší firmě - ale jaký má smysl mít jednu ne-specializovanou "osobu", která vykonává všechny specializované činnosti? Je to stejné, jako kdyby právníci psali kód místo právních dokumentů. Možná by to časem zvládli, ale byl by výsledek lepší než od vývojáře? Pointu už jistě chápete.
Trénování
V ideálním světě bychom každý model trénovali od nuly pro každého klienta, aby byl maximálně specifický. Kompletní trénování však vyžaduje obrovské množství dat, energie a času, což je ve většině případů příliš nákladné a neefektivní. Proto využíváme fine-tuning. Prakticky to znamená, že existující předtrénované modely učíme vykonávat specializované úlohy. Vybereme kvalitní základní model a přizpůsobíme ho tak, abychom dosáhli téměř stejného výkonu, jako při trénování od nuly. Určitá omezení samozřejmě existují, ale při reálném nasazení je zpravidla nezaznamenáte. Jak to děláme?
Pomocí QLoRA
Nebo plným názvem Quantized Low-Rank Adaptation (QLoRA) - naše preferovaná metoda při tvorbě vlastních modelů. Fine-tunujeme pouze části parametrů modelu a přitom dosahujeme až 90 % přesnosti oproti plnému fine-tuningu. Proces funguje následovně: vezmeme základní model, "zmrazíme" většinu jeho vrstev, zmenšíme jeho velikost pomocí kvantizace (4bit nebo 8bit) a následně přidáme a trénujeme nové vrstvy, které se naučí nové informace.
Přidání RAG
Pro další vylepšení některých modelů využíváme RAG (Retrieval-Augmented Generation). Tento přístup umožňuje modelu čerpat data z ověřených zdrojů - firemních dokumentů (obrázky, data, databáze apod.) - čímž vytváříme pro model "validační bariéru". To znamená, že pokud je váš model zaměřen například na finance, s RAG nikdy nebude generovat výstupy mimo finanční kontext.
Připraveni ke spolupráci?