Hranicou je architektúra
Prvou chybou je očakávanie, že malý lokálny model sa bude správať ako systém frontier s menším počtom parametrov. Hraničné modely sú užitočné, pretože sú široké. Dokážu absorbovať slabé výzvy, neúplné zámery a podivné otázky, pretože ich tréningová a runtime infraštruktúra pokrýva veľký priestor vyhľadávania.
lokálna AI potrebuje užšiu úlohu. Model notebooku nie je zbytočný, pretože zlyhá pri náhodnom všeobecnom rozhovore. Zneužíva sa, keď sa od neho žiada riešiť prácu, ktorá nemá hranice. Skutočnou otázkou je, či je možné úlohu zredukovať na definovanú sekvenciu s riadeným vstupom, viditeľným výstupom a bodmi kontroly.
Toto rozlíšenie je dôležité pre súkromie a náklady. Vládnu prácu, kód NDA, interné údaje, osobných asistentov, miestne hlasové nástroje a citlivé workflows často nemožno náhodne posunúť hosťovaným API. Samotné súkromie neznamená, že miestny model je užitočný. Súkromie plus definovaný prevádzkový model je miesto, kde sa objaví hodnota.
SOP robia fuzzy prácu prevádzkovateľnou
Štandardný operačný postup nie je v tomto kontexte papierovaním. Je to rozhranie medzi chaotickým ľudským materiálom a systémom, ktorý dokáže niečo opakovateľné. Workshop použil jednoduchý príklad čistenia zubov, pretože aj bežná akcia obsahuje primitíva: chyťte kefku, naneste pastu, prejdite sekvenciou a dokončite so známym výsledkom.
Obchodná a softvérová práca sa dá rozložiť rovnakým spôsobom. Akonáhle sú primitívy viditeľné, model placement sa stáva menej mystickým. Ak má krok čistý vstup a predvídateľnú transformáciu, pravdepodobne by to mal byť skript. Ak krok prijíma prirodzený jazyk, čiastočný kontext, nejednoznačné frázy, hrubé poznámky, hlas, obrázky alebo iné nejasné vstupy, potom môže byť užitočný LLM.
Model by nemal vlastniť celý proces. Mal by vlastniť fuzzy krok, ktorý v skutočnosti vyžaduje jazyk alebo vnímanie, a potom odovzdať ohraničený výstup do ďalšej deterministickej časti workflow.
Model je len jednou časťou produktu
Miestny model by mal byť zaujatý voči svojej úlohe. Táto veta znie nesprávne, iba ak je cieľom úplne všeobecný asistent. Pre lokálnu AI je užitočný výsledok zvyčajne opačný: model, ktorý pozná lokálnu doménu, sleduje lokálny vzor a chová sa konzistentne v rámci známeho workflow.
LoRA-style adaptéroch sú užitočné, pretože udržujú malý pôdorys. Základný model môže zostať kompaktný, zatiaľ čo ho adapter posúva smerom k špecifickému štýlu kódu, doméne prekladu, firemnému procesu alebo vzoru používania nástrojov.
Hardvérový strop je skutočný. Model so siedmimi miliardami parametrov pri plnej presnosti môže zaberať zhruba štrnásť gigabajtov pamäte pred réžiou. Na šestnásťgigabajtovom notebooku to ponecháva málo miesta pre operačný systém, prehliadač a zvyšok pracovného prostredia. Výmena pamäte nie je stratégia.
Chatovanie s miestnym modelom je tá najplytšia verzia nápadu. Užitočnou otázkou je, čo dokáže model po pripojení k riadeným nástrojom. harness poskytuje modelu prístup k súborom, vyhľadávaniu, príkazom, kalendárom, serverom MCP a miestnym API. To je to, čo zmení textové pole na funkčný systém.