Hranicí je architektura
První chybou je očekávání, že se malý lokální model bude chovat jako systém frontier s méně parametry. Hraniční modely jsou užitečné, protože jsou široké. Dokážou absorbovat slabé výzvy, neúplné záměry a podivné otázky, protože jejich tréninková a runtime infrastruktura pokrývá velký prostor pro vyhledávání.
Local AI potřebuje užší úlohu. Model notebooku není zbytečný, protože selže při náhodném obecném chatu. Zneužívá se, když je po něm požadováno řešení práce, která nemá hranice. Skutečnou otázkou je, zda lze úlohu redukovat na definovanou sekvenci s řízeným vstupem, viditelným výstupem a kontrolními body.
Toto rozlišení je důležité pro soukromí a náklady. Vládní práci, kód NDA, interní data, osobní asistenty, místní hlasové nástroje a citlivé workflows často nelze náhodně přenést do hostovaných APIs. Soukromí samo o sobě neznamená, že místní model je užitečný. Soukromí plus definovaný provozní model je místo, kde se zobrazí hodnota.
SOPs zprovozní fuzzy práci
Standardní operační postup není v tomto kontextu papírování. Je to rozhraní mezi chaotickým lidským materiálem a systémem, který dokáže něco opakovatelného. Workshop použil jednoduchý příklad čištění zubů, protože i běžná akce obsahuje primitiva: uchopit kartáček, nanést zubní pastu, projít sekvencí a dokončit se známým výsledkem.
Obchodní a softwarová práce lze rozložit stejným způsobem. Jakmile jsou primitiva viditelná, model placement se stává méně mystickým. Pokud má krok čistý vstup a předvídatelnou transformaci, měl by to být pravděpodobně skript. Pokud krok přijímá přirozený jazyk, částečný kontext, nejednoznačné frázování, hrubé poznámky, hlas, obrázky nebo jiný fuzzy vstup, pak může být užitečný LLM.
Model by neměl vlastnit celý proces. Měl by vlastnit fuzzy krok, který ve skutečnosti vyžaduje jazyk nebo vnímání, a poté předat ohraničený výstup do další deterministické části workflow.
Model je pouze jednou částí výrobku
Místní model by měl být vůči svému úkolu zaujatý. Ta věta zní špatně, pouze pokud je cílem dokonale obecný asistent. Pro místní umělou inteligenci je užitečný výsledek obvykle opačný: model, který zná místní doménu, sleduje místní vzor a chová se konzistentně uvnitř známého workflow.
LoRA-style adapters jsou užitečné, protože udržují malý půdorys. Základní model může zůstat kompaktní, zatímco jej adapter posouvá směrem ke specifickému stylu kódu, doméně překladu, firemnímu procesu nebo vzoru použití nástrojů.
Hardwarový strop je skutečný. Model se sedmi miliardami parametrů při plné přesnosti může zabírat zhruba čtrnáct gigabajtů paměti před režií. Na šestnáctigigabajtovém notebooku to ponechává málo místa pro operační systém, prohlížeč a zbytek pracovního prostředí. Swap memory není strategie.
Chatování s místní modelkou je ta nejmělejší verze nápadu. Užitečnou otázkou je, co model dokáže po připojení k řízeným nástrojům. harness poskytuje modelu přístup k souborům, vyhledávání, příkazům, kalendářům, serverům MCP a místním API. To je to, co změní textové pole na fungující systém.