为定义的 SOPs 部署 Local AI |马丁·阿特林

边界是架构

第一个错误是期望小型本地模型的行为类似于参数较少的 frontier 系统。前沿模型很有用，因为它们范围很广。他们可以吸收微弱的提示、不完整的意图和奇怪的问题，因为他们的训练和运行时基础设施覆盖了很大的搜索空间。

Local AI 需要更窄的工作。笔记本电脑型号并非无用，因为它在随机一般聊天中失败。当它被要求解决无边界的工作时，它就被滥用了。真正的问题是任务是否可以简化为具有受控输入、可见输出和审查点的定义序列。

这种区别对于隐私和成本来说很重要。政府工作、NDA 代码、内部数据、个人助理、本地语音工具和敏感的 workflow 通常不能随意推送到托管的 API。仅靠隐私并不能使本地模型有用。隐私加上明确的运营模式才是价值所在。

在这种情况下，标准操作程序不是文书工作。它是杂乱的人类材料和可以重复执行某些操作的系统之间的接口。研讨会使用了刷牙这个简单的例子，因为即使是一个普通的动作也包含原语：抓住刷子，涂牙膏，完成一个序列，以已知的结果完成。

业务和软件工作可以用同样的方式分解。一旦基元可见，model placement 就变得不那么神秘了。如果一个步骤具有干净的输入和可预测的转换，那么它可能应该是一个脚本。如果该步骤接收自然语言、部分上下文、不明确的措辞、粗略注释、语音、图像或其他模糊输入，则 LLM 可能很有用。

模型不应该拥有整个过程。它应该拥有实际需要语言或感知的模糊步骤，然后将有界输出传递到 workflow 的下一个确定性部分。

本地模型应该偏向其任务。只有当目标是成为一名完美的总助理时，这句话才听起来不对。对于本地人工智能，有用的结果通常是相反的：模型知道本地领域，遵循本地模式，并且在已知的 workflow 内表现一致。

LoRA-style adapters 很有用，因为它们使占用空间较小。基本模型可以保持紧凑，而 adapter 将其推向特定的代码风格、翻译领域、公司流程或工具使用模式。

硬件天花板是真实存在的。一个全精度的 70 亿参数模型在扣除开销之前可以占用大约 14 GB 的内存。在 16 GB 的笔记本电脑上，留给操作系统、浏览器和其他工作环境的空间很小。交换内存不是一种策略。

与当地模特聊天是这个想法的最浅层版本。有用的问题是模型连接到受控工具后可以做什么。 harness 使模型能够访问文件、搜索、命令、日历、MCP 服务器和本地 API。这就是将文本框变成工作系统的原因。