边界是架构

第一个错误是期望小型本地模型的行为类似于参数较少的 frontier 系统。前沿模型很有用,因为它们范围很广。他们可以吸收微弱的提示、不完整的意图和奇怪的问题,因为他们的训练和运行时基础设施覆盖了很大的搜索空间。

Local AI 需要更窄的工作。笔记本电脑型号并非无用,因为它在随机一般聊天中失败。当它被要求解决无边界的工作时,它就被滥用了。真正的问题是任务是否可以简化为具有受控输入、可见输出和审查点的定义序列。

这种区别对于隐私和成本来说很重要。政府工作、NDA 代码、内部数据、个人助理、本地语音工具和敏感的 workflow 通常不能随意推送到托管的 API。仅靠隐私并不能使本地模型有用。隐私加上明确的运营模式才是价值所在。

SOPs 使模糊工作可操作

在这种情况下,标准操作程序不是文书工作。它是杂乱的人类材料和可以重复执行某些操作的系统之间的接口。研讨会使用了刷牙这个简单的例子,因为即使是一个普通的动作也包含原语:抓住刷子,涂牙膏,完成一个序列,以已知的结果完成。

业务和软件工作可以用同样的方式分解。一旦基元可见,model placement 就变得不那么神秘了。如果一个步骤具有干净的输入和可预测的转换,那么它可能应该是一个脚本。如果该步骤接收自然语言、部分上下文、不明确的措辞、粗略注释、语音、图像或其他模糊输入,则 LLM 可能很有用。

模型不应该拥有整个过程。它应该拥有实际需要语言或感知的模糊步骤,然后将有界输出传递到 workflow 的下一个确定性部分。

模型只是产品的一部分

本地模型应该偏向其任务。只有当目标是成为一名完美的总助理时,这句话才听起来不对。对于本地人工智能,有用的结果通常是相反的:模型知道本地领域,遵循本地模式,并且在已知的 workflow 内表现一致。

LoRA-style adapters 很有用,因为它们使占用空间较小。基本模型可以保持紧凑,而 adapter 将其推向特定的代码风格、翻译领域、公司流程或工具使用模式。

硬件天花板是真实存在的。一个全精度的 70 亿参数模型在扣除开销之前可以占用大约 14 GB 的内存。在 16 GB 的笔记本电脑上,留给操作系统、浏览器和其他工作环境的空间很小。交换内存不是一种策略。

与当地模特聊天是这个想法的最浅层版本。有用的问题是模型连接到受控工具后可以做什么。 harness 使模型能够访问文件、搜索、命令、日历、MCP 服务器和本地 API。这就是将文本框变成工作系统的原因。