境界は建築だ

最初の間違いは、小規模なローカル モデルがパラメータの少ない frontier システムのように動作することを期待していることです。フロンティアモデルは幅が広いので便利です。トレーニングとランタイム インフラストラクチャが広い検索スペースをカバーしているため、弱いプロンプト、不完全な意図、奇妙な質問を吸収できます。

Local AI には、より狭い範囲のジョブが必要です。ラップトップモデルはランダムな一般チャットで失敗するため役に立たないわけではありません。境界のない仕事を解決するように求められる場合に悪用されています。本当の問題は、制御された入力、目に見える出力、およびレビューポイントを備えた定義されたシーケンスにタスクを削減できるかどうかです。

この違いはプライバシーとコストにとって重要です。政府機関の仕事、NDA コード、内部データ、パーソナル アシスタント、ローカル音声ツール、および機密性の高い workflow は、多くの場合、ホストされている API に気軽にプッシュできません。プライバシーだけではローカル モデルは役に立ちません。プライバシーと定義された運用モデルに価値が現れます。

SOPs ファジー作業を操作可能にする

この場合、標準的な操作手順は事務手続きではありません。これは、煩雑な人間のマテリアルと、反復可能な何かを実行できるシステムとの間のインターフェイスです。ワークショップでは、歯を磨くという単純な例を使用しました。これは、普通の動作にも原始的な要素が含まれているためです。つまり、ブラシを掴み、歯磨き粉を塗り、一連の手順を実行し、既知の結果で終了します。

ビジネスとソフトウェアの作業は同じように分解できます。プリミティブが表示されると、model placement はそれほど神秘的ではなくなります。ステップにクリーンな入力と予測可能な変換がある場合、それはおそらくスクリプトであるはずです。ステップが自然言語、部分的なコンテキスト、あいまいな表現、大まかなメモ、音声、画像、またはその他のあいまいな入力を受け取る場合、LLM が役立つことがあります。

モデルがプロセス全体を所有すべきではありません。実際に言語または認識を必要とするファジー ステップを所有し、その後、制限された出力を workflow の次の決定論的な部分に渡す必要があります。

モデルは製品の一部にすぎません

ローカル モデルは、そのタスクに対してバイアスがかかるようにする必要があります。この文が間違っているように聞こえるのは、目標が完全に一般的なアシスタントである場合に限られます。ローカル AI の場合、有益な結果は通常その逆です。モデルはローカル ドメインを認識し、ローカル パターンに従い、既知の workflow 内で一貫して動作します。

LoRA-style adapters は、フットプリントを小さく保つことができるため便利です。基本モデルは、adapter によって特定のスタイルのコード、変換ドメイン、企業プロセス、またはツールの使用パターンに合わせて推進されている間、コンパクトなままにすることができます。

ハードウェアの天井は本物です。完全精度の 70 億パラメータのモデルは、オーバーヘッドを除くと約 14 ギガバイトのメモリを占有する可能性があります。 16 ギガバイトのラップトップでは、オペレーティング システム、ブラウザ、その他の作業環境を配置する余地はほとんどありません。スワップメモリ​​は戦略ではありません。

ローカル モデルとのチャットは、アイデアの最も浅いバージョンです。有益な質問は、モデルが制御されたツールに接続された後に何ができるかということです。 harness により、モデルはファイル、検索、コマンド、カレンダー、MCP サーバー、およびローカル API にアクセスできるようになります。それがテキスト ボックスを実用的なシステムに変えるのです。