ขอบเขตคือสถาปัตยกรรม

ข้อผิดพลาดแรกคือการคาดหวังว่าโมเดลโลคัลขนาดเล็กจะทำงานเหมือนกับระบบ frontier ที่มีพารามิเตอร์น้อยกว่า โมเดล Frontier มีประโยชน์เนื่องจากมีความกว้าง พวกเขาสามารถดูดซับการแจ้งเตือนที่อ่อนแอ ความตั้งใจที่ไม่สมบูรณ์ และคำถามแปลกๆ เนื่องจากโครงสร้างพื้นฐานการฝึกอบรมและรันไทม์ครอบคลุมพื้นที่การค้นหาขนาดใหญ่

Local AI ต้องการงานที่แคบลง แล็ปท็อปรุ่นนั้นไม่มีประโยชน์เพราะมันล้มเหลวในการแชททั่วไปแบบสุ่ม ถูกใช้ในทางที่ผิดเมื่อถูกขอให้แก้ไขงานที่ไม่มีขอบเขต คำถามที่แท้จริงก็คือว่างานสามารถลดลงเป็นลำดับที่กำหนดโดยมีอินพุตควบคุม เอาต์พุตที่มองเห็นได้ และจุดตรวจสอบได้หรือไม่

ความแตกต่างดังกล่าวมีความสำคัญต่อความเป็นส่วนตัวและค่าใช้จ่าย งานของรัฐบาล, รหัส NDA, ข้อมูลภายใน, ผู้ช่วยส่วนตัว, เครื่องมือเสียงในพื้นที่ และ workflows ที่ละเอียดอ่อน มักจะไม่สามารถส่งไปยัง APIs ที่โฮสต์โดยไม่ได้ตั้งใจได้ ความเป็นส่วนตัวเพียงอย่างเดียวไม่ได้ทำให้โมเดลท้องถิ่นมีประโยชน์ ความเป็นส่วนตัวบวกกับรูปแบบการดำเนินงานที่กำหนดไว้คือส่วนที่ค่าปรากฏ

SOPs ทำให้งานคลุมเครือทำงานได้

ขั้นตอนการปฏิบัติงานมาตรฐานไม่ใช่เอกสารในบริบทนี้ เป็นจุดเชื่อมต่อระหว่างวัตถุที่ยุ่งเหยิงของมนุษย์กับระบบที่สามารถทำสิ่งที่ทำซ้ำได้ เวิร์กช็อปใช้ตัวอย่างง่ายๆ ของการแปรงฟัน เพราะแม้แต่การกระทำธรรมดาๆ ก็ยังมีสิ่งพื้นฐานอยู่ เช่น หยิบแปรง ทายาสีฟัน เคลื่อนไปตามลำดับ และจบด้วยผลลัพธ์ที่ทราบ

งานธุรกิจและซอฟต์แวร์สามารถย่อยสลายได้ในลักษณะเดียวกัน เมื่อมองเห็นค่าดั้งเดิมแล้ว model placement จะลึกลับน้อยลง หากขั้นตอนมีอินพุตที่ชัดเจนและการแปลงที่คาดเดาได้ ขั้นตอนนั้นควรจะเป็นสคริปต์ หากขั้นตอนได้รับภาษาที่เป็นธรรมชาติ บริบทบางส่วน การใช้ถ้อยคำที่ไม่ชัดเจน บันทึกคร่าวๆ เสียง รูปภาพ หรือการป้อนข้อมูลที่ไม่ชัดเจนอื่นๆ LLM ก็มีประโยชน์ได้

โมเดลไม่ควรเป็นเจ้าของกระบวนการทั้งหมด ควรเป็นเจ้าของขั้นตอนคลุมเครือที่ต้องใช้ภาษาหรือการรับรู้จริงๆ จากนั้นส่งเอาต์พุตที่มีขอบเขตไปยังส่วนที่กำหนดถัดไปของ workflow

โมเดลเป็นเพียงส่วนหนึ่งของผลิตภัณฑ์เท่านั้น

โมเดลท้องถิ่นควรมีอคติต่องานของตน ประโยคนั้นฟังดูผิดก็ต่อเมื่อเป้าหมายเป็นผู้ช่วยทั่วไปที่สมบูรณ์แบบ สำหรับ AI ในพื้นที่ ผลลัพธ์ที่เป็นประโยชน์มักจะตรงกันข้าม: โมเดลที่รู้โดเมนในเครื่อง ปฏิบัติตามรูปแบบในเครื่อง และทำงานอย่างสม่ำเสมอภายใน workflow ที่รู้จัก

LoRA-style adapters มีประโยชน์เนื่องจากทำให้พื้นที่มีขนาดเล็ก โมเดลพื้นฐานสามารถคงขนาดกะทัดรัดไว้ได้ในขณะที่ adapter ผลักโมเดลไปสู่สไตล์เฉพาะของโค้ด โดเมนการแปล กระบวนการของบริษัท หรือรูปแบบการใช้เครื่องมือ

เพดานฮาร์ดแวร์เป็นของจริง แบบจำลองพารามิเตอร์เจ็ดพันล้านที่มีความแม่นยำเต็มที่สามารถใช้พื้นที่หน่วยความจำประมาณสิบสี่กิกะไบต์ก่อนโอเวอร์เฮด บนแล็ปท็อปขนาด 16 กิกะไบต์ เหลือพื้นที่เพียงเล็กน้อยสำหรับระบบปฏิบัติการ เบราว์เซอร์ และสภาพแวดล้อมการทำงานที่เหลือ หน่วยความจำ Swap ไม่ใช่กลยุทธ์

การพูดคุยกับโมเดลท้องถิ่นถือเป็นแนวคิดที่ตื้นที่สุด คำถามที่มีประโยชน์คือโมเดลจะทำอะไรได้บ้างเมื่อเชื่อมต่อกับเครื่องมือที่ได้รับการควบคุม harness ให้สิทธิ์แก่โมเดลในการเข้าถึงไฟล์ การค้นหา คำสั่ง ปฏิทิน เซิร์ฟเวอร์ MCP และ API ภายในเครื่อง นั่นคือสิ่งที่เปลี่ยนกล่องข้อความให้เป็นระบบการทำงาน