Luna 真把店租下來了，AI 店長開始碰到比推理更難的現實世界

多數 AI 代理還困在瀏覽器分頁和沙盒桌面裡時，Andon Labs 已經讓 Luna 拿到舊金山 Cow Hollow 一間實體商店的三年租約。這家名叫 Andon Market 的店，不是單純擺一個 AI 招牌吸流量，而是讓 Luna 真的參與選品、定價、促銷與人事安排，並僱用兩位人類員工處理現場工作。事情一旦走到租約、排班和面對顧客的層次，討論焦點就不再是模型炫技，而是 AI（人工智慧）能不能承擔現實世界的責任。

Andon Labs 過去一直在做這種「把代理丟進真實世界」的實驗。他們先前的 Bengt 計畫已經測過 AI 是否能自己找人類來完成實體工作，過程中碰到多次取消訂單、揭露不足與監控邊界等問題；另一邊，Vending-Bench 這類長時程評測則專門拿來觀察代理在庫存、採購、定價這些看似簡單、但一拉長就容易失控的任務上能不能維持一致性。Luna 開店這一步，等於把前面的測試從 demo 與 benchmark 推進到真正要對營運結果負責的門市場景。

這次不是 benchmark，而是租約

Luna 最值得注意的地方，不是它會不會說話像人，而是它已經被放進一個需要長期決策的環境裡。和短期活動、快閃展示不同，三年租約意味著它做的每個決定都會累積後果：庫存押錯了要吞、商品組合不對要調、促銷沒效要修、人員協作出問題也不能只靠重開系統。

目前外界已知 Luna 參與的工作，大致可以分成兩層：

前台營運判斷：商品組合、價格、促銷方向，以及哪些品類值得多押一些資源。
後台管理安排：招募與管理人力、根據店務需求決定怎麼分配現場工作。
人類保留環節：補貨整理、面對面顧客服務、酒類等年齡驗證與其他高風險例外處理。

這個分工很有代表性。它顯示眼前比較快被代理化的，未必是所有「手會動」的工作，而是那些本來由店長、值班主管或營運經理承擔的資訊整合與決策工作。也就是說，先被改寫的可能是管理層，而不是搬貨那雙手。

真正難的不是能力展示，而是治理細節

讓大型語言模型進入門市營運，難點不只是它要不要有多模態感知，也不只是能不能用電腦視覺看貨架狀態。更麻煩的是治理問題：顧客知不知道自己正在和代理互動？員工是否明白誰在做排班或績效判斷？如果模型基於錯誤資訊做決策，誰來負責？這些問題一旦進入實體空間，就很難再用「還在 beta」含糊帶過。

Andon 自己其實也不是沒踩過坑。Bengt 僱用人類做工的實驗之後，他們就明確承認，AI 不應該假裝自己是人，透明揭露和勞動倫理需要事先寫進規則。這點剛好和我們前面整理過的可信代理治理趨勢形成呼應。代理要進入真實工作流，競賽已經不只是在比誰更會完成任務，而是在比誰能把風險、權限和責任邊界設計得更完整。

這也是為什麼代理安全不能只看駭客式入侵。當系統開始直接接管採購、排班與溝通時，它也得能抵抗被誤導、被帶偏或被奇怪輸入拖進錯誤流程的風險。這類問題和我們之前談過的代理防範 prompt injection 是同一個家族，只是到了實體門市，它的代價不再只是回錯一句話，而可能是下錯單、排錯班，甚至造成顧客與員工的實際損失。

這件事為什麼比一間實驗店更重要

Luna 開店讓外界看到一個更早、也更刺耳的現實：AI 在實體世界未必先取代勞力，而可能先成為指揮勞力的人。只要模型還沒有身體，它就需要人類替它補最後一哩；但一旦代理能安排、評估、僱用和協調這些人類，商業權力的位置就開始移動了。

從這個角度看，Andon Market 不只是零售實驗，而像是一個早期樣板。它測的不是「AI 能不能賣飲料」這麼小的問題，而是未來有沒有可能出現一批沒有身體、卻擁有租約、帳戶、工具權限與人事影響力的代理型組織。Luna 未必會成為成功店長，但它已經先把問題改寫了：下一代門市也許不是沒有店長，而是店長沒有身體。