Gemma 4 把代理能力塞進手機，Google 想先拿下本地 AI 入口

Google 這次端出的不是一個單純的開源模型，而是一整條想把本地 AI 重新做成平台入口的路線。Gemma 4 一口氣推出 E2B、E4B、26B MoE 與 31B Dense 四個版本，從手機、IoT 到個人工作站都能對位，還把 AI Edge Gallery、Agent Skills、LiteRT-LM 與 Android AICore 一起推上台面。這讓「模型可離線跑」這件事，第一次開始接近產品層級，而不是只停在開發者 demo。

更關鍵的是，Google 這次強調的不再只是本地推論的隱私優勢，而是本地模型也能像代理一樣處理多步驟任務。Gemma 4 不只支援函式呼叫、結構化 JSON 與系統指令，也把技能系統、社群分享與跨裝置部署路線一起整理好。對整個市場來說，這代表手機上的聊天機器人正在往「能查、能做、能串工具」的方向升級。

這次不是只發表模型，而是把整個 edge stack 一起推進

從 Google 官方資料來看，Gemma 4 的重點不是單看參數量，而是 intelligence-per-parameter。31B 版本在 Google 公布時已站上 Arena 開源榜前段，26B MoE 也打到同級很前面的位置，而且 26B 版本採用 128 experts、推論時只啟用約 3.8B 參數，明顯是在替「夠強但不能太重」的本地部署場景鋪路。

對手機更重要的是 E2B 與 E4B。這兩個 edge 版本主打多模態處理、低延遲與電量效率。Google 表示它們可以完全離線跑在手機、Raspberry Pi 與其他 edge 裝置上；第三方整理也指出，量化後 E2B 大約只佔 1.3GB、E4B 大約 2.5GB，對應裝置門檻分別落在約 6GB 與 8GB RAM。Google 同時把 edge 版本的 context window 拉到 128K，較大的 26B 與 31B 則到 256K，這讓本地大型語言模型不再只是做短對話，而是能吞較長文件、程式碼庫或多步驟上下文。

這裡最值得注意的是能力組合。Gemma 4 官方直接把 advanced reasoning、agentic workflows、offline code generation、vision 與 audio 放在同一頁面，意思已經很明確：Google 不想把本地模型定位成雲端模型的廉價替代，而是想把它做成另一條分工更清楚的產品線。當延遲、隱私、成本與離線可用性變成優勢時，手機與筆電上的本地模型就有機會從附屬功能升級成第一層入口。

真正的變化，是手機上的模型開始會自己叫工具

這波 Gemma 4 最有新聞性的地方，其實不是 benchmark，而是 Google AI Edge Gallery 裡的 Agent Skills。按照 Google for Developers 的說法，Gemma 4 現在可以透過技能系統去查 Wikipedia、調出互動地圖、產生 QR code、把語音或資料轉成圖表、做摘要與 flashcards，甚至把其他本地模型串進來完成文字轉語音、圖片理解或音樂生成。這和一般本地模型只能等人餵提示詞的邏輯差很多。

Google 把這套能力包成 iOS、Android 都能下載的 AI Edge Gallery，App Store 與 Google Play 的版本更新也直接把 Gemma 4、Agent Skills、Thinking Mode 寫進主功能。這個產品化包裝很重要，因為它把「本地 agent」從工程師自己裝模型、自己接工具，變成一般使用者也能碰得到的互動形式。

更進一步看 GitHub 上的 Gallery 專案與 skills 文件，Google 不是只做幾個內建功能就停下來，而是把 skill 機制直接社群化。技能可以是純文字 persona，也可以是透過隱藏 webview 執行的 JavaScript skill，還能掛上 native intents；使用者可以從 featured list 載入、從 URL 匯入，或自己從本機導入。技能 README 裡已經能看到 Wikipedia 查詢、互動地圖、QR code、mood tracker 等範例，社群討論區也已經開始出現搜尋、翻譯、天氣與離線 persona 類的技能。這一步的意義很大，因為 Google 等於在手機上替本地 agent 開了一個非常輕量的「插件市場」雛形。

Google 真正想搶的，其實是 Gemini Nano 4 之前的開發者心智

如果只把 Gemma 4 看成開源模型，很容易低估 Google 這波佈局。The Decoder 點出一件更重要的事：E2B 與 E4B 其實就是 Gemini Nano 4 的前哨。Google 自己也說，今天為 Gemma 4 寫的 edge 工作流，之後可以 forward-compatible 到新一代 Android 內建模型。換句話說，Google 不是只想讓你下載一個 app 玩玩看，而是希望開發者先用 Gemma 4 建立本地 agent 的互動邏輯、技能格式與部署習慣，等 Gemini Nano 4 大規模進入 Android 之後，這些流程可以直接接上系統層。

這會改變競爭焦點。過去大家談手機 AI，多半還是圍繞雲端助理、生成速度或單次問答品質；Gemma 4 這次把焦點拉到「誰先把本地 agent 的工具鏈、分發與社群做起來」。一旦開發者開始把技能、工作流與裝置能力往這條路上堆，Google 在 Android 生態裡的優勢就不只是模型能力，而是整個 runtime、distribution 與預載入口。

但這條路離真正成熟，還有三個現實限制

第一，所謂 fully offline 並不代表所有能力都完全脫網。模型推論可以在本機跑，但像 Wikipedia 查詢、地圖或部分外部資料技能，本質上還是需要網路；Google 現在賣的是「本地模型負責推理與協調」，不是真正把所有外部工具都搬進離線世界。

第二，裝置差異還是很大。Google 官方與 app 商店說法都承認效能高度依賴硬體，GitHub README 也把 Android 12 / iOS 17 當成基本門檻。對旗艦手機來說，Gemma 4 可能是本地 agent 的開場；對中低階裝置來說，記憶體、耗電與模型載入時間仍會是現實障礙。

第三，技能社群一旦打開，安全與供應鏈問題就會跟著進來。GitHub Discussions 已經有人直接提醒第三方 skills 的信任模型與資料外洩風險。這不是小題大作，因為本地 agent 一旦可以調工具、吃 URL、載外部 skill，治理問題很快就會從模型安全變成「誰能在這台手機上擴充能力」。這也說明為什麼 Google 一邊推 Apache 2.0 與社群分享，一邊仍強調安全、allowlist 與裝置層整合。

Gemma 4 最值得看的地方，因此不是它能不能在單一 benchmark 壓過多少對手，而是 Google 正在把本地模型重新包成一個可分發、可擴充、可跨裝置移植的 agent 平台。若這條路成立，手機上的本地機器學習與光學字元辨識功能，之後就不只是各做各的 feature，而會被同一個本地推理層慢慢吃進去。

如果你想看另一條「不用等手機生態、先在電腦上把本地模型工作流跑起來」的路線，也可以接著看這篇 LM Studio 本地 LLM 指南。Google 這次真正押注的，不只是 Gemma 4 本身，而是下一代本地 AI 入口應該長成什麼樣子。