返回趨勢情報
趨勢情報

Gemma 4 把代理能力塞進手機,Google 想先拿下下一代本地 AI 入口

2026年4月12日
易賺Ai團隊
9 分鐘閱讀
#Google#Gemma 4#On-device AI#AI Agents#Google AI Edge
Gemma 4 把代理能力塞進手機,Google 想先拿下下一代本地 AI 入口

Google 這次端出的不是一個單純的開源模型,而是一整條想把本地 AI 重新做成平台入口的路線。Gemma 4 一口氣推出 E2B、E4B、26B MoE 與 31B Dense 四個版本,從手機、IoT 到個人工作站都能對位,還把 AI Edge Gallery、Agent Skills、LiteRT-LM 與 Android AICore 一起推上台面。這讓「模型可離線跑」這件事,第一次開始接近產品層級,而不是只停在開發者 demo。

更關鍵的是,Google 這次強調的不再只是本地推論的隱私優勢,而是本地模型也能像代理一樣處理多步驟任務。Gemma 4 不只支援函式呼叫、結構化 JSON 與系統指令,也把技能系統、社群分享與跨裝置部署路線一起整理好。對整個市場來說,這代表手機上的 聊天機器人 正在往「能查、能做、能串工具」的方向升級。

這次不是只發表模型,而是把整個 edge stack 一起推進

從 Google 官方資料來看,Gemma 4 的重點不是單看參數量,而是 intelligence-per-parameter。31B 版本在 Google 公布時已站上 Arena 開源榜前段,26B MoE 也打到同級很前面的位置,而且 26B 版本採用 128 experts、推論時只啟用約 3.8B 參數,明顯是在替「夠強但不能太重」的本地部署場景鋪路。

對手機更重要的是 E2B 與 E4B。這兩個 edge 版本主打 多模態 處理、低延遲與電量效率。Google 表示它們可以完全離線跑在手機、Raspberry Pi 與其他 edge 裝置上;第三方整理也指出,量化後 E2B 大約只佔 1.3GB、E4B 大約 2.5GB,對應裝置門檻分別落在約 6GB 與 8GB RAM。Google 同時把 edge 版本的 context window 拉到 128K,較大的 26B 與 31B 則到 256K,這讓本地 大型語言模型 不再只是做短對話,而是能吞較長文件、程式碼庫或多步驟上下文。

這裡最值得注意的是能力組合。Gemma 4 官方直接把 advanced reasoning、agentic workflows、offline code generation、vision 與 audio 放在同一頁面,意思已經很明確:Google 不想把本地模型定位成雲端模型的廉價替代,而是想把它做成另一條分工更清楚的產品線。當延遲、隱私、成本與離線可用性變成優勢時,手機與筆電上的本地模型就有機會從附屬功能升級成第一層入口。

真正的變化,是手機上的模型開始會自己叫工具

這波 Gemma 4 最有新聞性的地方,其實不是 benchmark,而是 Google AI Edge Gallery 裡的 Agent Skills。按照 Google for Developers 的說法,Gemma 4 現在可以透過技能系統去查 Wikipedia、調出互動地圖、產生 QR code、把語音或資料轉成圖表、做摘要與 flashcards,甚至把其他本地模型串進來完成文字轉語音、圖片理解或音樂生成。這和一般本地模型只能等人餵 提示詞 的邏輯差很多。

Google 把這套能力包成 iOS、Android 都能下載的 AI Edge Gallery,App Store 與 Google Play 的版本更新也直接把 Gemma 4、Agent Skills、Thinking Mode 寫進主功能。這個產品化包裝很重要,因為它把「本地 agent」從工程師自己裝模型、自己接工具,變成一般使用者也能碰得到的互動形式。

更進一步看 GitHub 上的 Gallery 專案與 skills 文件,Google 不是只做幾個內建功能就停下來,而是把 skill 機制直接社群化。技能可以是純文字 persona,也可以是透過隱藏 webview 執行的 JavaScript skill,還能掛上 native intents;使用者可以從 featured list 載入、從 URL 匯入,或自己從本機導入。技能 README 裡已經能看到 Wikipedia 查詢、互動地圖、QR code、mood tracker 等範例,社群討論區也已經開始出現搜尋、翻譯、天氣與離線 persona 類的技能。這一步的意義很大,因為 Google 等於在手機上替本地 agent 開了一個非常輕量的「插件市場」雛形。

Google 真正想搶的,其實是 Gemini Nano 4 之前的開發者心智

如果只把 Gemma 4 看成開源模型,很容易低估 Google 這波佈局。The Decoder 點出一件更重要的事:E2B 與 E4B 其實就是 Gemini Nano 4 的前哨。Google 自己也說,今天為 Gemma 4 寫的 edge 工作流,之後可以 forward-compatible 到新一代 Android 內建模型。換句話說,Google 不是只想讓你下載一個 app 玩玩看,而是希望開發者先用 Gemma 4 建立本地 agent 的互動邏輯、技能格式與部署習慣,等 Gemini Nano 4 大規模進入 Android 之後,這些流程可以直接接上系統層。

這會改變競爭焦點。過去大家談手機 AI,多半還是圍繞雲端助理、生成速度或單次問答品質;Gemma 4 這次把焦點拉到「誰先把本地 agent 的工具鏈、分發與社群做起來」。一旦開發者開始把技能、工作流與裝置能力往這條路上堆,Google 在 Android 生態裡的優勢就不只是模型能力,而是整個 runtime、distribution 與預載入口。

但這條路離真正成熟,還有三個現實限制

第一,所謂 fully offline 並不代表所有能力都完全脫網。模型推論可以在本機跑,但像 Wikipedia 查詢、地圖或部分外部資料技能,本質上還是需要網路;Google 現在賣的是「本地模型負責推理與協調」,不是真正把所有外部工具都搬進離線世界。

第二,裝置差異還是很大。Google 官方與 app 商店說法都承認效能高度依賴硬體,GitHub README 也把 Android 12 / iOS 17 當成基本門檻。對旗艦手機來說,Gemma 4 可能是本地 agent 的開場;對中低階裝置來說,記憶體、耗電與模型載入時間仍會是現實障礙。

第三,技能社群一旦打開,安全與供應鏈問題就會跟著進來。GitHub Discussions 已經有人直接提醒第三方 skills 的信任模型與資料外洩風險。這不是小題大作,因為本地 agent 一旦可以調工具、吃 URL、載外部 skill,治理問題很快就會從模型安全變成「誰能在這台手機上擴充能力」。這也說明為什麼 Google 一邊推 Apache 2.0 與社群分享,一邊仍強調安全、allowlist 與裝置層整合。

Gemma 4 最值得看的地方,因此不是它能不能在單一 benchmark 壓過多少對手,而是 Google 正在把本地模型重新包成一個可分發、可擴充、可跨裝置移植的 agent 平台。若這條路成立,手機上的本地 機器學習光學字元辨識 功能,之後就不只是各做各的 feature,而會被同一個本地推理層慢慢吃進去。

如果你想看另一條「不用等手機生態、先在電腦上把本地模型工作流跑起來」的路線,也可以接著看這篇 LM Studio 本地 LLM 指南。Google 這次真正押注的,不只是 Gemma 4 本身,而是下一代本地 AI 入口應該長成什麼樣子。