返回趨勢情報
趨勢情報

Gemini Robotics-ER 1.6 把看懂儀表與驗收任務一起補上,Google 想先拿下工業機器人的大腦層

2026年4月17日
易賺Ai團隊
8 分鐘閱讀
#Gemini#Google#機器人#Google DeepMind#工業 AI
Gemini Robotics-ER 1.6 把看懂儀表與驗收任務一起補上,Google 想先拿下工業機器人的大腦層

Google DeepMind 這次更新 Gemini Robotics-ER 1.6,真正值得注意的,不是機器人又多會講幾句話,而是它把過去最難進生產環境的兩段能力一起補上了:第一,機器人開始能可靠地看懂複雜現場儀表;第二,系統更能判斷一件事到底有沒有真的做完。官方同步把模型以 gemini-robotics-er-1.6-preview 形式放進 API 與 AI Studio,文件列出的輸入上限是 1,048,576 tokens、輸出上限 65,536 tokens,支援文字、圖片、影片與音訊輸入,也能搭配 code execution、function calling、Search、computer use 等能力。這代表 Google 現在要賣的不是展示型機器人,而是機器人上層那顆更像智能體化 AI 的高階控制腦。

官方部落格把這次升級的主線講得很清楚:Gemini Robotics-ER 1.6 專攻的是 embodied reasoning,也就是讓機器人在真實空間裡理解物件、推進任務、判斷成功與否。Google DeepMind 特別強調三件事。第一是 pointing、counting、success detection 這些基礎能力比前一代和 Gemini 3.0 Flash 都更穩;第二是新增 instrument reading,能讀壓力錶、液位視窗與數位顯示器;第三是安全性遵循更好,尤其是在「哪些東西不該碰、哪些操作不該做」這種帶物理風險的判斷上。對工業巡檢、倉儲操作和長任務協調來說,這三件事湊在一起,才比較像可以部署,而不是只能拍影片。

這次 1.6 版到底補了哪些以前最痛的洞

如果把 DeepMind 公開資訊與開發者文件放在一起看,這次更新的重點大概可以拆成下面四層:

能力層Gemini Robotics-ER 1.6 新訊號實際代表什麼
空間理解指物、計數、辨識任務是否完成都比 1.5 更穩機器人不只看見東西,還比較能判斷下一步能不能做
儀表讀取新增 pressure gauge、sight glass、digital readout 等讀值能力工廠、機房、巡檢場景終於不必把「看懂儀表」外包給另一套系統
任務編排可呼叫搜尋、VLA 模型與自定義工具,拆解長任務高階規劃與低階動作開始能用同一條工作流串起來
安全與合規對物理限制、危害辨識與安全指令遵守更強代表它不是只追能力分數,也在補現場可用性

最關鍵的其實是第二列。過去不少機器人 demo 可以抓東西、搬東西、聽懂指令,但一碰到儀表、旋鈕、液位、刻度這種真實場景裡最常見、也最麻煩的資訊入口,系統就會掉回傳統電腦視覺 管線或人工覆核。Gemini Robotics-ER 1.6 現在把 instrument reading 直接寫進主敘事,等於承認現場最貴的,不是讓機器人動一下,而是讓它在複雜環境裡知道自己為什麼該動、何時該停、結果算不算成功。

Google 這次也刻意把 Boston Dynamics 放進案例裡。官方說 Spot 已經可用這套能力做系統巡檢,像是讀壓力計、液位視窗等設備狀態。這一步很重要,因為它把模型從「理解桌面照片」往「理解工業環境裡帶噪訊、遮擋、反光和多視角的真實訊號」推進。假如說 黃仁勳帶雪寶登上 GTC,NVIDIA 把實體 AI 推向迪士尼級角色機器人 代表實體 AI 在展示層的吸睛能力,那 Gemini Robotics-ER 1.6 這次補的,更像是工業部署真正會卡關的驗收層。

Google 想搶的不是機器手臂,而是機器人的高階推理層

這次升級還透露出另一個更大的訊號:Google 不打算自己把整個機器人堆疊都做完,它更想把 Gemini Robotics-ER 1.6 放在高階 reasoning layer。官方文件一再強調,這個模型可以理解自然語言任務、輸出座標或框選結果、規劃子任務,並去呼叫現有 robot functions、搜尋工具、或 vision-language-action 系統。換句話說,Google 的策略不是取代控制器,而是搶機器人系統裡最有議價能力的那一層,也就是「決定做什麼、怎麼拆步驟、怎麼確認有沒有做成」的中樞。

這跟過去單純把視覺語言模型接到機器人上很不一樣。舊思路通常是把模型當成一個聰明攝影機,負責辨識和回覆;現在 Google 想把模型變成真正能接工具、做中介判斷、處理不完整資訊的工作層。對開發者來說,這也解釋了為什麼文件裡把 code execution、thinking budget、structured output、bounding boxes、trajectory planning 全都擺在一起。這不是在賣單一模型,而是在賣一套讓機器人更接近工作代理的接口語言。

真正會決定它能不能落地的,還是延遲、成本與責任邊界

不過,Google 自己也沒有把話說滿。開發者文件把 Preview、latency、hallucination、prompt quality、computational cost 全列成限制,還額外放了隱私提醒,要求使用者在現場收集人像、聲音或其他可識別資料時,先處理通知與同意問題。這等於在提醒所有想把它直接丟進工廠或公共空間的人:能力展示可以很亮眼,但責任並沒有一起被模型接走。

還有一個現實問題是價格。官方這次沒有在 Robotics-ER 1.6 文件頁直接公布單獨定價,只把使用者導向 Gemini API pricing 頁面。對企業採購來說,這意味著真正的評估點不會只看模型能不能讀表,而是看它在多視角輸入、長輸入影片、較高 thinking budget 下,整體推理 成本會不會高到吃掉部署價值。當前機器人 AI 的瓶頸,很多時候不是能力,而是把能力長時間穩定地搬進現場之後,財務上還划不划算。

Google 這次推出 Gemini Robotics-ER 1.6,等於把機器人產品競爭從「能不能做出酷 demo」往「能不能真的懂現場、驗收任務、承接責任」推了一大步。對於倉儲、巡檢、維運和工業自動化團隊來說,這比單純再多一個會抓取的機器人更重要。接下來真正值得盯的,不是它在影片裡多會操作,而是哪一家系統整合商願意先把它接進真實流程,讓這顆機器人高階大腦接受現場的長時間壓力測試。