返回趨勢情報
趨勢情報

Google 把 Gemini 3.1 Flash Live 與 Search Live 一起推開,語音搜尋入口開始直接撞上聊天入口

2026年3月26日
EZJAI編輯團隊
9 分鐘閱讀
#AI新聞#趨勢#2026#Google#Gemini#搜尋#語音AI#多模態
Google 把 Gemini 3.1 Flash Live 與 Search Live 一起推開,語音搜尋入口開始直接撞上聊天入口

Google 這次同一天丟出兩個動作,一個是面向開發者與企業的 Gemini 3.1 Flash Live,一個是面向一般搜尋使用者的 Search Live 全球擴張。把兩者拆開看,很像只是模型更新加功能 rollout;把兩者放在一起看,訊號就很強了: Google 正在把即時語音對話、搜尋結果抓取、鏡頭輸入、工具呼叫與行動端互動,收斂成同一層入口。未來使用者不一定先分得清自己是在「跟助手聊天」還是在「做搜尋」,因為產品方已經開始把這兩件事往同一條體驗線上拉。

官方部落格把 Gemini 3.1 Flash Live 定位成更自然、更低延遲的即時多模態模型,能處理音訊、文字、影像與影片,並且直接進入 Gemini Live API、Google AI Studio、企業客戶互動產品,以及自家 Gemini Live 與 Search Live 場景。另一篇 Search 官方更新則更直接,宣布 Search Live 在 AI Mode 內擴至 200 多個國家與地區,支援語音互動,也能透過鏡頭邊看邊問。這表示 Google 不是單純為開發者補一個即時 API,而是把同一組即時能力往 consumer search 和 developer stack 兩端同步鋪開。

這次更新最重要的,不是「更像人說話」,而是搜尋和對話開始共用底層

過去幾年,語音助理、聊天機器人與搜尋產品雖然彼此越來越像,但多數時候仍分屬不同產品邏輯。搜尋偏向拉資料、排序連結、回應當下需求;對話助手偏向多輪脈絡、長上下文和個人化互動。Google 現在把 Flash Live 與 Search Live 綁在一起,代表它想做的不是把搜尋頁「加上語音」,而是讓搜尋也變成一個可持續多輪、可插鏡頭、可即時打斷、可呼叫工具的對話系統。

從 Live API 文件能看到這條路已經不只是概念。官方列出支援 70 種語言、barge-in 打斷、工具呼叫、即時轉錄、主動音訊判斷與 WebSocket 連線,音訊輸入採 16-bit PCM 16kHz,音訊輸出則到 24kHz。這些規格看起來很底層,但它們真正說明的是: Google 正把搜尋級產品與開發者工作流都建立在相同的即時互動框架上。只要這個框架成熟,Google 就能用同一套能力服務搜尋、客服、企業流程、行動助理與相機互動,而不是替每個場景各做一個孤立系統。

項目Google 這次公開的重點
模型定位Gemini 3.1 Flash Live 主打更自然的即時多模態互動
搜尋 rolloutSearch Live 擴到 200 多個國家與地區
互動形式語音、文字、鏡頭、畫面內容可在同一流程中切換
開發者能力支援即時轉錄、工具呼叫、barge-in、多語言互動
商業意義搜尋入口與聊天入口開始共用同一套底層能力

定價和 benchmark 透露 Google 真正要吃的不是 demo,而是 production 流量

Google 這次還同步公開 Flash Live Preview 定價。以官方價格頁來看,文字輸入每百萬 token 0.75 美元,音訊輸入 3 美元或每分鐘約 0.005 美元,圖片與影片輸入 1 美元,文字輸出 4.5 美元,音訊輸出則到 12 美元或每分鐘約 0.018 美元。這個價格不算便宜,但它也不是拿來拼最低價,而是明顯在切一種「可進 production 的即時互動層」位置。因為真正做語音客服、即時助理或多模態教學場景的人,考慮的不只是模型會不會說話,而是延遲、連續性、語氣理解與工具整合能不能一起穩定工作。

官方也補了幾個 benchmark 數字,例如在複雜音訊函式呼叫與多模態音訊挑戰上都比前代更好。這些數字本身不能直接等同真實體驗,但至少說明 Google 想把 Flash Live 包裝成一個能處理真實互動流程的工作模型,而不只是會陪你閒聊幾句的語音展示品。更值得注意的是,Gemini Live 產品面還提到可保留更長對話脈絡,甚至強調 thread retention 拉長到兩倍。這個訊號很實際: Google 知道使用者真正不滿的,常常不是模型回得不夠像人,而是講到一半忘記前文、切個話題就掉 context。

Search Live 的全球擴張,代表 Google 已經不把搜尋框當成固定介面

Search Live 如果只是美國區新功能,它的新聞價值有限;但這次擴到 200 多個國家與地區,意義就完全不同。這代表 Google 想先把 AI Mode 的互動習慣做大,再回頭慢慢調整商業化與排序邏輯。尤其 Search Live 還能搭配鏡頭輸入,實際上等於把 Lens、Gemini Live 和搜尋結果頁之間的邊界再往下拆。

這裡真正值得追的不是「很酷」,而是 Google 正在搶一種新的默認行為: 使用者遇到問題時,不再先打字搜關鍵字,而是直接開口問、順手拍、接著追問。只要這個行為被養成,Google 搜尋就不只是結果頁,而會變成一層持續互動的操作系統。這也解釋了為什麼它不只推 consumer 產品,還要同步把 Live API 提供給開發者。因為只靠自家搜尋入口不夠,它還想讓外部服務也用 Google 的即時互動底層。

Google 現在要面對的壓力,不是會不會做即時語音,而是怎麼治理這個新入口

產品往前推不難,真正難的是治理。當 Search Live 和 Gemini Live 開始把搜尋、對話、鏡頭與工具呼叫混成同一層後,外界遲早會追問幾個問題: 來源排序怎麼決定,哪些內容會被優先口述給使用者,鏡頭與語音帶來的上下文是否會強化平台偏好,以及商業結果、廣告與自然答案之間要怎麼切。這些問題在傳統搜尋時代就已經存在,到了即時語音和多模態互動時,只會更敏感。

另一個現實問題是成本。即時音訊輸出、多輪上下文、鏡頭輸入與工具呼叫,每一項都比靜態文字問答更吃算力。Google 願意大規模 rollout,代表它認為這層入口值得先投資,但也意味著接下來一定會更積極尋找商業閉環,包括企業客服、付費功能、搜尋商務變現,甚至新的結果展示格式。

對開發者來說,這則消息的重點也不是立刻改用哪個模型,而是要開始意識到「搜尋」和「對話」已經不能再被當成兩個分開的產品能力。如果你的服務還在用一個靜態搜尋框加一個獨立聊天視窗來理解未來互動,那很可能已經慢半拍了。Google 這次真正打開的,是一種新的產品假設: 未來入口不是頁面,而是一段持續中的即時對話。

相關推薦