醫療 AI 準確率若連 35% 都守不住,問題已經不是能不能普及而是誰還敢替它背書
醫療 AI 的問題從來不是看起來不夠聰明,而是只要它在錯的地方顯得太有自信,代價就會比其他場景高很多。當研究和媒體把「準確率連 35% 都守不住」這種訊號重新推到檯面上,這則新聞最重要的地方不是某個模型又翻車,而是醫療 AI 產業再一次被迫回答一個最不想面對的問題: 在這種錯誤成本下,誰還願意公開替它背書,誰又願意承擔用戶誤信之後的責任。
這件事之所以嚴重,是因為醫療場景跟一般搜尋、一般客服、一般內容工具完全不同。使用者不是在問哪家餐廳比較好,而是在問一個可能涉及身體、疼痛、疾病進程甚至生命風險的問題。研究結論、醫療社群疑慮、中文科技媒體整理與產品方對隱私與安全的說明放在一起後,可以清楚看見爭論焦點並不在於 AI 有沒有幫助,而在於什麼程度的錯誤是不可接受的。醫療 AI 可以作為分流輔助,但如果它的錯誤率會讓人延誤就醫、錯估病情或產生虛假安心感,那「先大規模上線、再慢慢修正」的產品邏輯就會變得很危險。
這次沒有任何新的模型參數、推理成本或 context 規格能替產品洗白,因為問題根本不在 benchmark,而在真實世界的責任分配。模型就算在一般測試裡表現好,只要到了醫療場景沒辦法穩定揭露不確定性、沒辦法在高風險情況下拒答、沒辦法明確轉人工,它就仍然可能造成結構性傷害。也正因如此,這條題材應該和 Copilot Health 想成為 AI 健康入口,但真正難題是醫療責任不是聊天體驗 放在一起讀,因為兩者都指向同一件事: 健康入口一旦被 AI 拿到,產品責任就不再是附註,而是主體。
支持方當然會提出反駁。醫療資源不足、初步分流需求上升、非急重症用戶想先得到方向,這些都是真實存在的市場需求。AI 若完全不能進場,也會錯過改善效率的機會。問題在於,這些論點成立的前提是系統必須知道自己的能力邊界,且設計上要把「保守」放在「方便」前面。否則所謂補位,很快就會變成責任模糊的替代。
對醫院、保險、健康平台和大模型公司來說,這條訊號也會直接拉高導入門檻。未來大家不會只問有沒有醫療助理功能,而會問幾個更難回答的問題: 訓練資料來自哪裡、錯誤怎麼被記錄、拒答機制怎麼設計、哪一類問題一定要人工接手、使用者是否會被明確提醒這不是醫療判斷,以及錯誤發生後誰要負責對外說明。只要這些問題回答不清,任何健康 AI 產品的增長都可能被單一事件拉回原點。
這背後其實還有一層信任經濟學。一般 AI 工具可以靠低成本高頻試用逐步建立習慣,醫療 AI 做不到。它一開始就處在高風險場景,必須先證明自己不會過度自信、不會亂給方向、不會把模糊問題講成肯定結論。也就是說,醫療 AI 不能靠「先上線搶市場」建立信任,它得先靠克制建立信任。
所以這條新聞真正逼出來的,不該是恐慌,而是誠實。醫療 AI 若還想繼續談普及,下一步不能只是換包裝、加警語或多做幾個漂亮案例,而是得把不確定性揭露、人工接管、責任邊界與高風險剎車能力做到產品核心。能做到的公司才有資格繼續談健康入口;做不到的產品,越受歡迎,風險只會滾得越快。
