醫療 AI 準確率若連 35% 都守不住，問題已經不是能不能普及而是誰還敢替它背書

醫療 AI 的問題從來不是看起來不夠聰明，而是只要它在錯的地方顯得太有自信，代價就會比其他場景高很多。當研究和媒體把「準確率連 35% 都守不住」這種訊號重新推到檯面上，這則新聞最重要的地方不是某個模型又翻車，而是醫療 AI 產業再一次被迫回答一個最不想面對的問題: 在這種錯誤成本下，誰還願意公開替它背書，誰又願意承擔用戶誤信之後的責任。

這件事之所以嚴重，是因為醫療場景跟一般搜尋、一般客服、一般內容工具完全不同。使用者不是在問哪家餐廳比較好，而是在問一個可能涉及身體、疼痛、疾病進程甚至生命風險的問題。研究結論、醫療社群疑慮、中文科技媒體整理與產品方對隱私與安全的說明放在一起後，可以清楚看見爭論焦點並不在於 AI 有沒有幫助，而在於什麼程度的錯誤是不可接受的。醫療 AI 可以作為分流輔助，但如果它的錯誤率會讓人延誤就醫、錯估病情或產生虛假安心感，那「先大規模上線、再慢慢修正」的產品邏輯就會變得很危險。

這次沒有任何新的模型參數、推理成本或 context 規格能替產品洗白，因為問題根本不在 benchmark，而在真實世界的責任分配。模型就算在一般測試裡表現好，只要到了醫療場景沒辦法穩定揭露不確定性、沒辦法在高風險情況下拒答、沒辦法明確轉人工，它就仍然可能造成結構性傷害。也正因如此，這條題材應該和 Copilot Health 想成為 AI 健康入口，但真正難題是醫療責任不是聊天體驗放在一起讀，因為兩者都指向同一件事: 健康入口一旦被 AI 拿到，產品責任就不再是附註，而是主體。

支持方當然會提出反駁。醫療資源不足、初步分流需求上升、非急重症用戶想先得到方向，這些都是真實存在的市場需求。AI 若完全不能進場，也會錯過改善效率的機會。問題在於，這些論點成立的前提是系統必須知道自己的能力邊界，且設計上要把「保守」放在「方便」前面。否則所謂補位，很快就會變成責任模糊的替代。

對醫院、保險、健康平台和大模型公司來說，這條訊號也會直接拉高導入門檻。未來大家不會只問有沒有醫療助理功能，而會問幾個更難回答的問題: 訓練資料來自哪裡、錯誤怎麼被記錄、拒答機制怎麼設計、哪一類問題一定要人工接手、使用者是否會被明確提醒這不是醫療判斷，以及錯誤發生後誰要負責對外說明。只要這些問題回答不清，任何健康 AI 產品的增長都可能被單一事件拉回原點。

這背後其實還有一層信任經濟學。一般 AI 工具可以靠低成本高頻試用逐步建立習慣，醫療 AI 做不到。它一開始就處在高風險場景，必須先證明自己不會過度自信、不會亂給方向、不會把模糊問題講成肯定結論。也就是說，醫療 AI 不能靠「先上線搶市場」建立信任，它得先靠克制建立信任。

所以這條新聞真正逼出來的，不該是恐慌，而是誠實。醫療 AI 若還想繼續談普及，下一步不能只是換包裝、加警語或多做幾個漂亮案例，而是得把不確定性揭露、人工接管、責任邊界與高風險剎車能力做到產品核心。能做到的公司才有資格繼續談健康入口；做不到的產品，越受歡迎，風險只會滾得越快。