近半醫療 AI 回答被判定有問題，聊天機器人正在把「先問一下」變成新風險入口｜AI趨勢、情報與工具更新

當越來越多人把聊天機器人當成看醫生前後的第一站，一份新的 BMJ Open 審計研究把最不舒服的問題直接攤開了：主流 AI 並不是偶爾在醫療問題上答錯，而是接近一半的回答都被判定有問題。這條新聞的重要性，不只在研究本身的數字夠刺眼，更在於它撞上另一條同樣正在加速的現實。West Health 與 Gallup 在本週公布的調查顯示，已有 25% 的美國成年人用過 AI 工具取得健康資訊或建議，而在最近 30 天內曾這樣做的人裡，14% 表示自己因此沒有去看原本會去看的醫療提供者，換算約 1,400 萬成年人。用的人變多，信任卻沒有同步變強，這時候模型的失真就不再只是產品瑕疵，而是公共風險。

這份發表在 BMJ Open 的研究，把 Gemini、DeepSeek、Meta AI、ChatGPT 與 Grok 五款大眾最容易碰到的免費大型語言模型聊天介面拉進同一個測試裡。研究團隊在癌症、疫苗、幹細胞、營養與運動表現五個特別容易被錯誤訊息污染的領域，各設計 10 個問題，總共 50 個 prompt，再讓 5 個模型全部回答一次，於是形成 250 份回覆。設計上不只是一般問答，還刻意用了更像紅隊測試的 adversarial 方式，故意把模型往錯誤訊息與危險建議的邊緣推，看看它會不會在該踩煞車的時候真的踩下去。

結果很難輕描淡寫。250 份回答裡，50.4% 被評為沒問題，剩下 49.6% 都落在 problematic 的範圍，其中 30% 是 somewhat problematic，19.6% 是 highly problematic。換句話說，接近每五個回答就有一個屬於高度有問題的等級。更具體一點看，研究團隊指出整體模型表現雖然沒有統計上顯著拉開，但 Grok 出現高度有問題回答的次數明顯偏高；如果按主題分，疫苗與癌症相對表現較好，營養、運動表現與幹細胞相關問題則更容易出現偏差。這個分布本身就很值得注意，因為它剛好落在大眾最常拿來「先查一下」的領域，也正是錯誤保健訊息最容易擴散的場景。

問題不只在答案錯，還在它看起來很像對

這份研究最讓人警覺的，不只是錯誤比例，而是錯誤回覆的呈現方式。研究者明確寫到，這些模型普遍用帶有信心與確定性的語氣回答問題，幾乎沒有表現出「我不確定」的自我約束。250 個回答裡，只有 2 次拒答，而且兩次都來自 Meta AI。也就是說，就算問題本身已經帶有危險暗示，例如要求替代癌症治療方案，絕大多數模型仍傾向輸出一個完整答案，而不是把使用者推回專業醫療場域。這和我們早前討論過的健康聊天機器人的誤用風險正在被重新拉到檯面中央其實是一條線上的問題：產品設計太怕冷場，往往就會太少拒答。

第二個更麻煩的地方是引用。研究團隊要求模型替封閉式問題提供 10 篇 scientific references，最後五個模型總計只交出 1,013 筆引用，距離應有的 1,250 筆還差了一截，而且中位完整度只有 40%。沒有任何一個模型能產出完全正確、完整的參考文獻清單。換句話說，模型不只可能把醫療內容講偏，還可能用看似學術、其實殘缺甚至捏造的引用把錯誤包裝得更像真的。這點特別危險，因為多數一般使用者根本不會逐條核對 DOI、作者名與期刊資訊，看到一串像樣的文獻格式，很容易就把可信度直接往上加。

第三個問題是可讀性。研究顯示，所有模型的 Flesch Reading Ease 分數大多落在 30 到 50，也就是「Difficult」區間，約等於大學二到四年級的閱讀難度。這和一般醫療衛教材料應追求的淺白程度差很多。也就是說，現在公共AI在醫療場景裡有一個雙重風險：一方面內容可能不夠準，另一方面就算內容相對準確，也常被包成太長、太硬、太像專家口吻的說法。這會讓使用者產生一種很矛盾的錯覺，覺得「它講得很完整，所以應該很可靠」，但實際上複雜語氣跟科學正確性並不是同一件事。

這就是為什麼這篇研究不能只被解讀成又一篇「LLM 還不夠完美」的老話。它真正碰到的是入口層正在改變。West Health-Gallup 的調查顯示，近期使用 AI 健康資訊的人裡，71% 是想更快拿到答案，71% 是想補更多資訊，59% 會在看醫生前先自己研究，56% 會在看醫生後再問一次。這些數字說明，大眾已經不把 AI 當單純好奇的玩具，而是當成健康決策流程的一部分。有些人是為了節省時間，有些人是因為掛號太難、太貴，還有一部分人單純因為羞於開口。當系統中的成本、可近性與信任問題沒有先被解掉，提示詞再怎麼漂亮，也不會改變人們把 AI 當替代入口的趨勢。

這也讓這份研究和我們前面寫過的 Google Gemini 心理健康功能改版，AI 回應危機對話時主動連結求助資源形成了很好的對照。產品團隊近來越來越知道，敏感場景裡不能只優化回覆體驗，還要把轉介、拒答、求助導流與風險降載一起設計進去。BMJ Open 這份審計則提醒了另一面：如果沒有這些護欄，主流大眾模型預設的回答衝動，很可能會把醫療錯誤訊息放大得比搜尋引擎時代更像「私人建議」。

下一步不只是改模型，而是改預期管理

研究團隊也有提醒限制，像是這次測的是特定時間點的免費版本、問題設計帶有 adversarial 壓力，不能直接外推到所有醫療模型或付費版服務。但即便把這些限制都算進去，結論仍然很難被稀釋：在高風險健康題材上，今天的大眾聊天 AI 還遠不到可以被放心當作第一線醫療建議工具的程度。尤其當它們在引用品質、拒答機制與可讀性上同時有問題時，風險不是單點失誤，而是整體行為模式偏向「寧可自信地給出一個像樣答案，也不願明確承認自己不該回答」。

接下來真正值得看的，會是三件事。第一，平台會不會把醫療場景從一般問答介面裡切出來，做更強的護欄與升級路由。第二，監管與醫療體系會不會要求這類公共模型在健康主題上揭露更明確的限制。第三，使用者教育能不能跟上，讓更多人知道 AI 在健康資訊上的角色比較像「幫你整理問題」，而不是「替你做臨床判斷」。如果這三件事沒有同步補起來，那麼「先問一下 AI」這個看起來很小的日常習慣，最後可能會變成醫療風險最容易被低估的一個新入口。

而對整個產業來說，這份研究至少把一件事講清楚了：醫療場景不會因為模型更會說話，就自動變成可以放心商業化的場景。當聊天機器人開始介入健康問題，大家真正該比的不是誰回答得比較像專家，而是誰更知道什麼時候不該回答、該怎麼把人送回真正有責任的系統裡。