一项新研究表明,尽管大型语言模型(LLM)在医学知识测试中表现出色,但普通用户使用它们来诊断病情的准确率,实际上远低于不使用 AI 的人群。这是因为用户难以提供完整信息,而聊天机器人则可能提供不一致、误导性甚至完全错误的建议。即便是医疗专家使用这些工具也存在风险,因为机器人会自信地输出错误信息,从而影响专业的临床判断。医疗安全机构因此警告,目前的聊天机器人并不可靠,不应作为医疗决策的依据。
普通用户诊断准确率更低
在一项研究中,研究人员首先让多个聊天机器人直接回答医学问题,其诊断准确率高达 94%。然而,当研究人员招募近 1300 名普通人,让他们使用聊天机器人来分析医疗案例时,结果截然不同。
- 结果对比: 不使用 AI、自行研究的对照组,在正确识别病情(尤其是严重“危险信号”场景)方面表现明显更好。
- 数据差异: 不使用 LLM 的人正确诊断的可能性是使用者的 1.76 倍。
- 最佳情况: 研究人员指出,这可能还是最好的情况,因为测试用的是常见病例。在面对罕见病或复杂情况时,LLM 的表现可能会更差。
大语言模型自身的强大性能,并不足以保证用户也能获得同样好的结果。
聊天机器人如何导致误导
研究人员通过分析聊天记录,发现了导致普通用户被误导的几个关键问题:
- 信息不完整: 作为非专业人士,用户不知道哪些信息是重要的,而机器人通常不会像医生一样追问关键细节。
- 生成错误信息: 机器人有时会忽略重要细节,或者提供完全错误的信息,例如为一个英国用户提供澳大利亚的急救电话。
- 回答不一致: 对于几乎相同的提问,机器人可能给出截然相反的建议。例如,同样是蛛网膜下腔出血的症状,一个建议是寻求急救,另一个则是“在暗室里躺下”。
- 答案混杂: 机器人通常会提供多个选项,而用户很容易在正确与错误的答案中选错。
医生也面临风险
医疗专业人员使用 AI 同样存在风险。一个名为 ECRI 的医疗安全非营利组织已将“滥用 AI 聊天机器人”列为 2026 年健康技术危害的首位。
ECRI 指出,不能将这些工具拟人化,它们并非基于真正的理解来回答问题,而是通过预测下一个词来生成文本。
- 影响临床判断: 由于 LLM 的回答听起来非常权威,医生可能会在没有严格审查的情况下,下意识地采纳其建议。
- 自信地犯错: 研究表明,LLM 会在用户提供的错误信息基础上自信地进行阐述。谷歌为医疗用途设计的模型甚至编造了一个不存在的身体部位。
- 提供不安全建议: 在测试中,多个聊天机器人未能就特殊医疗场景(如导管附近使用超声波)推荐必要的无菌凝胶,而是推荐了可能导致感染的普通产品。
最终结论很明确:无论是患者还是医生,目前的 LLM 聊天机器人都远未达到可以被信任用于医疗保健安全的水平。