一项发表于《Science》的研究表明,OpenAI 的推理模型 o1 在急诊诊断方面的准确性整体上优于人类医生,尤其是在解读真实电子病历和处理复杂病例时。尽管如此,研究人员强调,这并不意味着 AI 可以取代医生,而是应在通过临床试验证明其安全性和有效性后,作为医生的辅助工具。其主要用途在于提供第二诊疗意见、协助分诊和减轻文书负担,而普通患者在使用 AI 进行医疗决策时应保持谨慎。
AI 在急诊诊断中超越人类医生
一项重大的新研究发现,先进的人工智能程序在诊断寻求紧急医疗救助的病人时,其表现常常优于人类医生。这使得“机器能否比医生做出更好的判断”这一问题变得更加紧迫。
- 研究对象: OpenAI 的 o1 推理模型,这是一种比 ChatGPT 更专业的模型,强调内部逻辑和审慎的推理过程。
- 研究方法: 研究人员通过模拟病例、用于测试医生思维的真实历史病例,以及来自医院的真实电子病历,对 o1 模型的准确性进行了评估。
- 比较对象: 将 o1 模型的表现与人类医生、ChatGPT 以及使用 ChatGPT 辅助的人类医生进行比较。
我们正在见证一场深刻的技术变革,它将重塑医学。
关键数据:AI 的表现有多好?
这项研究中最引人注目的发现,是 o1 模型在评估来自急诊室的原始电子病历时的表现。这最接近医生在信息不完整、时间紧迫的混乱现实中所面临的挑战。
- 在病人初次分诊阶段,o1 模型识别出准确或非常接近诊断的比例为 67%,而两位作为对照的专家医生分别为 50% 和 55%。
- 当病人准备住院时,o1 模型的诊断准确率达到 81%,而人类医生则为 70% 和 79%。
研究人员表示,这些数据明确表明,AI 推理模型在诊断能力上可以达到甚至超越人类的最高水平。
一个重要的前提:AI 只是辅助工具
尽管结果令人印象深刻,但研究作者非常担心他们的研究成果会被曲解,被用作以软件取代人类医生的理由。
“任何人都不应该看了这个研究就说我们不再需要医生了。”
他们强调,AI 成为医生的辅助工具是理想的模式,而非替代品,原因如下:
- 诊断只是第一步: 治疗病人不仅仅是做出诊断,还包括制定治疗计划、监控病情变化以及 至关重要的人文关怀。
- 安全有效性需要验证: 目前的研究是回顾性的,AI 并没有在真实环境中实时诊断病人。因此,必须通过严格的 临床试验 来评估其在真实世界中的安全性和准确性。
- 人类需要人类: 正如一位研究者所说:“人类希望在面对生死抉择时,由人类来引导他们。”
AI 在医疗领域的正确用法
研究人员和外部专家一致认为,AI 可以在特定场景下为医生提供巨大帮助,尤其是在信息不完美的急诊室环境中。
- 提供第二意见: 当医生遇到超出其经验范围的病例时,AI 可以作为“第二双虚拟眼睛”,提供参考和检查。
- 高风险情况辅助: 在处理败血症或中风等分秒必争的紧急情况时,AI 可以协助快速判断。
- 减轻文书负担: AI 可以用于处理保险预授权、病历文件和排班等行政任务,让医生能将更多时间投入到病人身上。
对患者的警告:谨慎使用消费级 AI
普通人也应该对使用 AI 自行做出医疗决策保持警惕。不同 AI 模型的能力差异巨大。
- 专业模型 vs. 消费模型: o1 模型代表了 AI 诊断能力的“上限”,而像 ChatGPT 这样的消费级模型则代表了“下限”。
- 消费模型的风险: 另一项研究发现,ChatGPT 在 52% 的案例中低估了病情的严重性,甚至未能识别出明显的自杀倾向,可能将危重病人导向延误治疗。
对于普通人来说,可以遵循以下简单的原则:
- 绿色场景 (低风险): 可以向 AI 咨询有关管理高血压的饮食或缓解背痛的拉伸运动等 生活方式建议。
- 红色场景 (高风险): 如果出现胸痛等严重症状,应该 立即去看医生或去医院,而不是咨询 AI。