一项重大新研究发现，AI在急诊诊断中表现优于医生—

一项发表于《Science》的研究表明，OpenAI 的推理模型 o1 在急诊诊断方面的准确性整体上优于人类医生，尤其是在解读真实电子病历和处理复杂病例时。尽管如此，研究人员强调，这并不意味着 AI 可以取代医生，而是应在通过临床试验证明其安全性和有效性后，作为医生的辅助工具。其主要用途在于提供第二诊疗意见、协助分诊和减轻文书负担，而普通患者在使用 AI 进行医疗决策时应保持谨慎。

AI 在急诊诊断中超越人类医生

一项重大的新研究发现，先进的人工智能程序在诊断寻求紧急医疗救助的病人时，其表现常常优于人类医生。这使得“机器能否比医生做出更好的判断”这一问题变得更加紧迫。

研究对象: OpenAI 的 o1 推理模型，这是一种比 ChatGPT 更专业的模型，强调内部逻辑和审慎的推理过程。
研究方法: 研究人员通过模拟病例、用于测试医生思维的真实历史病例，以及来自医院的真实电子病历，对 o1 模型的准确性进行了评估。
比较对象: 将 o1 模型的表现与人类医生、ChatGPT 以及使用 ChatGPT 辅助的人类医生进行比较。

我们正在见证一场深刻的技术变革，它将重塑医学。

关键数据：AI 的表现有多好？

这项研究中最引人注目的发现，是 o1 模型在评估来自急诊室的原始电子病历时的表现。这最接近医生在信息不完整、时间紧迫的混乱现实中所面临的挑战。

在病人初次分诊阶段，o1 模型识别出准确或非常接近诊断的比例为 67%，而两位作为对照的专家医生分别为 50% 和 55%。
当病人准备住院时，o1 模型的诊断准确率达到 81%，而人类医生则为 70% 和 79%。

研究人员表示，这些数据明确表明，AI 推理模型在诊断能力上可以达到甚至超越人类的最高水平。

一个重要的前提：AI 只是辅助工具

尽管结果令人印象深刻，但研究作者非常担心他们的研究成果会被曲解，被用作以软件取代人类医生的理由。

“任何人都不应该看了这个研究就说我们不再需要医生了。”

他们强调，AI 成为医生的辅助工具是理想的模式，而非替代品，原因如下：

诊断只是第一步: 治疗病人不仅仅是做出诊断，还包括制定治疗计划、监控病情变化以及 至关重要的人文关怀。
安全有效性需要验证: 目前的研究是回顾性的，AI 并没有在真实环境中实时诊断病人。因此，必须通过严格的 临床试验 来评估其在真实世界中的安全性和准确性。
人类需要人类: 正如一位研究者所说：“人类希望在面对生死抉择时，由人类来引导他们。”

AI 在医疗领域的正确用法

研究人员和外部专家一致认为，AI 可以在特定场景下为医生提供巨大帮助，尤其是在信息不完美的急诊室环境中。

提供第二意见: 当医生遇到超出其经验范围的病例时，AI 可以作为“第二双虚拟眼睛”，提供参考和检查。
高风险情况辅助: 在处理败血症或中风等分秒必争的紧急情况时，AI 可以协助快速判断。
减轻文书负担: AI 可以用于处理保险预授权、病历文件和排班等行政任务，让医生能将更多时间投入到病人身上。

对患者的警告：谨慎使用消费级 AI

普通人也应该对使用 AI 自行做出医疗决策保持警惕。不同 AI 模型的能力差异巨大。

专业模型 vs. 消费模型: o1 模型代表了 AI 诊断能力的“上限”，而像 ChatGPT 这样的消费级模型则代表了“下限”。
消费模型的风险: 另一项研究发现，ChatGPT 在 52% 的案例中低估了病情的严重性，甚至未能识别出明显的自杀倾向，可能将危重病人导向延误治疗。

对于普通人来说，可以遵循以下简单的原则：

绿色场景 (低风险): 可以向 AI 咨询有关管理高血压的饮食或缓解背痛的拉伸运动等 生活方式建议。
红色场景 (高风险): 如果出现胸痛等严重症状，应该 立即去看医生或去医院，而不是咨询 AI。