研究工具 TriNetX 因其能快速分析海量电子病历,正导致大量可能存在缺陷的医学论文激增。许多经验不足的研究者,尤其是医学生,为了增加履历而使用该平台快速发表论文。这些研究常常因方法不当而存在严重偏倚,如“挑结果”、碰撞偏倚和不死时间偏倚,甚至有研究声称使用了平台根本不具备的分析功能,这被怀疑是直接复制了AI生成的错误方法。这种“重量不重质”的现象可能误导临床实践,促使学界开始推动更严格的审查和培训,强调研究的真实贡献而非数量。
一个研究工具引发的质量危机
TriNetX 是一个能让研究人员访问全球超过三亿份匿名电子健康记录的平台。近年来,基于该平台数据的论文数量呈爆炸式增长,从五年前的每年几十篇增长到现在的数千篇。
然而,这种增长也引发了对研究质量的严重担忧。许多经验不足的用户,特别是希望在申请住院医师职位前丰富履历的医学生,正利用其便捷性大量产出论文。
我们看到了大量这类研究,它们似乎都有非常相似的缺陷。它们似乎总能为药物在各种结果上找到惊人的效果和显著的益处。
这些研究通常由受训医生作为第一作者,来自美国各大医学院。对于他们而言,这是一种快速提升个人简历的有效途径。但便捷的“一键式”分析工具与缺乏经验的用户相结合,催生了大量低质量的出版物。
- 数据挖掘的便利性: 用户可以非常迅速地分析数据,这使得“挑选”积极结果来发表变得异常容易,即所谓的 “p-hacking”。
- 潜在的误导: 如果不加控制,这种趋势将导致医学文献库中充斥着各种虚假的关联。正如一位研究者所担心的:“我最大的担忧是,十年后当医生想查阅某个概念时,他们会发现文献里的一切都与一切相关。”
常见的研究缺陷与偏倚
这些快速产出的研究中,最常见的问题是未能识别并校正关键的统计偏倚,从而导致治疗效果被夸大。
- 碰撞偏倚 (Collider Bias): 当药物使用和某种疾病结果(如癌症)都共同影响患者是否就医时,就可能产生这种偏倚。这会在药物和疾病之间制造出一种虚假的负相关关系。
- 不死时间偏倚 (Immortal-time Bias): 当研究比较接受治疗与未接受治疗的患者时,如果患者在有机会接受治疗前死亡,他们会自动被分入“未治疗组”,这会人为地拉高未治疗组的死亡率,从而显得治疗非常有效。
一个典型的例子是一篇声称流行的GLP-1减肥药能降低多种癌症风险的论文。批评者指出,该研究完全没有提及或校正上述两种关键偏倚,是一篇 “极其糟糕的论文”。
人工智能可能正在加剧问题
更令人不安的是,一些论文声称使用了 TriNetX 平台根本不提供的分析功能,这引发了对方法真实性的质疑。
研究人员王博士(Joshua Wang)发现,一篇论文声称在 TriNetX 内部完成了校正“不死时间偏倚”的关键步骤,但他深知该平台并无此功能。
这真的让我很上头。他们要么是伪造了研究方法,要么就是不加批判地从另一篇文章或AI的输出中复制了方法描述。我觉得这两种情况都相当可怕。
为了验证猜想,王博士和其同事向七个大型语言模型(LLM)提问,询问如何使用 TriNetX 校正不死时间偏倚。结果,有六个模型给出了在平台上无法实现的错误方法。随后,他们在已发表的论文中搜索这些“不可能的方法”,最终找到了八篇,其中多篇论文的第一作者是医学生或住院医师。
从追求数量到重视质量
面对研究质量下滑的乱象,相关机构正开始采取行动。
- 申请标准调整: 美国医学院协会 (AAMC) 正在调整住院医师的申请流程,要求申请者将重点 从出版物的“数量”转向“质量”,强调其实质性贡献和参与深度。
- 加强培训与审查: 部分医院已开始对研究人员进行强制性培训,向他们展示获得“看起来很美”但毫无意义的结果是多么容易,以此来“灌输一些恐惧感”,防止他们滥用工具。
尽管存在争议,但仍有研究者认为,只要研究过程保持透明,更多的研究总归是好事。然而,当被要求分享具体的研究查询参数时,接受采访的作者无一同意。这表明,在推动研究质量的道路上,透明度 仍然是一个关键的挑战。