医学生正在利用一款热门研究工具大量炮制误导性研究

研究工具 TriNetX 因其能快速分析海量电子病历，正导致大量可能存在缺陷的医学论文激增。许多经验不足的研究者，尤其是医学生，为了增加履历而使用该平台快速发表论文。这些研究常常因方法不当而存在严重偏倚，如“挑结果”、碰撞偏倚和不死时间偏倚，甚至有研究声称使用了平台根本不具备的分析功能，这被怀疑是直接复制了AI生成的错误方法。这种“重量不重质”的现象可能误导临床实践，促使学界开始推动更严格的审查和培训，强调研究的真实贡献而非数量。

一个研究工具引发的质量危机

TriNetX 是一个能让研究人员访问全球超过三亿份匿名电子健康记录的平台。近年来，基于该平台数据的论文数量呈爆炸式增长，从五年前的每年几十篇增长到现在的数千篇。

然而，这种增长也引发了对研究质量的严重担忧。许多经验不足的用户，特别是希望在申请住院医师职位前丰富履历的医学生，正利用其便捷性大量产出论文。

我们看到了大量这类研究，它们似乎都有非常相似的缺陷。它们似乎总能为药物在各种结果上找到惊人的效果和显著的益处。

这些研究通常由受训医生作为第一作者，来自美国各大医学院。对于他们而言，这是一种快速提升个人简历的有效途径。但便捷的“一键式”分析工具与缺乏经验的用户相结合，催生了大量低质量的出版物。

数据挖掘的便利性: 用户可以非常迅速地分析数据，这使得“挑选”积极结果来发表变得异常容易，即所谓的 “p-hacking”。
潜在的误导: 如果不加控制，这种趋势将导致医学文献库中充斥着各种虚假的关联。正如一位研究者所担心的：“我最大的担忧是，十年后当医生想查阅某个概念时，他们会发现文献里的一切都与一切相关。”

常见的研究缺陷与偏倚

这些快速产出的研究中，最常见的问题是未能识别并校正关键的统计偏倚，从而导致治疗效果被夸大。

碰撞偏倚 (Collider Bias): 当药物使用和某种疾病结果（如癌症）都共同影响患者是否就医时，就可能产生这种偏倚。这会在药物和疾病之间制造出一种虚假的负相关关系。
不死时间偏倚 (Immortal-time Bias): 当研究比较接受治疗与未接受治疗的患者时，如果患者在有机会接受治疗前死亡，他们会自动被分入“未治疗组”，这会人为地拉高未治疗组的死亡率，从而显得治疗非常有效。

一个典型的例子是一篇声称流行的GLP-1减肥药能降低多种癌症风险的论文。批评者指出，该研究完全没有提及或校正上述两种关键偏倚，是一篇 “极其糟糕的论文”。

人工智能可能正在加剧问题

更令人不安的是，一些论文声称使用了 TriNetX 平台根本不提供的分析功能，这引发了对方法真实性的质疑。

研究人员王博士（Joshua Wang）发现，一篇论文声称在 TriNetX 内部完成了校正“不死时间偏倚”的关键步骤，但他深知该平台并无此功能。

这真的让我很上头。他们要么是伪造了研究方法，要么就是不加批判地从另一篇文章或AI的输出中复制了方法描述。我觉得这两种情况都相当可怕。

为了验证猜想，王博士和其同事向七个大型语言模型（LLM）提问，询问如何使用 TriNetX 校正不死时间偏倚。结果，有六个模型给出了在平台上无法实现的错误方法。随后，他们在已发表的论文中搜索这些“不可能的方法”，最终找到了八篇，其中多篇论文的第一作者是医学生或住院医师。

从追求数量到重视质量

面对研究质量下滑的乱象，相关机构正开始采取行动。

申请标准调整: 美国医学院协会 (AAMC) 正在调整住院医师的申请流程，要求申请者将重点 从出版物的“数量”转向“质量”，强调其实质性贡献和参与深度。
加强培训与审查: 部分医院已开始对研究人员进行强制性培训，向他们展示获得“看起来很美”但毫无意义的结果是多么容易，以此来“灌输一些恐惧感”，防止他们滥用工具。

尽管存在争议，但仍有研究者认为，只要研究过程保持透明，更多的研究总归是好事。然而，当被要求分享具体的研究查询参数时，接受采访的作者无一同意。这表明，在推动研究质量的道路上，透明度 仍然是一个关键的挑战。