科学数据集中处处都是复制粘贴错误

一项新开发的软件扫描了数百个公开的科学数据集，发现其中普遍存在复制粘贴错误。这些错误波及多个领域，包括一项关于帕金森病的开创性研究，其数据显示不同实验小鼠的数据被简单复制，动摇了研究结论的根基。这一发现揭示了科学界在数据审查方面的严重缺失，因为许多错误数据已公开多年却无人察觉。尽管部分错误可能源于无心之失，但另一些则指向了潜在的数据造假。

软件扫描揭示数据问题

受到近年几起数据造假丑闻的启发，研究人员开发了一款软件，专门用于检测公开数据集中的复制粘贴痕迹。初步扫描了 600 个数据集后，发现了 18 起问题严重的案例。以下是其中三个典型例子。

案例一：帕金森病研究的数据疑云

一项广受关注的研究声称，帕金森病可能起源于肠道而非大脑。该研究被媒体广泛报道，并被引用超过 3000 次。然而，其公开数据中存在严重问题。

核心问题： 用于测量小鼠运动功能的数据中，本应属于不同实验组小鼠的数据序列却完全相同。
具体错误：
- “胶带移除时间”数据中，两组不同处理的小鼠共享了两段完全相同的 5 个连续数字。
- “下杆时间”数据中，同一组内也出现了重复的数字序列。
严重影响： 由于研究的样本量很小，这些重复数据占到了相关样本的近 50%。这严重削弱了“肠道菌群引发帕金森症状”这一核心结论的可信度。作者在报告问题后，至今未得到研究团队的回应。

“我们清除了（易患帕金森病的）小鼠的微生物组——它们所有的症状都消失了。”

这是该研究的资深作者对其核心发现的总结。

案例二：鸵鸟与蛇的数据混淆

在一篇研究动物如何进化出毒素抗性的论文中，软件发现了更可疑的数据模式。

核心问题： 实验数据显示，鸵鸟和一种蛇的蛋白质对毒素的反应数据存在精确复制和近乎复制的情况。
具体错误：
- 部分数据在两种完全不同的物种间一模一样。
- 更可疑的是，还有六对数据仅有微小差异，但数值的最后一位数字总是相同的。例如，一个数值是 0.538，在另一处则变成了 0.518。
作者解释与疑点： 论文作者承认这可能是复制粘贴错误，并猜测“近乎复制”的数据源于对同一样本的多次读数。然而，这个解释本身也存在疑点，因为多次读数通常不会产生如此有规律的、仅在末位数字上保持一致的模式。另一种可能性是，数据被复制后被人为修改以掩盖痕迹或使其更符合预期。

案例三：被搞乱的鱼类尺寸

一篇关于基因相同的鱼类为何会产生不同“个性”的研究也出现了数据错误，但这次似乎是无心之失。

核心问题： 在记录鱼类行为和尺寸的表格中，不同鱼的尺寸数据被错误地分配了。
具体错误： 作者将鱼的尺寸和行为数据分别存在两个文件中，在合并时发生了错位，导致一条鱼的尺寸被错误地安在了另一条鱼的四次行为观测记录上。
结果与修正： 作者承认了错误并重新分析了数据。幸运的是，修正后的分析表明，虽然鱼的尺寸确实对行为有微小影响，但并不影响论文的整体结论，即鱼类的个体行为差异主要不是由体型决定的。这是一个研究者积极修正错误的正面案例。

系统性失察与未来展望

在首批扫描的 600 个数据集中，软件发现了 18 个严重问题，错误率约为 3%。然而，这很可能只是冰山一角。

真实错误率可能更高： 该软件只能检测特定的复制粘贴模式，无法发现其他类型的数据错误或更隐蔽的造假手段。
缺乏审查机制： 科学界的同行评审流程通常不包括对原始数据的详细审查。期刊、大学和资助机构更关心排名和指标，而不是投入资源去发现可能损害声誉的数据错误。

“目前根本没有人的工作是主动去寻找这些错误。如果你向他们报告严重错误，你只是制造了一个可能让他们的数字变得难看的麻烦。”

唯一的亮点是 Dryad 数据平台，它积极支持这一项目，并推动作者和期刊修正错误。

接下来，该项目计划利用获得的资助，扫描 Dryad 平台上其余的约 24,000 个数据集。如果 3% 的错误率成立，预计还会发现数百个类似案例，这将进一步揭示科学数据质量控制的紧迫性。