正文
。这一现象被认为与“论文工厂”和人工智能(AI)技术的滥用密切相关。
英国萨里大学的统计学家 Matt Spick 在担任《科学报告》(
Scientific Reports
)期刊副主编时发现,大量基于 NHANES 数据的论文正如潮水般涌入。这些论文模式高度雷同:选取某种健康问题、关联的环境或生理因素,以及特定人群的已公开数据,通过简单替换变量生成所谓的“新发现”。根据 Spick 及其团队的统计,2014 至 2021 年间,此类论文年均仅 4 篇,但 2022 年后数量飙升,2024 年仅前 10 个月就出现了 190 篇。更引人注目的是,2021 年后发表的这类论文中,92% 的第一作者来自中国机构(292/316),而此前这一比例仅为 8%。
专家指出,
这种现象的背后可能是“论文工厂”的运作以及 AI 技术的推波助澜。
AI 工具能够快速生成看似合理的文本,帮助规避抄袭检测。此外,许多论文存在“数据钓鱼”问题,即选择性分析数据以获取统计显著性结果,导致大量虚假发现。例如,在 Spick 团队审查的 28 篇关于抑郁症的论文中,仅 13 篇的结果通过了统计校正,其余均不构成实质性阳性结果。目前已有出版商撤回了部分涉及 NHANES 数据的问题论文,并表示将加强审查。然而,研究人员警告称,随着 AI 技术的普及和其他大型数据库的开放,类似问题将可能进一步恶化。相关论文发表于
《公共科学图书馆-生物学》
(
PLOS Biology
)。
商务合作、广告投放