数百篇胡言乱语的伪论文,竟然才被发现
一项研究显示,在这个问题首次被发现的许多年后,由计算机程序生成的荒谬研究论文仍在科学文献中不断涌现。一些出版商告诉《Nature》杂志,他们将撤下这些论文,这可能导致200多篇文章被撤回。
这个问题开始于2005年,当时三个博士生为了“最大程度的娱乐”,创造了一个叫做SCIgen的论文生成软件,并表明一些会议会接受毫无意义的论文。该程序将单词拼凑在一起,生成带有随机标题、文本和图表的研究文章,很容易被人类读者发现是胡言乱语。它是免费下载的,任何人都可以使用。
到2012年,计算机科学家Cyril Labbé在美国电气和电子工程师协会(IEEE)发表的会议上发现了85篇伪造的论文,他找到了120多篇由IEEE和Springer2发表的假SCIgen论文。目前还不清楚是谁撰写了这些论文,以及为什么。这些文章随后被撤销——有时也被删除——Labbé发布了一个网站,允许任何人上传一篇手稿,并检查它是否像一项SCIgen出品。Springer还赞助了一个帮助发现SCIgen论文的博士项目,该项目产生了名为SciDetect的免费软件。
在法国格勒诺布尔阿尔卑斯大学工作的Labbé最初是在手稿中搜索SCIgen的典型词汇。但他和法国图卢兹大学的另一位计算机科学家Guillaume Cabanac提出了一个新想法:寻找SCIgen输出的关键语法短语特征。去年5月,他和Cabanac在Dimensions数据库收录的数百万篇论文中搜索了这些短语。
他们在5月1日发表的一项研究中报告说,在人工检查了每一篇文章后,研究人员发现了243篇完全或部分由SCIgen撰写的无意义文章。这些文章发表于2008年至2020年之间,出现在各种期刊、会议论文集和预印本上,主要是在计算机科学领域。一些出现在开放获取的期刊上,其他则是付费的。其中46份已经从最初发布它们的网站上被撤销或删除。
自去年以来,研究人员在他们的清单上又增加了20篇论文,其中包括MATHgen(生成数学论文的软件)和SBIR提案生成器(生成无意义的拨款提案)编写的乱七八糟的文章。Cabanac和Labbé已经在Twitter和出版后的同行评审网站pubpeer上发布了他们的一些发现,他们正在在线发布他们的完整结果。
大多数最新一批的SCIgen论文是由来自中国(64%)或印度(22%)的研究人员撰写的,尽管Labbé指出,这些手稿可能是在他们不知情的情况下以其人的名义提交的。其中几篇论文的作者告诉Labbé和Cabanac,它是作为恶作剧提交的。但其他手稿似乎是用真实的参考书目列表编辑的,这表明它们可能是为了夸大科学家的引用数量而产生的。Labbé表示:“我认为,绝大多数简历都是为了充实简历,以满足发表论文的需要。”
研究人员发现只有两篇SCI论文没有在IEEE上被撤销——IEEE正在对这两篇论文进行评估——还有一篇Springer论文包含了MATHgen文本的片段。但其他出版商却遇到了更糟糕的情况。伦敦物理研究所的附属机构IOp出版公司表示,他们撤回了10篇论文,“因为有明确证据表明这些论文是计算机生成的”,并且正在调查为什么这些论文在被接受的会议上没有在同行评审中被确认。“我们有合理的证据表明,其中一些论文的同行评审过程受到了影响,”该出版社的诚信和纳入经理Kim Eggleton说。
发布最多SCIgen内容的出版商是
瑞士的Trans Tech publications,发表了57篇SCIgen论文;
印度的Blue Eyes Intelligence Engineering and Sciences publication (BEIESp),发表了54篇;
还有今年3月被Springer Nature收购的法国出版商Atlantis press,发表了39篇。
Trans-Tech publications和Atlantis都告诉《Nature》杂志,他们正在调查并正在收回这些文章,但BEIESp的一位发言人说,他们发表的文章只有通过了双盲同行评审和剽窃检查的原创内容。
该研究发现,流行的SSRN预印本服务器(论文在同行评审之前共享的服务器)已经发表了16篇SCIgen论文。SSRN的一位发言人说,该公司正在调查这个问题,并指出该公司为其预印本提供了“有限的筛选”(对医疗保健手稿进行了“高级筛选”)。
Cabanac对一些出版商处理这类论文的不透明方式感到担忧。例如,IEEE从其网站上删除了一些SCIgen论文,但给其他论文留下了正式的撤销通知。Cabanac还指出,研究论文——或它们的早期版本——有时会从SSRN预印本服务器上消失,而没有记录这些变化。
IEEE的一位发言人表示,其删除论文或留下撤回标签的政策“取决于我们的评估结果”;SSRN没有回应有关其撤销或删除政策的问题。
SCIgen的论文极其罕见:Labbé和Cabanac从他们的筛选上估计,他们在计算机科学文献中仅占75篇。这些问题远比那些被怀疑是制造伪科学的造纸厂的问题要小得多。造纸厂为学术界提供看似真实的研究论文,Labbé和Cabanac也帮助发现了这些问题。
但是,Labbé说,这些论文的存在表明了“不发表就灭亡”文化的有害影响,也说明了荒谬的工作如何仍然会出现在会议会议或期刊上。
原文检索:
Hundreds of gibberish papers still lurk in the scientific literature
The fight against fake-paper factories that churn out sham science