Home
JournalsCollections
For Authors For Reviewers For Editorial Board Members
Article Processing Charges Open Access
Ethics Advertising Policy
Editorial Policy Resource Center
Company Information Contact Us Membership Collaborators Partners
OPEN ACCESS

数以千计的隐形引文潜入论文,被引指数真的还真实吗?

  • 代洁琼
Medical Research & Publication   2025

doi: 10.14218/MRP.2025.03201

Published online:

 Author information

2022年,法国图卢兹大学的计算机科学家Guillaume Cabanac发现了一种不寻常的现象:一篇文章在发表不到两个月内就获得了100多次引用。最初,Cabanac在PubPeer上标记了这项研究,因为该研究被“Problematic Paper Screener”突出显示,这一工具能够自动识别存在潜在问题的研究论文。被标记的论文中存在异常的短语,这些短语对既定术语进行了奇怪的扭曲,可能是由翻译软件或规避抄袭检查器造成。然而,Cabanac注意到更奇怪的一点:根据“Altmetrics donut”,该研究已被引用107次,但其下载次数却仅为62次。

更重要的是,根据Google Scholar的统计,这篇论文仅被引用了一次。Cabanac指出,“Google Scholar的引用计数与Altmetrics/Dimensions上的计数之间存在明显差异。尤其值得注意的是,Google Scholar通常会高估引用次数。”经过深入调查,Cabanac和其团队最终在提交给Crossref(这是一个学术元数据唯一标识符的存储库)的元数据文件中找到了额外引文的来源。研究小组将这些发现于2022年10月4日上传至arXiv服务器上的预印本。Cabanac解释道,Google Scholar的引用统计基于研究论文PDF版本的文本挖掘,而不是Crossref的元数据文件。“我们相信,这是一种此前未被记录的引用计数操纵方式,”他在接受Retraction Watch采访时表示,“这一方法的独特之处在于,不需要篡改论文的正式版本(如PDF或HTML),而是通过操作元数据文件实现的。”

Cabanac指出,有问题的论文的元数据文件包含的参考文献数量明显多于HTML或PDF版本。这些额外的引用被悄悄添加至元数据文件中,并提交给Crossref并被自动提取。由于元数据文件随时重新提交,因此更新后的文件可在文章发表后任意时间加入更多引用。这些多余的引用最终会显著提高Altmetrics分数(该分数描述了文章在社交媒体平台上的传播及提及频率)。这种人为夸大的分数进一步影响了Dimensions等书目平台的引用统计。由于引用计数常被用于评价研究人员的学术影响力和分配科研经费,这种“注水”行为可能对学术界和科研资源分配造成误导。

根据Cabanac的研究,新增的引用大多来自Technoscience Academy出版的期刊。Technoscience Academy是一家总部位于印度古吉拉特邦的开放获取出版商,同时也是Crossref的成员。该出版商未对媒体的置评请求做出回应。目前尚不清楚谁在操纵元数据文件,抑或该问题是否因技术故障所致。Cabanac认为,这种现象反映了监督缺失的问题。他建议,建立定期比对PDF、HTML和元数据文件中参考文献的工具与系统,将是解决这一问题的关键。

Cabanac表示,如果某出版商的输出明显包含异常引用,其Crossref成员资格应受到严格审查。作为Crossref协议的签署方,“出版商应对其行为负责。”“这看起来真的很狡猾,”Crossref会员与社区拓展总监Ginny Hendricks也对此发表了评论,她指出这是他们首次听说这种“隐形引用”的问题。“这绝对是学界执着于将引用作为衡量影响或重要性的指标的副作用,令人遗憾。”她补充道,Crossref将启动调查,并指出Crossref通常不会撤销会员资格,过去仅因Omics International对科学界造成严重影响而被撤销会员资格。Hendricks表示,Crossref到目前为止还没有考虑引入广泛的审查,但她鼓励第三方使用Crossref的开放数据来开发系统从而做到这一点。“科学合法性不是由我们来决定。”

在对Technoscience Academy出版的三本期刊分析后,Cabanac的团队发现,这些期刊通过Crossref生成了超过1,000个DOI(数字对象标识符)。研究显示,三本期刊发表论文的元数据中约9%的引用(即65,836篇参考文献中的5,978篇)仅使两名研究人员受益。其中一位是印度维沙卡帕特南Vignan信息技术研究所的J. Nageswara Rao,他从3,103次额外引用中获益;另一位是印度甘地讷格尔LDRP技术与研究所的Bhavesh Kataria,他从1,564次额外引用中获益。

此外,三本期刊自身也从这些“隐形引用”中获利。例如,International Journal of Scientific Research in Science, Engineering and Technology的引用次数增加了826次,International Journal of Advanced Science and TechnologyTurkish Journal of Physiotherapy and Rehabilitation分别增加了537次和428次引用。

在出版商进行调查后,Hindawi撤回了这篇文章。调查显示,该论文存在以下一项或多项系统性操纵发布过程迹象的证据:

  • 范围差异;

  • 报告的研究描述存在差异;

  • 数据的可用性与所描述的研究之间的差异;

  • 引用不当;

  • 文章中包含的不连贯、无意义和/或不相关的内容;

  • 同行评议过程被操纵。

除“隐形引用”之外,Cabanac的研究还揭示了“丢失引用”的现象,即论文HTML/PDF中存在的部分引用并未出现在Crossref的元数据文件中。“Crossref元数据(例如Dimensions)用户可能忽略这些引用,因为这些不在他们的数据库中,或者因为他们未能正确地对元数据中提供的引用文本进行文本挖掘,”Cabanac补充道。研究表明,HTML版本中高达56%的引用(即36,939篇参考文献中的65,836篇)未包含在Crossref元数据文件中。

References

  1. https://retractionwatch.com/2023/10/09/how-thousands-of-invisible-citations-sneak-into-papers-and-make-for-fake-metrics/ View Article PubMed/NCBI