专栏名称: 香樟经济学术圈

香樟经济学术圈是经济研究平台，于2014年10月9日成立。平台主要为读者推送经典经济学术论文，发布“香樟经济学论坛”、“CEC Workshop"和学术研讨会等相关公告。希望平台能够为发展社会主义市场经济理论贡献微薄之力，感谢您的关注！

【香樟推文3525】谁站在中国科学巨人的肩膀上？——中国科学出版物的“引用折扣”现象

香樟经济学术圈 · 公众号 · · 2025-05-16 07:30

正文

请到「今天看啥」查看全文

数据与方法

为探讨中国科研成果的真实国际影响力，作者们构建了一套精细的研究框架。他们的核心思路是，比较来自中国的精英化学家发表的文章与来自其他国家（非美国）的精英化学家发表的同等质量的文章，在被美国科学家引用方面是否存在差异。

首先，在数据收集方面，作者们选取了31种化学领域最具影响力的期刊，并收集了这些期刊在2000年至2018年间发表的所有原创研究文章，排除了超过15个共同作者的文章，初步得到约55万篇文章。通过作者识别技术，他们为每篇文章匹配到唯一的作者，并重点关注最后通讯作者，因为在化学领域，这通常代表课题负责人（Principal Investigator,PI）。

从近12.5万名最后通讯作者中，作者选取了在这些精英期刊发表文章数量最多的前1%的科学家，得到1250名研究者。排除美国本土的科学家后，样本中剩下751名精英化学家，其中156名（约20.8%）在中国机构工作。作者还通过这些科学家的履历收集了他们的详细信息，如教育背景、博士后经历和职业发展等。随后，他们收集了这751名科学家在2000年至2018年间作为最后通讯作者且在他们成为独立研究员后发表的所有文章，共计78541篇。

引用数据主要来自 Webof Science ，重点关注的是那些所有作者都隶属于美国机构的文章对这78541篇文章的引用。此外，他们还利用Marx和Fuegi(2020)构建的专利引用科学文献数据集，考察了纯美国发明人团队的专利对这些文章的引用情况。

研究方法的核心： 如何公平地比较文章 。第一个关键步骤是 控制文章质量 。直接使用美国引用数作为质量指标是不可取的，因为这是研究要考察的结果变量。而总引用数又会受到“ 本土引用偏好 ”的影响，尤其在中国，高达56%的引用来自国内。为此，作者构建了一个名为“去偏引用数”(DebiasedCitations)的指标，详细计算方法见附录B。该指标从原始引用数中减去美国来源的引用，包含来自世界其他地区（RestoftheWorld,ROW）的引用，并对来自本国的引用进行调整，以校正各国“异常高”的本土引用比例（基于该国在全球出版物中的相对份额）。

随后，作者采用了“ 粗化精确匹配 ”(Coarsened Exact Matching,CEM)的方法。他们为每一篇由中国PI发表的文章（处理组），在非中国、非美国PI发表的文章中寻找对照组文章。匹配的维度包括“去偏引用数”（分为6个等级）、发表期刊、发表年份、作者数量（分为4组）以及PI获得博士学位的年份。所有匹配标准的并集定义了一个分层单元。在每个分层内，从CEM算法的角度来看，文章是不可区分的，匹配是在分层层面上进行的。经过匹配，产生了6905篇处理组文章和9287篇对照组文章。

第二个关键步骤是定义“ 引用风险集 ”(Citation Risk Set)。并非所有美国发表的文章都有可能引用某一篇特定的中国文章。作者利用PubMed的“相关文章”(Related Articles)功能，该功能基于PMRA算法（PubMed Related Citations Algorithm），通过比较标题、摘要和关键词的相似性来判断文章间的知识邻近度。对于样本中的每一篇文章，其“引用风险集”包括所有由美国机构作者发表、发表时间在该文章之后、并且被PMRA算法认为是相关的文章。通过将引用风险集限定为与样本中被引论文主题相关的文献，可以将分析集中在那些真正因知识内容相关而可能发生的引用上，排除了那些不反映学术影响力、而是出于地位考量或试图取悦编辑审稿人的引用行为。

最后，作者采用了统计模型进行分析。对于学术引用，他们主要使用了线性概率模型(Linear Probability Model,LPM)，其具体形式如公式1所示：