为探讨中国科研成果的真实国际影响力,作者们构建了一套精细的研究框架。他们的核心思路是,比较来自中国的精英化学家发表的文章与来自其他国家(非美国)的精英化学家发表的同等质量的文章,在被美国科学家引用方面是否存在差异。
首先,在数据收集方面,作者们选取了31种化学领域最具影响力的期刊,并收集了这些期刊在2000年至2018年间发表的所有原创研究文章,排除了超过15个共同作者的文章,初步得到约55万篇文章。通过作者识别技术,他们为每篇文章匹配到唯一的作者,并重点关注最后通讯作者,因为在化学领域,这通常代表课题负责人(Principal Investigator,PI)。
从近12.5万名最后通讯作者中,作者选取了在这些精英期刊发表文章数量最多的前1%的科学家,得到1250名研究者。排除美国本土的科学家后,样本中剩下751名精英化学家,其中156名(约20.8%)在中国机构工作。作者还通过这些科学家的履历收集了他们的详细信息,如教育背景、博士后经历和职业发展等。随后,他们收集了这751名科学家在2000年至2018年间作为最后通讯作者且在他们成为独立研究员后发表的所有文章,共计78541篇。
引用数据主要来自
Webof Science
,重点关注的是那些所有作者都隶属于美国机构的文章对这78541篇文章的引用。此外,他们还利用Marx和Fuegi(2020)构建的专利引用科学文献数据集,考察了纯美国发明人团队的专利对这些文章的引用情况。
研究方法的核心:
如何公平地比较文章
。第一个关键步骤是
控制文章质量
。直接使用美国引用数作为质量指标是不可取的,因为这是研究要考察的结果变量。而总引用数又会受到“
本土引用偏好
”的影响,尤其在中国,高达56%的引用来自国内。为此,作者构建了一个名为“去偏引用数”(DebiasedCitations)的指标,详细计算方法见附录B。该指标从原始引用数中减去美国来源的引用,包含来自世界其他地区(RestoftheWorld,ROW)的引用,并对来自本国的引用进行调整,以校正各国“异常高”的本土引用比例(基于该国在全球出版物中的相对份额)。
随后,作者采用了“
粗化精确匹配
”(Coarsened Exact Matching,CEM)的方法。他们为每一篇由中国PI发表的文章(处理组),在非中国、非美国PI发表的文章中寻找对照组文章。匹配的维度包括“去偏引用数”(分为6个等级)、发表期刊、发表年份、作者数量(分为4组)以及PI获得博士学位的年份。所有匹配标准的并集定义了一个分层单元。在每个分层内,从CEM算法的角度来看,文章是不可区分的,匹配是在分层层面上进行的。经过匹配,产生了6905篇处理组文章和9287篇对照组文章。
第二个关键步骤是定义“
引用风险集
”(Citation Risk Set)。并非所有美国发表的文章都有可能引用某一篇特定的中国文章。作者利用PubMed的“相关文章”(Related Articles)功能,该功能基于PMRA算法(PubMed Related Citations Algorithm),通过比较标题、摘要和关键词的相似性来判断文章间的知识邻近度。对于样本中的每一篇文章,其“引用风险集”包括所有由美国机构作者发表、发表时间在该文章之后、并且被PMRA算法认为是相关的文章。通过将引用风险集限定为与样本中被引论文主题相关的文献,可以将分析集中在那些真正因知识内容相关而可能发生的引用上,排除了那些不反映学术影响力、而是出于地位考量或试图取悦编辑审稿人的引用行为。
最后,作者采用了统计模型进行分析。对于学术引用,他们主要使用了线性概率模型(Linear Probability Model,LPM),其具体形式如公式1所示: