学术数据中的引文信息是进入刊物的重要洞察的重要来源和学术话语。引文分析结果和引用的机器学习的适用性严重取决于此类数据的完整性。现在学术数据的一个特定的缺点是非英语出版物通常不包括在数据集中,或者语言元数据不可用。因此,唯一研究了不同语言(交叉引用)的出版物之间的引文仅对非常有限的程度。在本文中,我们对基于超过100万英文论文的交叉引用分析,跨越三个科学学科,三十年的时间跨度。我们的调查涵盖了引用的语言和学科之间的差异,随着时间的推移,趋势以及交叉引用的使用特征以及影响。在我们的研究结果中,引文的增加率为中文所写的出版物,引用主要针对当地非英语语言,以及交叉和单声道引用之间的引文意图的一致性。为了促进进一步的研究,我们会公开收集的数据和源代码。
translated by 谷歌翻译