对聚类中自然语言处理领域的类别进行筛选

2.2 预训练语言模型知识基础

由于一篇文献从发表到被关注需要一定的时间周期，也就是被引用具有一定的时滞性，时间跨度或长或短。这也导致文献共引分析方法研究科学前沿具有一定的局限性，其主要用于分析某个研究领域的主题、知识基础和演变脉络等方面。

首先对文献集1进行文献共被引分析，再进行关键词聚类得到11个类别，对聚类中自然语言处理领域的类别进行筛选，最终得到含7个类别的图谱，如图1。在预训练语言模型在自然语言处理领域中的知识基础主要包括卷积神经网络、语言理解、词嵌入、文本分析、分类、语义表示、循环神经网络等方面。且 #0-4、#9、#10 这7个类别中，数字越小说明聚类中包含的关键词信息越多。类别#2 word embeddings恰恰说明了词嵌入这一知识基础在预训练语言模型中的体量较大。类别#9 sematic representation中包含的关键词信息虽然不多，但语义表示这一类别的出现也反应了其在自然语言处理领域的受关注程度，即人工智能对语义层面表示文本的现实需求，同时也说明现有词嵌入技术的发展之需。