中文地名识别方法
更新日期:2020-11-05     来源:武汉大学学报(信息科学版)   作者:朱鹏  浏览次数:240
核心提示:1.中文地名识别方法1.1 BERT与ALBERT预训练模型预训练模型为神经网络提供了一个更好的初始化参数,加速神经网络收敛并在目标任务上具备更好的泛化能力

1. 中文地名识别方法

1.1 BERT与ALBERT预训练模型

预训练模型为神经网络提供了一个更好的初始化参数,加速神经网络收敛并在目标任务上具备更好的泛化能力。预训练模型的发展分为浅层的词嵌入与深层编码两个阶段,浅层的词嵌入模型主要利用当前词及之前的词信息进行训练,只考虑文本局部信息,未能有效利用文本整体信息[14] 。BERT于2018由Devlin等[15]提出,模型采用表义能力更强的双向Transformer网络结构来对语料进行训练,实现预训练的深度双向表示。BERT模型的“掩盖语言模型机制”(masked language model,MLM)可以融合当前词左右两侧的语境。BERT模型还通过“下一句预测机制”(next sentence prediction,NSP)捕捉句子级别的表示,获得语义丰富的高质量特征表示向量。BERT已经在命名实体识别[16]、文本分类[17] 、机器翻译[18]等任务中取得了显著的成绩。

但是BERT模型含有上亿参数,模型训练容易受到硬件内存的限制。ALBERT模型[19]是基于BERT模型的一种轻量级预训练语言模型,与BERT模型均采用双向Transformer编码器获取文本的特征表示,其模型结构如图1所示。ALBERT的参数量只有原始BERT模型的10%,但是保留了BERT模型的精度。

ALBERT采用两种方法降低参数量。第一个方法通过嵌入层参数因式分解(factorized embedding parameterization),将大的词汇嵌入矩阵分解为两个小的矩阵,从而将隐藏层的大小与词汇嵌入的大小分离开来。第二个方法是跨层参数共享(cross-layer parameter sharing),通过模型神经层参数共享,显著地降低了模型的参数量,同时不对其性能造成明显影响。