中文地名识别方法

1. 中文地名识别方法

1.1 BERT与ALBERT预训练模型

预训练模型为神经网络提供了一个更好的初始化参数，加速神经网络收敛并在目标任务上具备更好的泛化能力。预训练模型的发展分为浅层的词嵌入与深层编码两个阶段，浅层的词嵌入模型主要利用当前词及之前的词信息进行训练，只考虑文本局部信息，未能有效利用文本整体信息^[14] 。BERT于2018由Devlin等^[15]提出，模型采用表义能力更强的双向Transformer网络结构来对语料进行训练，实现预训练的深度双向表示。BERT模型的“掩盖语言模型机制”（masked language model，MLM）可以融合当前词左右两侧的语境。BERT模型还通过“下一句预测机制”（next sentence prediction，NSP）捕捉句子级别的表示，获得语义丰富的高质量特征表示向量。BERT已经在命名实体识别^[16]、文本分类^[17] 、机器翻译^[18]等任务中取得了显著的成绩。

但是BERT模型含有上亿参数，模型训练容易受到硬件内存的限制。ALBERT模型^[19]是基于BERT模型的一种轻量级预训练语言模型，与BERT模型均采用双向Transformer编码器获取文本的特征表示，其模型结构如图1所示。ALBERT的参数量只有原始BERT模型的10%，但是保留了BERT模型的精度。

ALBERT采用两种方法降低参数量。第一个方法通过嵌入层参数因式分解（factorized embedding parameterization），将大的词汇嵌入矩阵分解为两个小的矩阵，从而将隐藏层的大小与词汇嵌入的大小分离开来。第二个方法是跨层参数共享（cross-layer parameter sharing），通过模型神经层参数共享，显著地降低了模型的参数量，同时不对其性能造成明显影响。