2 命名实体识别的研究方法
早期用来命名实体识别的方法主要是基于规则的方法和基于字典的方法,但随着语料的增加制定的规则也将越来越繁琐,使用基于规则的方法和基于字典的方法就会过于费时费力。随着大数据时代的到来,如HMM、SVM和CRF等传统的机器学习方法也被学者用于命名实体识别的任务上,到后期的深度学习方法,将神经网络模型引入进行命名实体识别和近期开始将注意力机制和迁移学习应用其中,命名实体识别的发展正受到了各方面的持续关注。
2.1 基于词典和规则的方法
在正式提出命名实体概念后,早期的研究主要是采用规则和字典的方法[6]。基于规则的方法和基于字典的方法都是要构建大量的规则集或字典,然后按照需求将需要识别的汉字串放入制定的规则集中或与所构建的字典进行匹配,经过多次修正直到匹配成功。但这种方法只能在小数据集上得到很好的准确率,而随着数据集中数据的增加这种方式变得不再适用。
由于使用基于词典和规则的方法进行命名实体识别存在限制,它只能在特定的语料上识别能够得到很高的准确度,这样随着需要识别的实体多样化就需要制定更多的规则和更大的词典,这样的工作也会越来越重和越来越复杂。而随着机器学习的发展,在进行命名实体识别的任务时也开始考虑基于统计机器学习的方法。