核心提示:最新的研究成果,本论文的主要观点为中文分词技术目前存在的一个问题是针对特定领域未登录词识别效率较低的问题。建筑类文本分词由于受到专业本身词语
最新的研究成果,本论文的主要观点为中文分词技术目前存在的一个问题是针对特定领域未登录词识别效率较低的问题。建筑类文本分词由于受到专业本身词语的特点等限制,分词时对未登录词的识别效果不太好。提出一种非监督的基于改进算法与邻接熵结合的方法来进行未登录词的识别。首先通过算法对文本间相互依赖值比较大的字串进行识别,然后通过停用词表和语料库进行筛选过滤得到候选词典,计算候选词典之间的邻接熵,设定阈值确定最后的未登录词,最后将识别的未登录词作为加入到专业词典进行分词。通过实验证明建筑领域文本在使用提出的算法时对于未登录词有较好的识别效果,准确率较算法提高了15。92%,召回率提高了7。61%,因此最终的分词效果在准确率和召回率分别可达到82。15%、80。45%。不知是否符合录用要求,望您批评与指正。