首页 » 职称论文 » 教育 » 正文
语料库中的显化和隐化现象
更新日期:2022-03-08     浏览次数:169
核心提示:为了尽量确保词汇对齐的精度,本研究使用了较为细粒度的分词标准,最终将21105字的中文原文分词得到13700词。为了保证平行语料库整体分句的合理性,以

为了尽量确保词汇对齐的精度,本研究使用了较为细粒度的分词标准,最终21105字的中文原文分词得到13700词。为了保证平行语料库整体分句的合理性,以汉语标点符号为主要依据,同时考虑了英文译文的标点符号分句,将汉语原文分为1117个句子(包括章节题目),并以中文分句为标准,对四个译本分别进行了对应的句子划分,使每篇译文都被相应地划分为1117句,且每句译文都汉语原文一一对应。最后,所有语料均经过人工整理和检查,确保分句对应无误。

在语料库的构建及分析环节,本研究使用的主要工具是基于Python 3.7的自然语言处理工具包NLTK模块(Natural Language Toolkit)。NLTK是自然语言处理领域的常用工具之一,功能十分强大,可应用于自然语言的词性标注、词干提取、语义分析、机器翻译等方面。本研究主要使用NLTK工具包内的AlignedSent工具对汉语原文和四个英译文分别构建句级平行语料库,并使用IBM模型进行词汇对齐。IBM模型是20世纪90年代由IBM公司提出的统计机器翻译模型(Brown et al.1993Koehn, 2009),是基于统计方法的机器翻译中的经典模型,也是基于词汇的统计机器翻译系统的基础,实际包含5个复杂度依次递增的统计翻译模型。