语料库中的显化和隐化现象

为了尽量确保词汇对齐的精度，本研究使用了较为细粒度的分词标准，最终将21105字的中文原文分词得到13700词。为了保证平行语料库整体分句的合理性，以汉语标点符号为主要依据，同时考虑了英文译文的标点符号分句，将汉语原文分为1117个句子（包括章节题目），并以中文分句为标准，对四个译本分别进行了对应的句子划分，使每篇译文都被相应地划分为1117句，且每句译文都与汉语原文一一对应。最后，所有语料均经过人工整理和检查，确保分句对应无误。

在语料库的构建及分析环节，本研究使用的主要工具是基于Python 3.7的自然语言处理工具包NLTK模块（Natural Language Toolkit）。NLTK是自然语言处理领域的常用工具之一，功能十分强大，可应用于自然语言的词性标注、词干提取、语义分析、机器翻译等方面。本研究主要使用NLTK工具包内的AlignedSent工具对汉语原文和四个英语译文分别构建句级平行语料库，并使用IBM模型进行词汇对齐。IBM模型是20世纪90年代由IBM公司提出的统计机器翻译模型（Brown et al.，1993；Koehn, 2009），是基于统计方法的机器翻译中的经典模型，也是基于词汇的统计机器翻译系统的基础，实际包含5个复杂度依次递增的统计翻译模型。