构建统计模型来计算谓词出现的概率

1相关研究

在中文自然语言处理领域，对于中文谓语中心词识别的研究工作很少。现有工作主要是采用基于规则、基于统计学习和规则与统计相结合的方法[1]。

通过规则的方法来判断。李[3]等人利用句子的主语和谓语之间的句法关系来识别谓语中心词。该方法在特征的应用过程中相对复杂，计算量较大，对于一些特殊的句型可能产生错误的结果。穗等人[4][5]第一次提出了一种汉语句子分析方法-骨架依存分析法，其利用句子级对齐的双语语料库中英汉谓语中心词的对应来寻找汉语句子中唯一的谓语中心词。但是只是对例句集中的汉语单句识别了谓语中心词。

通过对语料库中句子的谓词所处上下文环境进行分析，选择影响谓词出现的语境特征，然后构建统计模型来计算谓词出现的概率，识别汉语句子的谓词。陈等人[7]采用统计的方法对语料来识别核心谓语。汪等人[8]通过组合谓语动词的多个特征，并使用最大熵分类器对谓语中心词自动识别。在规则与统计学习相结合的方法中，龚等人[9]将整个过程分为语片捆绑、谓语粗筛选和谓语精筛选三个阶段，利用特征学习的方法，有效解决了规则的不完备和特征重要度排序的问题。