降低文本的特征空间的维度

2.2 数据处理

对项目概述的数据首先进行了分词、去除停用词、保留特定词、替换同义词、词形还原等清洗操作。之后，采用向量空间模型（VSM）[18]对文本进行表示。为了避免维数灾害给文本分类器带来的负担以及对聚类结果造成的干扰，需要降低文本的特征空间的维度，本文使用TF-IDF算法[19]度量信息重要性，从而选取文本中代表性较高的词语作为特征项，即特征提取。最后采用LDA( Latent Dirichlet Allocation) 模型对数据进行主题聚类分析，LDA是目前较为流行和成熟的文本主题挖掘模型，其本质上是一个包括主语、文档和主题三层贝叶斯模型，完全基于贝叶斯推理机制，具有较好的知识解释能力，主题模型适用于大规模文本集，其参数空间规模是固定的，不受文本集规模影响[20-21]。