提高文本的语义表示来提升聚类效果

2 相关研究

文本聚类主要有两个研究方向：通过改进聚类算法提高聚类质量；通过提高文本的语义表示来提升聚类效果。

常用的文本聚类算法包括：基于划分的（如K-means算法^[9]）、基于密度的（如DBSCAN算法^[10]）和基于层次的（如BIRCH算法^[11]）。K-means是一种广泛使用的聚类算法，其中一个聚类中心与该聚类的其他数据点之间的距离平方和被最小化，以获得给定数据集的最佳数据划分^[9]。MiniBatch K-means ^[12]是标准K-means算法的一种变体，它是处理大数据集的算法，使用MiniBatch来优化目标函数。在训练时从完整数据集中随机抽取子集以减少计算时间。MiniBatch K-means 的收敛速度比K-means快。凝聚聚类（Agglomerative clustering）是一种自下而上的层次聚类方法^[13]，所有凝聚层次聚类算法都以每个对象作为一个单独的组开始。这些组基于相似性依次组合，直到只剩下一个组或满足指定的终止条件。对于n个对象，完成n-1次合并。