2.1 实验算法选择
目前主要的聚类算法有基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网络的聚类方法、基于模型的聚类算法、基于模糊的聚类算法等[24]。
基于划分聚类算法原理是“类内的点都足够近,类间的点都足够远”。首先需要确定数据簇数,之后选取初始中心点,然后依据预先定好的启发式算法给数据点做迭代重置,直到到达期待的聚类效果。k-means是基于划分的聚类算法中应用非常广泛的一种算法。
基于层次的聚类算法主要有两种类型,合并的层次聚类和分裂的层次聚类。层次聚类算法可解释性好,善于处理k-means不能解决的非球形数据聚类。该类算法中较先进的算法有BIRCH、 ROCK[25]等。
基于密度的聚类方法可以系统解决基于划分的聚类算法处理不了的不规则形状聚类。同时,基于密度的聚类方法对噪声数据的处理也具有较好效果。DBSCAN是该类算法中的典型,对于分布较为复杂的聚类情况,该算法体现出更好的聚类效果。