层次聚类分析
利用层次聚类算法对多模态过程数据的聚类分析步骤如下:
1) 选取一定长度的窗口对数据进行分割,每个分割窗口按时间方向顺次排列,将每个窗口数据看作一类;
2) 计算两两类别之间的相对熵;
3) 将相对熵最小的两个类合并为同一类;
4) 重复2)、3),直到数据被分成预设的类别数。
经典的凝聚型层次聚类将每个数据样本看作是一类,通过计算两两之间的欧式距离,将距离最近的类合并。其中类与类的距离计算方法有最短距离法,最长距离法和平均距离法等。直接将此运用于模态划分时无法处理过程数据奇异点对聚类结果的影响。本文将每个窗口数据看作一类求取两两之间的相对熵可以缓解过程数据奇异点对聚类结果的影响。且不同模态的数据也有可能距离较近,利用欧式距离进行聚类很有可能得到错误的结果。相对熵作为一种度量数据分布的指标更适用于模态划分。此外层次聚类相较于常用的K-means聚类、K最近邻等算法,因为窗口数据之间的相似性完全基于局部动态特性,同模态相邻窗口几乎具有相同的数据分布,因此层次聚类算法的结果被期望以时间顺序显示,更适用于过程时间序列数据的模态划分,可以有效实现模态的初步划分。