目前国内外对施工现场的数据采集手段分为两种,基于人工定期采集数据的方法和基于传感设备采集数据的方法。随着智慧工地在建设工程中的应用,愈发突显出前者监管手段单一、管理效率低的弊端,施工现场对于扬尘和噪声的监管手段开始倾向于后者。但是,在监管手段变得自动化的过程中,也出现许多新问题:第一,数据时效性强。传感器采集的数据一般为短时间内产生的海量实时数据,这些数据以时序数据的形式储存,数据量大且时效性强;第二,数据质量差。施工现场由于人为、环境和设备故障等问题,采集的数据往往存在各类异常情况。针对这些新问题,急需一种适用于建设工程领域数据且时间复杂度低的时序数据异常检测模型,以提高数据质量,完善监管手段。
时间序列(Times Series)异常检测广泛应用于各个特定领域,例如工业界设备检测[5][6][7]、网络安全[8][9][10]、医学诊断[11][12]等场景。不同应用场景的数据特点不同,因此需要选用适配的检测方法。数据异常检测研究主要包含两方面的内容:异常数据特征的定义和异常检测的方法手段研究。国内外异常检测方法种类根据基本检测原理大致可以分为四种,即基于统计[13]、距离[14][15]、密度[16]、分类[17]的异常检测。基于统计的异常检测方法,假设待检数据服从于某种分布,然后用数据集去拟合分布模型,将明显不符合拟合模型的数据判断为可能的异常数据。