基于统计学的离群点检测方法中假设数据集中的正常数据对象由一个统计模型产生,如果某数据不符合该统计模型,则该数据对象是离群点,在基于统计学的离群点检测过程中一般先设定数据集的分布模型如正态分布,波松分布和二项式分布等,然后根据模型进行不和谐检测。
不和谐检测通常会使用数据统计性描述方法,数据的描述性统计中数据的集中趋势度量和散布度量是鉴别异常数据的重要指标。
(一)数据的中心趋势度量
中心趋势在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。中心区度量就是寻找数据水平的代表值或中心值,常用的中心趋势度量包括均值、中位、众数和中列数等。