网云平台数据压缩存档技术的研究
更新日期:2018-06-05     来源:微电子学与计算机   浏览次数:222
核心提示:摘要:随着电网云平台上运行的应用系统越来越多,并产生大量实时或管理的有效数据,同一实时应用系统相邻时刻采集的有效数据之间存在很多数据项的相同

摘要: 随着电网云平台上运行的应用系统越来越多,并产生大量实时或管理的有效数据,同一实时应用系统相邻时刻采集的有效数据之间存在很多数据项的相同或相近。针对电网云平台内数据项冗余多和数据存储空间占用大的问题,在常用数据压缩存档技术的基础之上,提出了一种先对电网云平台有效数据项进行分块,接着从中选取多个数据块,对这些数据块中的记录进行分类和重组,最后用霍夫曼编码对重组后的数据进行压缩的方法。实验证明,该方法具有快速获得较好的压缩比的特点。

关键词: 电网云平台;分块;分类;重组;霍夫曼编码
1、 引言
随着云计算技术在国家电网公司的深入应用,在电网云平台上运行的应用系统越来越多,并建立了各级电网数据中心,每天产生大量实时和管理数据,但电网云平台内对数据的存储空间占用大、冗余失效数据多等问题并没有有效的解决方案。针对当前国家电网公司业务发展需求,未来数据将迎来更大的量值,对存储的压力更大,需要花费高昂的代价购置更多存储设备。
数据压缩可以保证在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率。数据压缩分为有损压缩和无损压缩。有损压缩方法利用了人类视觉、听觉对图像、声音中的某些频率成分不敏感的特性,允许压缩的过程中损失一定的信息,被广泛应用于语音、图像和视频数据的压缩,常见的算法主要有数据拟合、线条插值等。电网云平台上有效数据的压缩存档与恢复必须保证数据的正确性和完备性,故不适合应用有损压缩的相关知识。无损压缩是利用数据的统计冗余进行压缩,压缩比一般比较低,被广泛应用于文本数据、程序和特殊应用场合的图像数据等需要精确存储数据的压缩,常见的算法有霍夫曼编码[1]、算数编码和字典编码等,适合本问题的研究。但电网云平台有效数据记录之间存在大量相同的数据项,直接对其进行压缩,效果较差。因此,先对原始数据进行分块、分类和重组,再用无损压缩的方法对数据进行压缩存档。

2、 基本原理
电网云平台上的应用系统每日的数据量巨大,同一个数据表中的同一列数据之间可能存在相同或相近的现象。可以将整表分块,然后将这些块间的记录分类、重组。在重组的过程中,将记录中相同或相近的数据项消除,保留下来不相同或相近的数据项。重组后的数据用霍夫曼编码进行压缩处理。
2.1 数据分块、分类和重组
在分块的过程中,每块含有的记录数应相同。当数据量一定时,块记录数越多表示数据被分成的块数越少;块记录数越少表示数据被分成的块数越多。每块含有的记录数(也就是数据被分块的块数)会影响程序的运行速度和试验的处理结果,故先通过试验确定合适的分块数即每块含有的记录数。
作者:王映康