大数据中的数学问题
更新日期:2018-05-04     来源:北京工业大学学报   浏览次数:208
核心提示:第四章数学方法总结4.1对趋势预测法的总结针对于胡慧敏等人的论文中运用的趋势预测法,从结果上与实际的数据相差较多,主要原因为在模型预测的方法选

第四章 数学方法总结
4.1 对趋势预测法的总结
针对于胡慧敏等人的论文中运用的趋势预测法,从结果上与实际的数据相差较多,主要原因为在模型预测的方法选择上、数据的处理上、考虑包括的自变量上以及模型变量的检测上都与崔东佳等人的论文存在着差距。对于趋势预测法,优点是操作简单,图像直接,在定性上分析有很大的优势。但是缺点是在定量的分析上,准确度还有待提高。

4.2对回归模型的总结
通过对比崔东佳和李世祥以及张洪潮等人的论文我们发现,共同点是,三篇论文在大数据的背景下,通过之前几年的数据,大体上确定了相关变量(解释变量)和被解释变量存在某种关系,通过之前的数据建立回归模型,确定了关系程度,最后根据相应的相关系数,进行验证并得出结论。
而不同点是,崔东佳等人的论文首先是求得了不同品牌车的一个合成的指数,然后集中讨论主要的指数对各种不同品牌汽车销量的影响,最后得到论文所求的合成指数可以预测汽车的销量,不过三种汽车的预测模型的预测效果并不相同。而李世祥等人的论文却选取了多个解释变量,同时分析多个变量对被解释变量(煤炭需求)之间的关系,比如GDP,煤炭批发价格、石油批发价格、钢铁生产指数、电力生产指数(除去水力发电后的指数)、建筑材料生产指数,通过最后相关系数的比较最终排除了无关变量,即价格对煤炭需求的影响。而张洪潮等人的论文则是利用波动性原理,利用BP技术对前几年的数据进行分析,然后通过建立回归模型和比较波动性曲线得到影响煤炭需求的因素。
相比之下,崔东佳等人的论文运用的回归模型侧重于根据自己合成的指数来进行预测分析,而李世祥等人的论文则是侧重根据可能有关的变量求解与被解释变量的相关程度,排除无关的变量。而张洪潮等人的论文则是利用回归模型和波动性曲线的对比,得到可能的解释变量。
4.3对云计算的总结
关于云计算,实际上这是一种基于海量数据处理的计算方法,在医疗、生物等诸多领域应用广泛。从Google 成功预测HINI 爆发开始,人们越来越希望能够通过大数据更加准确地预测疾病。论文针对传统的Apriori算法 给出了改进的方式,试图减少算法的时间复杂度,同时将强关联的数据修正,最后达到简化算法同时提高精度的作用。
作者:施昱亮