摘要
数据分析在国外早就广泛应用于各个领域,很多国家拥有专业的数据分析人员。而在我国数据分析行业才开始久,和西方国家的差距较大。
专业数据分析的方法有Spss等方法,数据分析也主要用在大城市和一些较大项目的预算、评估上。Spss软件是最早的专业分析软件之一,分析结果直观、清晰、可以直接读取DBF及EXCEL数据文件。
本文通过对某高校50名学生一周内的通话数据进行分析、处理,并建立K-means聚类模型,利用SPSS软件进行仿真。通过类比和仿真,找出影响通话数据的各种因素。
关键词:数据分析,K-means聚类模型,SPSS1、国内外研究现状
数据分析早就在海外就被普遍应用于各个领域,并且有很多国家创立了相应的行业组织和管理机构,拥有相对专业的数据分析职员,而在我国数据分析行业才算进入成长阶段。在2003年末工信部电子行业职业技能鉴定指导中心才算正式设立了“项目数据分析师”培训项目,从此我国才算正式拥有数据分析这个产业。现通过对SPSS软件使用方法的掌握与应用,不仅充分发挥SPSS软件对数据的统计功能和分析功能,而且缩短了工作时间,减少了工作成本。
2、数据分析的意义和目的和对人类生活的重要意义
数据分析的主要目的是把大量的信息集中、萃取和提炼,以找出所研究对象的内在规律。例如开普勒找出了行星运动规律,是通过记录分析行星角位置的观测数据所得到的。一个企业的领导人要通过市场调研,分析得到的数据以判断市场的动向,从而制定合适的生产方式及销售计划。因此数据分析在人类生活中的应用范围十分广泛。
3、本文的主要研究内容
详细记录并采集某高校全班同学最近一周的通信数据,对零散的数据进行整理,并运用SPSS软件进行聚类分析。主要采集最近一周的通信数据,进行统计归纳,并运用SPSS软件对采集到的数据进行分析。
4、收集数据、建立模型
采集某高校50位同学最近一周的通话记录信息,整理后作为本次实验的主要数据。我们假设这最近一周的时间段的选择是随机的不确定的,并没有特指是哪一个月的哪一周,而是某一月的连续七天。即本次实验这50人随机一周的通话数据能够代表他们平时的通话信息量,因此得到的数据具有可靠性。
所谓的动态聚类法是:选择一批或一个初始的分类,让实验数据按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。
作者:杜豪杰 杨光