2.1 变量相关性分析
通过Scale(Z-score)的方法对数据进行标准化后,使不同数据来源、不同量级的数据转化到统一的范围之内,以减少规模、特征和分布差异等对数据分析和模型的影响。在此基础上,使用Pandas库中scatter_matrix()函数绘制标准化数据的散点矩阵图,如图1所示。按公式(1)计算数据集所有变量之间的相关性,结果显示各变量间的方差膨胀系数(VIF)均小于5,各特征指标之间相关性较弱,均可作为分析变量。
由于数据中存在着“离散点”,为了避免少数离散数据导致整体特征的偏移,通过figure( )函数绘制数据的箱型图(Box-plot),进行t test双边检验后,将P值标记于箱型图上,如图2所示。探讨结果显示,九三管理局和绥化地区大豆中的矿物质元素和脂肪酸含量数据的分布特征中除了铜(Cu)和锶(Sr)指标差异较小,其他指标P值均小于0.05,差异明显,初步判定可以利用矿物质元素和脂肪酸数据建立“九三大豆”产地鉴别模型。