定性数据分析及研究——基于logistic模型

[摘要]在当前社会科学调研中，由于多种原因无法直接获得定量数据，导致许多问题很难通过定量分析途径加以解决。因此学者们往往在调查问卷中使用五分法，七分法等方法将定性变量进行量化，并以此进行数理分析。但有些研究往往仅通过对变量的量化数值直接进行简单相加减或利用统计分析软件做线性回归等方法对数据进行分析的出结论，而忽略了其中存在的一些不合理性。这些可能导致研究者无法客观地分析所要研究的自变量对因变量影响程度。针对上述问题，本文通过建立Multionmial Logistic模型以及Ordered Logistic模型，通过最大似然估计法求解模型中的未知参数，对定性调查量表（无等级和有等级）中的量化的定性变量数据进行分析，从而比较客观地说明了自变量对因变量的影响程度。
[关键字]Logistic模型定性变量最大似然估计数据
管理学、心理学等社会科学在进行测量与评价研究中，主要采用主观评价与客观评价两类方法：主观评价法强调管理层对事实的主观感知；客观评价法注重事实的客观状态。Buenoetal.,(2010)对前期文献总结后认为：大量前期研究已经证实在企业绩效测评方面，主观测评得到的数据与客观评测得到的数据之间存在着高度的相关性，因此无论主观评测还是客观评测企业绩效都是有效的方法。随着社会科学的发展，人们也越来越重视其中数据的真实性以及数据分析中的客观性和严谨性。但在众多的关于社会科学的研究的调研中进行客观测评具有一定的难度，因此在许多的研究中，往往采用五分法，七分法等主观测评方法将所要研究的定性数据进行量化采集。但是在进行数据分析时将定性变量数据进行简单运算而试图得到所要研究的自变量与因变量之间的关系往往存在诸多困难性与不合理性。例如何晓群[1]在多元统计分析中指出了当研究某一社会现象发生概率的大小与那些因素有关时直接处理数值存在的困难性。同时若收集到的数据具有等级（如伦晓波[2]等人研究创新环境对企业创新水平影响时将5定义为增加、4定义为稍增加、3定义为持平、2定义为稍减少、1定义为减少）直接进行数据相加减具有显然的不合理性。Logistic回归作为分类结果变量的最重要的模型[3]，由于Logistic变换的非线性特征使得在估计模型的时候采用最大似然估计的迭代方法而不是离差平方和的方法，找到“最可能”的估计[4]，简化了计算量且大大减少了数据分析难度和不合理性，且只需知道一件事情是否发生，然后建立其与解释变量之间的模型即可预测事件发生与不发生的概率等优点使得其在社会科学研究等领域得到越来越广泛地应用。但是在众多介绍或应用Logistic模型的论文、书籍中对Logistic模型建立以及求解过程介绍的不够详细、完整，例如王霞，吕德宏[5]在研究农户信用等级影响因素中，在建立Ordered Logistic模型之后并没有阐述模型的求解原理。本文通过建立Multionmial Logistic模型以及Ordered Logistic模型，并详细阐述了模型中参数求解方法，旨在分析不同情境下，进行社会科学研究时所收集的定性变量数据中自变量对因变量的影响程度。
作者：王照杰