查看原文
其他

【研究方法】还用三步法?KHB方法:最新的中介分析检验方法

区域经济 2022-12-31

编者按:本期推送的是Kohler, Karlson和Holm于2011年发表在The Stata Journal的文章Comparing coefficients of nested nonlinear probability models上篇。以往的中介分析方法多用于线性回归模型,而由于测量尺度的问题,很多方法无法应用到非线性回归模型。这篇文章介绍了可以对非线性回归模型进行中介分析检验的KHB方法以及在stata中的具体操作。这一方法由karson, Holm和 Breen开发,不仅可用于一个自变量和一个中介变量的情况,而且适用于多个自变量、多个中介变量、多分类因变量等情况。

1引言
社会学家通常对通过比较嵌套线性回归模型的估计系数来分析的研究问题感兴趣。在这篇文章中,作者使用的一个例子是将总效果分解为直接效果和间接效果。在社会流动的研究中,社会学家分析了父母的职业地位如何影响其子女的职业地位。一般认为,父母职业地位的总体效应通过影响子女的受教育程度间接发挥作用,而更直接地作用则是通过继承及经济资本或社会资本。而政治学家试图弄清楚长期政党认同对投票决定的影响有多少是由短期问题和候选人取向所介导的。在主观幸福感研究中,经济学家一再提出这样一个问题:失业的负面影响在多大程度上可以用失业造成的收入损失来解释。在线性回归模型的背景下,对估计系数的比较——以及因此将总效应分解为直接效应和间接效应——是直接了当的。这一方法非常常见,常被用于广义线性模型。然而,比较嵌套的非线性概率模型并不像线性模型那样简单。在嵌套的非线性概率模型中,不受控制的(变量)系数和受控制的(变量)系数可以不同;加入的中介变量变量,无论是否与自变量相关,都会改变自变量的系数。针对交叉模型(ross-model)系数可比性问题,目前学者们已提出了几种解决方案,包括因变量标准化、使用平均局部效应、二元相应模型的分解法。然而,Karlson、Holm和Breen(2010)以及 Karlson和Holm(2011)提出的蒙特卡罗研究表明,Karlson、Holm和Breen 提出的KHB方法与以上方法一样好,甚至是更好。此外,KHB方法可以分解离散变量和连续变量的影响,可以扩展以适应平均偏影响,提供分析推导的统计检验,并且计算简单直观。事实上,KHB方法将线性模型的可分解性扩展到非线性概率模型。2

KHB方法

KHB方法可以适用于多种情况,如:一个自变量和一个中介变量、多个自变量和多个中介变量;regression, logit, ologit, probit, oprobit, cloglog, slogit, scobit, rologit, clogit, mlogit, xtlogit或xtprobit等模型都可以使用,其他模型也可能输出结果,但可能是实验性的。KHB方法的命令是:model-type是模型类型,如reg、logit、probit等等,depvar是因变量,key-vars是自变量,z-vars是中介变量。
Concomitant(varlist)指定控制变量不是中介变量,允许因子变量。Disentangle请求一个表,该表显示每个控制变量提供的完整模型(总效应)和简化模型(直接效应)之间的差异有多大。Summary请求所有自变量的分解情况。默认情况下,khb报告完整模型和简化模型的效果、它们的差异以及它们的标准误。通过Summary选项,khb还提供了一个表,显示混淆比率(confounding ratios)、由于混杂而减少的百分比和缩放因子(rescale factor)。
3 具体操作
在这一部分,作者将通过教育社会学的例子展示KHB方法在stata中的具体操作。继Boudon(1974)之后,该领域的研究人员关注社会起源影响教育成就的两种方式,即“主要”和“次要”效应(“primary” and “secondary” effects)。在范例中,次要效应指的是直接效应,即社会出身对受教育程度和在校表现的影响;主要效应是间接效应,即社会出身和受教育程度之间的那部分关系是由于在校表现造成的。在应用程序中,作者使用了丹麦国家纵向调查(DLSY)的子数据。该数据包含了1896个于1954年出生的个体,这些人第一次接受采访是在七年级,从那时起一致被跟踪到2000年左右。其中包括大学毕业(univ)、父母社会地位(fses)和学术能力(abil)等信息,Fses和abil被标准化为零均值和单位方差。利用khb命令,将父母社会地位对大学毕业的总体影响分解为直接影响部分和间接影响部分。(一)基本应用:一个关键自变量和一个中介变量khb的语法需要四个元素模型类型、因变量、被分解的变量关键变量和中介变量。在示例中,因变量是大学毕业率(univ)。这个变量是二分类的,所以选择logit作为模型类型,尽管也可以选择probit或其他二进制响应模型。我们分解了父母社会地位(fses)对大学毕业(univ)的影响,使用学术能力(abil)作为中介。为了将关键变量与中介分离,语法需要两个管道符号||。除了这些必需的元素之外,该命令还具有concomitant()选项,它允许在完整模型和简化模型中添加受控变量。在例子中,使用这个选项来控制性别(boy)和完整家庭(intact)。

输出显示了简化(Reduced)模型的估计效果、完整(Full)模型的估计效果以及两者的估计差异(Diff)。对于指导性例子,作者把简化模型的估计效应称为总效应,把完整模型的估计效应称为直接效应,把估计的差异称为间接效应。我们发现,父母的社会地位会使完成大学学业的几率增加0.55。在控制学业能力的情况下,父母社会地位的影响降低到0.38,留下了0.16的间接影响。
KHB方法确保在相同的尺度上测量出系数(因此不受前面描述的尺度识别问题的影响)。然而,logit系数的大小通常很难解释,因为它们是用“任意”的尺度来衡量的。这同样适用于对总体、直接和间接影响的解释。Karlson, Holm和 Breen(2010)提出了混杂比和混杂百分比来克服这些问题。两种测量都可以很容易地从标准输出khb计算;但是,summary选项直接提供信息。在下面的命令中,使用summary和notable来节省空间:
上表说明,总效应是直接效应的1.4倍,总效应的30%来自于学术能力。
(二)比较平均局部效应(average partial effects) 平均部分效应经常用于报告logit和probit模型的效应,因为它们在概率尺度上的自然解释。然而,Karlson, Holm和Breen(2010)的研究表明,在实际应用中遇到的一系列场景中,简单地比较有或没有混杂因子模型的平均部分效应可能会失真。因此,平均部分效应可能不适用于效应的分解。应用KHB方法来平均部分效应解决了这个问题。这是该方法的吸引力之一,因为平均部分效应比logit和probit 模型的估计系数更具可解释性。因此 khb有ape 选项,它要求对平均部分效应应用KHB方法:
平均而言,父亲的社会经济地位的标准差变化会使年轻人完成大学学业的概率增加3.9个百分点。在对学术能力进行控制后,平均增幅降至2.7个百分点。父母社会地位的提高会导致更高的学术能力,进而转化为更高的1.1个百分点的大学毕业概率。尽管估计表中显示的值可能更容易解释,但汇总表中的混杂比和混杂百分比始终等于根据回归系数确定的混杂比和混杂百分比。


(三)多个中介变量,理清每个中介变量的贡献如果使用了不止一个中介变量,那么问题就来了:哪一个中介变量的贡献最大。这时,可以使用disentangle选项回答这个问题。该选项请求一个额外的表,该表分别显示每个中介的贡献。在下面的例子中,作者将abil、intact和boy作为中介变量,将disentangle与summary和notable组合起来:
下面的表的前两列显示了每个中介的效应差异(间接效应)及其标准误。第一列的值之和为0.199,即所有中介因子的总体混杂(即间接效应之和)。第三列表示每个中介对间接效应的贡献,最后一列显示有多少总效应是由于各自的中介混淆,最后一列加起来是34.24,即总体混杂百分比。研究结果显示,学业能力(abil)的中介作用程度远大于性别(boy)和完整家庭(intact)。(四)多个关键自变量在KHB命令中,要分解的变量称为关键自变量。在同一个命令中可以有多个关键自变量。在这种情况下,该命令在一个输出中显示所有关键自变量的分解。当指定多个关键自变量时,我们必须分解每个关键自变量,同时控制所有其他变量。在下面的例子中,以学业能力(abil)为中介,对boy和intact两个关键自变量的影响进行分解。对于boy的效应分解,在完整模型和简化模型中均控制intact。同样地,对于intact的效应分解,boy在两个方程中都受到控制。结果表明,与拥有一个完整的家庭(intact)相比,学业能力对性别与大学毕业之间关系的影响更强。(五)分类变量可以使用因子变量表示法指定分类关键变量和伴随变量。下面的例子使用学术能力的分类版本(catabil)作为中介变量,分解了分类自变量fgroup的影响,这是一个离散的社会阶层测量。(六)因变量为多类有序变量对多类有序因变量的关键自变量分解可以通过指定一个有序选择模型(如ologit或oprobit)作为模型类型来完成。然而,在为这些模型使用ape选项时必须小心。有序选择模型的一个众所周知的特征是平均部分效应在结果中不是恒定的。带有ape选项的khb的默认值显示了使用对最低结果概率的平均部分效应的分解,但这可以使用outcome()选项进行更改。例如,使用变量edu作为因变量,这是一个测量教育成就的三级有序离散变量:现在,使用ape执行分解,并总结每个结果的选项,并使用Ben Jann的命令esttab将结果显示在一个表中:对总体、直接和间接影响的估计因结果而异。然而,所有的混杂比和混杂百分比均等于回归系数分解后的混杂比和混杂百分比。因此,如果研究人员对相关的测量方法感兴趣,那么把ape的选项包括进来几乎没有什么好处。这个特性说明了KHB方法的通用性。(七)因变量为多类无序变量我们现在把有序变量edu当作多类无序变量来说明khb是如何与多项逻辑回归相配合的。基本命令和前面一样简单:只需将模型类型更改为mlogit。如上表所述,使用多项回归的基本结果,只对因变量的一个结果进行分解。在例子中,khb显示了属于第一类edu(义务教育)而不是第二类edu(高中)的对数概率分解。默认情况下,khb继承mlogit的默认设置,以最常见的结果为基本结果。这可以通过baseoutcome(#)选项进行更改。结果的默认设置是最低级别,可以使用outcome()选项更改结果。下面,将应用这两个选项来显示教育级别为2或3而不是1的分解情况。再次利用Ben Jann的esttab命令在单个表中显示结果。
总结khb程序非常普遍,它是为了配合各种标准Stata估计命令而编写的。在这篇文章中,作者只进行了khb关于logit, ologit, probit, oprobit, cloglog, slogit, scobit, rologit, clogit,mlogit,xtprobit等回归模型的测试。其他模型也可能可以输出,但该输出暂时应被认为是实验性的,这种模型的实验状态由输出中的注释表示(如glm)。

作为其通用性的一个副作用,该程序不会为任何可能赤岸的情况提供合理的错误消息。用户应该意识到,如果估计完整模型和简化模型的中间步骤返回错误,khb不能提供任何输出。此外,khb继承了执行这些中间步骤时出现的所有问题。因此,研究这些中间步骤是明智的。KHB提供了两种方法:verbose选项显示了在评估完整和简化模型的中间步骤中产生的输出。如果khb返回不清楚的错误消息,并检测诸如高分辨力或完美的多重共线性等问题,这是有帮助的。keep选项存储(3)的残差。这对希望对简化模型进行特定诊断的用户很有帮助。KHB方法解决了嵌套非线性回归模型之间比较效果的一般问题,因此它将在许多应用中有用。该方法可以在非线性模型的效应差异解释和线性模型的解释之间进行完全的类比。





文献来源:Kohler, U., Karlson, KB & Holm, A. Comparing coefficients of nested nonlinear probability models. The Stata Journal, 2011, 11(3):420-438.


本文转载自微信公众号“社论前沿”。免责申明:本文仅用于学术交流,版权归原作者和原发刊所有,转载请注明出处。如果我们的行为侵犯了您的权益,请及时联系我们,我们将会妥善处理该部分内容。
欢迎关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存