回归模型中的交互项简介(Interactions in Regression)
在回归模型中加入交互项是一种非常常见的处理方式。它可以极大的拓展回归模型对变量之间的依赖的解释。这里举一个例子,来自于Interpreting Interactions in Regression。
假设我们要为一个灌木丛的高度(变量名为Height)建模,考虑的条件是土壤中细菌的数量(变量名为Bacteria)以及灌木丛所在的位置是充满阳关,还是只能收到部分阳光照射(变量名为Sun)。灌木丛高度按照厘米单位计算,细菌是以每千立方厘米的土壤中包含的细菌数量计算,如果在充满阳光的条件下,则Sun=1,在部分光照条件下,Sun=0。那么灌木丛高度的回归模型我们可以表示如下:
\text{Height} = \text{B}_0 + \text{B}_1\times\text{Bacteria}+\text{B}_2\times\text{Sun}
一种根据实际数据估计的结果是(举个例子):
\text{Height} = 42 + 2.3\times\text{Bacteria}+11\times\text{Sun}
现在,如果我们要检验一个假设,即土壤中细菌的数量在充满阳光和只有部分光照下是不同的。那么加入交互项就是一个非常好的方法。
一种可能性是充满阳光的条件下,土壤中有更多的细菌,植物一般也会可能长得更高。而在部分光照条件下,土壤中有更多的细菌,植物可能会长得更矮。另一种可能的假设是在有更多细菌的土壤中,不管关照条件如何,植物都会长得更高。但是在光照充分的条件下,这种关系可能更明显。
交互项的出现可以表明一个预测变量对一个相应变量的影响在其他预测变量有不同值的时候,是不同的。它的测试方式是将两个预测变量相乘的项放入模型中。也就是上述回归模型就变成了如下形式:
\text{Height} = \text{B}_0 + \text{B}_1\times\text{Bacteria}+\text{B}_2\times\text{Sun}+\text{B}_3\times \text{Bacteria}\times\text{Sun}
将一个交互项放到模型中会极大的改善所有相关系数的可解释性。例如,在这个例子中,如果没有交互项,那么$\text{B}_1$就被解释成细菌对高度的单独的影响。但是有了交互项之后,细菌对高度的影响也与光照的情况有关系。细菌对高度的影响不再是局限于$\text{B}_1$,也依赖于$\text{B}_3$和$\text{Sun}$。那么细菌的影响应当表示成$\text{B}_1+\text{B}_3\times\text{Sun}$。$\text{B}_1$的含义是当$\text{Sun}=0$的时候,细菌的单独的影响。在这个例子中,加入了交互项之后,我们的模型最终是:
