1700501120
1700501121
1700501122
1700501123
1700501124
其中,函数f(x)是值域在[0,1]区间的单调递增函数,对于逻辑回归(Logistic Regression),有。
1700501125
1700501126
于是,yi是均值为πi=f(β0+β1xi1+β2xi2+…+βpxip)的0-1分布,其概率函数为
1700501127
1700501128
P(yi=1)=πi
1700501129
1700501130
P(yi=0)=1-πi
1700501131
1700501132
1700501133
可以把yi的概率函数合写为
1700501134
1700501135
1700501136
于是y1,y2,…,yn的似然函数则为
1700501137
1700501138
对上述似然函数取对数,得
1700501139
1700501140
1700501141
1700501142
1700501143
1700501144
对于逻辑回归,将代入上式,得
1700501145
1700501146
1700501147
1700501148
1700501149
上述式子被称为对数似然函数,其目的就是求出该式子的最大值,其中会涉及非线性方程组的求解,运算量非常大,所幸的是这些工作现在都有现成的软件可以代替人工计算了,数据分析师只需要知道其中的原理就可以了。
1700501150
1700501151
1700501152
1700501153
需要强调的是,对于通过上述最大似然法得到的参数估值,还需要进行相应的显著性检验,对于回归系数βi的估计值的显著性检验通常使用的是Wald检验,其公式为。
1700501154
1700501155
1700501156
1700501157
1700501158
其中,D()为回归系数βi的估计值的标准差。如果βi的估计值的Wald检验显著,通常来讲,变量对应的P-Value如果小于0.05,这时可以认为该自变量对因变量的影响是显著的,否则影响不显著。
1700501159
1700501160
1700501161
1700501162
1700501164
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.3.2 回归中的变量筛选方法
1700501165
1700501166
无论是线性回归,还是逻辑回归,在回归拟合的过程中,都要进行变量的筛选,并且有各种不同的筛选方法,其中最常见、最著名的3种方法分别是向前引入法(Forward Selection)、向后剔除法(Backward Elimination)、逐步回归法(Stepwise Selection)。
1700501167
1700501168
❑向前引入法(Forward Selection)。即采用回归模型逐个引入自变量。刚开始,模型中没有自变量,然后引入第一个自变量进入回归方程,并进行F检验和T检验,计算残差平方和。如果通过了检验,则保留该变量。接着引入第二个自变量进入回归模型中,重新构建一个新的估计方程,并进行F检验和T检验,同时计算残差平方和。从理论上说,增加一个新的自变量之后,回归平方和应该增加,残差平方和应该减少。引进一个新自变量前后的残差平方和之差额就是新引进的该自变量的偏回归平方和,如果改值明显偏大,说明新引进的该自变量对目标变量有显著影响,反之则没有显著影响。向前引入法最大的缺点是最先引入回归方程的变量在随后不会被剔除出去,这会对后面引入的变量的评估过程和结果造成干扰。
1700501169
[
上一页 ]
[ :1.70050112e+09 ]
[
下一页 ]