1700501101
可能性比率是逻辑回归中连接自变量和因变量的纽带,我们可以从下面的公式演变中体会这句话的意思。
1700501102
1700501103
1700501104
1700501105
1700501106
将上述两个公式合并,就会成为现在广泛应用的逻辑回归算法:
1700501107
1700501108
1700501109
1700501110
1700501111
该公式也可以表现为:
1700501112
1700501113
1700501114
1700501115
1700501116
逻辑回归使用的参数估计方法通常是最大似然法,利用最大似然法进行参数的估计时,通常有如下步骤:
1700501117
1700501118
设Y为0-1型变量,X=(x1,x2,…,xp)是与Y相关的变量,n组观测数据为(xi1,xi2,…,xip;yi)(i=1,2,…,n),yi与xi1,xi2,…,xip的关系如下:
1700501119
1700501120
1700501121
1700501122
1700501123
1700501124
其中,函数f(x)是值域在[0,1]区间的单调递增函数,对于逻辑回归(Logistic Regression),有。
1700501125
1700501126
于是,yi是均值为πi=f(β0+β1xi1+β2xi2+…+βpxip)的0-1分布,其概率函数为
1700501127
1700501128
P(yi=1)=πi
1700501129
1700501130
P(yi=0)=1-πi
1700501131
1700501132
1700501133
可以把yi的概率函数合写为
1700501134
1700501135
1700501136
于是y1,y2,…,yn的似然函数则为
1700501137
1700501138
对上述似然函数取对数,得
1700501139
1700501140
1700501141
1700501142
1700501143
1700501144
对于逻辑回归,将代入上式,得
1700501145
1700501146
1700501147
1700501148
1700501149
上述式子被称为对数似然函数,其目的就是求出该式子的最大值,其中会涉及非线性方程组的求解,运算量非常大,所幸的是这些工作现在都有现成的软件可以代替人工计算了,数据分析师只需要知道其中的原理就可以了。
1700501150
[
上一页 ]
[ :1.700501101e+09 ]
[
下一页 ]