打字猴:1.70050107e+09
1700501070
1700501071 对于二元(是与否)的目标变量来说,逻辑回归的目的就是要预测一组自变量数值相对应的因变量是“是”的概率,这个概率P是介于[0,1]之间的。如果要用线性回归方法来进行概率计算,计算的结果很可能是超出[0,1]范围的。在这种情况下,就需要用到专门的概率计算公式了,或叫Sigmoid函数,其计算公式如下:
1700501072
1700501073
1700501074
1700501075
1700501076 上述概率算法可以确保二元目标变量的预测概率P是介于[0,1]之间的。
1700501077
1700501078 其中,β0是常数,β1到βk是自变量x1到xk各自所对应的系数。
1700501079
1700501080 按上述公式应用后的Sigmoid分布曲线如图10-2所示。
1700501081
1700501082
1700501083
1700501084
1700501085 图10-2 Sigmoid分布曲线
1700501086
1700501087 接下来进一步深入理解,这里引入了可能性比率(ODDS)这个概念。
1700501088
1700501089 可能性比率(ODDS)是指一件事情发生的概率除以这件事情不发生的概率后得到的值,博彩活动中的赔率就是可能性比率,其在现实生活中是一个广为人知的应用案例。
1700501090
1700501091 可能性比率为5,说明一件事件发生的可能性比不发生的可能性高5倍;
1700501092
1700501093 可能性比率为0.2,说明一件事情发生的可能性为不发生的可能性的1/5;
1700501094
1700501095 可能性比率小于1,说明一件事情发生的概率低于50%;
1700501096
1700501097 可能性比率大于1,说明一件事件发生的概率高于50%;
1700501098
1700501099 与概率不同的是,可能性比率的最小值为0,但最大值可以是无穷大。
1700501100
1700501101 可能性比率是逻辑回归中连接自变量和因变量的纽带,我们可以从下面的公式演变中体会这句话的意思。
1700501102
1700501103
1700501104
1700501105
1700501106 将上述两个公式合并,就会成为现在广泛应用的逻辑回归算法:
1700501107
1700501108
1700501109
1700501110
1700501111 该公式也可以表现为:
1700501112
1700501113
1700501114
1700501115
1700501116 逻辑回归使用的参数估计方法通常是最大似然法,利用最大似然法进行参数的估计时,通常有如下步骤:
1700501117
1700501118 设Y为0-1型变量,X=(x1,x2,…,xp)是与Y相关的变量,n组观测数据为(xi1,xi2,…,xip;yi)(i=1,2,…,n),yi与xi1,xi2,…,xip的关系如下:
1700501119
[ 上一页 ]  [ :1.70050107e+09 ]  [ 下一页 ]