1700500310
1700500311
1700500313
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.4 R平方
1700500314
1700500315
R平方(R-Square),也叫做R2或Coefficient of Multiple Determination,该方法将借鉴多元线性回归的分析算法来判断和选择对目标变量有重要预测意义及价值的自变量。
1700500316
1700500317
最通俗的解释,R2表示模型输入的各自变量在多大程度上可以解释目标变量的可变性,R2的取值范围在[0,1]之间,R2越大,说明模型的拟合越好。R2的计算公式如下:
1700500318
1700500319
1700500320
1700500321
1700500322
在上述R2公式中,R2表示回归方程拟合的好坏,R2∈(0,1),R2越大表示回归方程同样本观测值的拟合程度越好。R又被称为因变量Y与自变量X1,X2,…,Xp的样本复相关系数,它表示整体的X1,X2,…,Xp和Y的线性关系。
1700500323
1700500324
在R2计算公式中:
1700500325
1700500326
yi表示目标变量的真实值;
1700500327
1700500328
fi表示模型的预测值;
1700500329
1700500330
1700500331
表示目标变量真实值的均值;
1700500332
1700500333
SSE称为残差平方和,自由度为P,P代表自变量的个数;
1700500334
1700500335
SST称为总平方和,自由度为N-1,N代表样本数量;
1700500336
1700500337
SSR称为回归平方和,自由度为N-P-1。
1700500338
1700500339
总平方和SST反映了因变量(目标变量)Y的波动程度,SST是由回归平方和SSR和残差平方和SSE两部分组成的。其中,回归平方和SSR是由解释变量,即自变量,输入变量X所引起的,残差平方和SSE是由其他随机因素所引起的。
1700500340
1700500341
在回归方程中,回归平方和越大,回归效果越好,因此可构造如下的统计量:
1700500342
1700500343
1700500344
1700500345
1700500346
1700500347
在零假设H0
:β1=β2=…βp=0成立时(β为各自变量在回归方程中的回归系数),统计量服从自由度为(p,N-p-1)的f分布。如果给定显著水平α,则否定域为F>F1-α(p,N-p-1)。
1700500348
1700500349
当F值没有落在否定域之中时,零假设H0
:β1=β2=…=βp=0成立,表明解释变量(自变量)X1,X2,…,Xp对因变量(目标变量)Y的多元线性回归不成立,X1,X2,…,Xp与Y之间没有显著的线性关系。
1700500350
1700500351
1700500352
对于每个自变量Xi做偏回归显著性检验,其公式为:,其中,SSR-i为剔除变量Xi之后的回归平方和,SSR-SSR-i反映了在引入Xi之后,Xi对于回归平方和的贡献。
1700500353
1700500354
分别检查各自变量的Fi是否都大于相应的F0.05。
1700500355
1700500356
如果全部Fi都大于F0.05,则结束。
1700500357
1700500358
如果经检查发现有几个自变量的Fi小于F0.05,则每次只能删除其中的一个Xi,这个Xi是所有自变量中其Fi最无显著性的,然后再重新用剩下的自变量进行回归的构建,如此反复,直到所有的有显著性意义的自变量都进入回归方程,而没有显著性意义的变量都被剔除为止。
1700500359
[
上一页 ]
[ :1.70050031e+09 ]
[
下一页 ]