1700500300
1700500301
在建模前的变量筛选过程中,如果自变量属于中度以上线性相关的(>0.6以上)多个变量,只需要保留一个就可以了。
1700500302
1700500303
上述相关系数的计算公式只是从状态上计算了变量之间的相关关系,但是相关系数是通过样本数据得到的计算结果,来自样本的统计结果需要通过显著性检验才能知道其是否适用于针对总体数据的相关性。关于类似的统计显著性问题,作为统计分析中的基本知识,不在本书的讨论范围之内,并且在目前所有的分析软件里都可以自动计算,有心的读者可以自己在实践中进行体会和学习。
1700500304
1700500305
需要强调的是,有时候尽管上述公式计算出来的相关系数r等于0,也只能说明线性关系不存在,不能排除变量之间存在其他形式的相关关系,比如曲线关系等。
1700500306
1700500307
尽管线性相关性检验是模型的变量筛选中最常用也最直观的有效方法之一,但是在很多时候,某个自变量和因变量的线性相关性却很小,这时可以通过跟其他自变量结合在一起而让其成为预测力很强的自变量。正因为如此,在挑选输入变量的时候,应该多尝试不同的评价指标和不同的挑选方法,减少因采用单一方法而导致的误删除,避免在一棵树上吊死的情况发生。
1700500308
1700500309
1700500310
1700500311
1700500313
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.4 R平方
1700500314
1700500315
R平方(R-Square),也叫做R2或Coefficient of Multiple Determination,该方法将借鉴多元线性回归的分析算法来判断和选择对目标变量有重要预测意义及价值的自变量。
1700500316
1700500317
最通俗的解释,R2表示模型输入的各自变量在多大程度上可以解释目标变量的可变性,R2的取值范围在[0,1]之间,R2越大,说明模型的拟合越好。R2的计算公式如下:
1700500318
1700500319
1700500320
1700500321
1700500322
在上述R2公式中,R2表示回归方程拟合的好坏,R2∈(0,1),R2越大表示回归方程同样本观测值的拟合程度越好。R又被称为因变量Y与自变量X1,X2,…,Xp的样本复相关系数,它表示整体的X1,X2,…,Xp和Y的线性关系。
1700500323
1700500324
在R2计算公式中:
1700500325
1700500326
yi表示目标变量的真实值;
1700500327
1700500328
fi表示模型的预测值;
1700500329
1700500330
1700500331
表示目标变量真实值的均值;
1700500332
1700500333
SSE称为残差平方和,自由度为P,P代表自变量的个数;
1700500334
1700500335
SST称为总平方和,自由度为N-1,N代表样本数量;
1700500336
1700500337
SSR称为回归平方和,自由度为N-P-1。
1700500338
1700500339
总平方和SST反映了因变量(目标变量)Y的波动程度,SST是由回归平方和SSR和残差平方和SSE两部分组成的。其中,回归平方和SSR是由解释变量,即自变量,输入变量X所引起的,残差平方和SSE是由其他随机因素所引起的。
1700500340
1700500341
在回归方程中,回归平方和越大,回归效果越好,因此可构造如下的统计量:
1700500342
1700500343
1700500344
1700500345
1700500346
1700500347
在零假设H0
:β1=β2=…βp=0成立时(β为各自变量在回归方程中的回归系数),统计量服从自由度为(p,N-p-1)的f分布。如果给定显著水平α,则否定域为F>F1-α(p,N-p-1)。
1700500348
1700500349
当F值没有落在否定域之中时,零假设H0
:β1=β2=…=βp=0成立,表明解释变量(自变量)X1,X2,…,Xp对因变量(目标变量)Y的多元线性回归不成立,X1,X2,…,Xp与Y之间没有显著的线性关系。
[
上一页 ]
[ :1.7005003e+09 ]
[
下一页 ]