打字猴:1.700500333e+09
1700500333 SSE称为残差平方和,自由度为P,P代表自变量的个数;
1700500334
1700500335 SST称为总平方和,自由度为N-1,N代表样本数量;
1700500336
1700500337 SSR称为回归平方和,自由度为N-P-1。
1700500338
1700500339 总平方和SST反映了因变量(目标变量)Y的波动程度,SST是由回归平方和SSR和残差平方和SSE两部分组成的。其中,回归平方和SSR是由解释变量,即自变量,输入变量X所引起的,残差平方和SSE是由其他随机因素所引起的。
1700500340
1700500341 在回归方程中,回归平方和越大,回归效果越好,因此可构造如下的统计量:
1700500342
1700500343
1700500344
1700500345
1700500346
1700500347 在零假设H0:β1=β2=…βp=0成立时(β为各自变量在回归方程中的回归系数),统计量服从自由度为(p,N-p-1)的f分布。如果给定显著水平α,则否定域为F>F1-α(p,N-p-1)。
1700500348
1700500349 当F值没有落在否定域之中时,零假设H0:β1=β2=…=βp=0成立,表明解释变量(自变量)X1,X2,…,Xp对因变量(目标变量)Y的多元线性回归不成立,X1,X2,…,Xp与Y之间没有显著的线性关系。
1700500350
1700500351
1700500352 对于每个自变量Xi做偏回归显著性检验,其公式为:,其中,SSR-i为剔除变量Xi之后的回归平方和,SSR-SSR-i反映了在引入Xi之后,Xi对于回归平方和的贡献。
1700500353
1700500354 分别检查各自变量的Fi是否都大于相应的F0.05。
1700500355
1700500356 如果全部Fi都大于F0.05,则结束。
1700500357
1700500358 如果经检查发现有几个自变量的Fi小于F0.05,则每次只能删除其中的一个Xi,这个Xi是所有自变量中其Fi最无显著性的,然后再重新用剩下的自变量进行回归的构建,如此反复,直到所有的有显著性意义的自变量都进入回归方程,而没有显著性意义的变量都被剔除为止。
1700500359
1700500360
1700500361
1700500362
1700500363 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497580]
1700500364 数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.5 卡方检验
1700500365
1700500366 卡方检验(Chi-Square Statistics)在统计学里属于非参数检验,主要用来度量类别型变量,包括次序型变量等定性变量之间的关联性以及比较两个或两个以上的样本率。其基本思想就是比较理论频数和实际频数的吻合程度或拟合度。作为数据挖掘中筛选自变量的重要方法,卡方检验主要是通过类别型目标变量,最常见的就是二元目标变量,0,1与类别型自变量之间的关联程度来进行检验的,关联性大的类别型自变量就有可能是重要的自变量,可以通过初步的筛选进入下一轮的考察。卡方检验的公式如下:
1700500367
1700500368
1700500369
1700500370
1700500371
1700500372
1700500373
1700500374 其中,表示各交叉分类频数的观测值,表示各交叉分类频数的期望值,各交叉分类频数观测值与期望值的偏差为。
1700500375
1700500376 当样本量较大时,X2统计量近似服从自由度为(R-1)(C-1)的X2(卡方)分布。从上述公式可以看出,X2的值与期望值、观测值和期望值之差有关,X2值越大表明观测值与期望值的差异越大,相对应的P-Value就越小,而P-Value代表的是上述差异发生的偶然性。所以,通常讲,如果P-Value值的小于0.01,同时X2,即是卡方(Chi-Square)比较大,则说明可以拒绝该自变量与因变量之间相互独立的原假设,也就是说该类别型自变量与目标变量之间有比较强的关联性,因此可以认为该自变量可能值得输入模型。
1700500377
1700500378
1700500379
1700500380
1700500381 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497581]
1700500382 数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.6 IV和WOE
[ 上一页 ]  [ :1.700500333e+09 ]  [ 下一页 ]