1700501235
❑回归方程的总体显著性检验。主要是检验目标变量与自变量之间的线性关系是否显著,也就是自变量的系数是否不全为0,其原假设为:H0
:β1=β2=…=βp=0;而其备选假设为:H1
:βp不全为0。该检验利用F检验完成。
1700501236
1700501237
❑回归方程系数的显著性检验。回归方程系数的显著性检验要求对所有的回归系数分别进行检验。如果某个系数对应的P值小于理论显著性水平α值,则可认为在显著性水平α条件下,该回归系数是显著的。
1700501238
1700501239
1700501240
1700501241
1700501243
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.4.2 线性回归的应用优势
1700501244
1700501245
线性回归模型作为应用最为广泛的算法,其主要的优势如下:
1700501246
1700501247
❑通俗易懂。多元线性回归模型非常容易被解读,其自变量的系数直接跟权重挂钩,因此很容易解释每个自变量对于目标变量的预测价值大小(贡献大小),解读出的这些信息可以为数据化运营提供有效的思考方向。
1700501248
1700501249
❑速度快,效率高。相比于其他的建模算法而言,多元线性回归的计算速度是最快的。
1700501250
1700501251
❑可以作为查找异常值的有效工具。那些与多元线性回归方程的预测值相差太大的观察值通常值得进一步考察,确定其是否是异常值。
1700501252
1700501253
1700501254
1700501255
1700501257
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.4.3 线性回归应用中的注意事项
1700501258
1700501259
线性回归应用中的注意事项如下:
1700501260
1700501261
❑算法对于噪声和异常值比较敏感。因此,在实践应用中,回归之前应该努力消除噪声和异常值,确保模型的稳定和准确度。
1700501262
1700501263
❑该算法只适合处理线性关系,如果自变量与目标变量之间有比较强烈的非线性关系,直接利用多元线性回归是不合适的。不过,在这种情况下,可以尝试对自变量进行一定的转换,比如取对数、开平方、取平方根等,尝试用多种不同的运算进行转换。
1700501264
1700501265
❑多元线性回归的应用还有一些前提假设:自变量是确定的变量,而不是随机变量,并且自变量之间是没有线性相关性的;随机误差项具有均值为0和等方差性;随机误差呈正态分布等。
1700501266
1700501267
1700501268
1700501269
1700501271
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.5 模型的过拟合及对策
1700501272
1700501273
模型的过拟合(Over Fitting)是指模型在训练集里的表现让人非常满意,但是一旦应用到真实业务实践中,效果会大打折扣。换成学术化语言描述,就是模型对样本数据拟合得非常好,但是对于样本数据外的应用数据,拟合效果非常差。在数据分析挖掘业务实践中,即为模型搭建时的表现看上去非常好,但是应用到具体业务实践时,模型的效果显著下降,包括准确率、精度、效果等都显著下降了。
1700501274
1700501275
过拟合现象是数据挖掘中常见的一种挫折,尤其是在预测响应(分类)模型的应用场景里。在模型的实践应用中如果发生了模型的过拟合,不仅会大幅度降低模型的效果和效率,也会严重浪费运营业务资源,同时,还会严重打击数据分析师的自信心和影响力。所以,数据分析师应该比较清楚地了解过拟合产生的主要原因以及可以采用的相应措施,尽量去避免过拟合的发生。
1700501276
1700501277
总的来说,过拟合产生的主要原因如下:
1700501278
1700501279
❑建模样本抽取错误。包括但不限于样本数量太少,抽样方法错误,抽样时没有足够正确地考虑业务场景或业务特点等,以致抽出的样本数据不能足够有效地代表业务逻辑或业务场景。
1700501280
1700501281
❑样本里的噪声数据干扰过大。样本噪声大到模型过分记住了噪声特征,反而忽略了真实的输入输出间的关系。
1700501282
1700501283
❑在决策树模型的搭建过程中,如果对于决策树的生长没有合理的限制和修剪,由着决策树自由的生长,那有可能会使每片叶子里只包含单纯的事件数据(Event)或非事件数据(No Event)。可以想象,这种决策树当然是可以完美匹配(拟合)训练数据的,但是一旦应用到新的业务真实数据中,效果就会一塌糊涂。
1700501284
[
上一页 ]
[ :1.700501235e+09 ]
[
下一页 ]