打字猴:1.700509927e+09
1700509927 图15-4 模型的构建流程
1700509928
1700509929 第1步:拿到一定量的样本数据。
1700509930
1700509931 第2步:从样本数据中拿出一定量的数据做“训练”,留下一些数据准备做验证。在训练的过程中,把误差(损失函数)Loss描述成一个与待定系数有关的凸函数,或者通过统计与概率获得结果。
1700509932
1700509933 第3步:对损失函数进行优化,使其逐步收敛到满足模型精度需求的程度。
1700509934
1700509935 第4步:使用剩余的数据来做验证(Validation),看看在第3步训练中得到的模型的召回率和精确度是否仍旧保持不变。如果保持不变,就说明这种模型的泛化性比较好;如果发现召回率和精确度不如训练集的表现好,就说明训练中产生了过拟合现象,需要进行调整。
1700509936
1700509937 第5步:这是一个可选步骤,叫作测试(Testing)。拿一些训练样本以外的数据对模型再进行一次检验,看看召回率和精确度是不是和训练集的表现一致。如果不一致,则仍需对模型进行检验(Review),以找到问题所在并加以改进。
1700509938
1700509939 第4步和第5步所做的事情类似,在很多实验环境中不会进行第5步。而在一些即将商用的模型演进过程中,会通过第5步反复测试,直至确认没有问题才会投入商用。
1700509940
1700509941 这个“五部曲”就是建模和算法的精华内容,所有基于数据量化认知的模型归纳方式几乎都是这样去做的。说到底,任何数学建模最后落实到算法哲学上,都是想尽办法让模型中的待定因素向着减小误差的方向移动,力求模型的结果和观测到的现象一致。换言之,模型构建的流程也是非常固定的,这是一种被普遍认可的推敲模型的主流且科学的方式。
1700509942
1700509943
1700509944
1700509945
1700509946 数据科学家养成手册 [:1700503647]
1700509947 数据科学家养成手册 15.5 本章小结
1700509948
1700509949 在本章中,我们讨论了数据建模环节的套路。这个套路是非常固定的,也符合人类认知世界最原本、最朴素的模式,经得起推敲和验证,因此才会成为一种标准的、科学的、系统的建模方式。
1700509950
1700509951 在本章的最后,我只说一个问题——关于模型精度的问题。书中提到的模型大都是比较经典的数据挖掘模型,但还有很多前人研究出来的经典模型我们没有展开讨论。以回归模型为例,还有多项式回归、岭回归、COX回归、泊松回归等。
1700509952
1700509953 在很多单位里,对业务数据进行研究的时候也需要建模,这个建模的过程从科学的角度来说也要遵循上面所说的原则。然而,由于各种原因,即便使用了上述方法对数据进行加工处理并拟合出一个模型,也总会出现误差。出现误差时,有的人可能会非常惊慌,认为模型是错误的,并急于从各个可以处理的环节对模型进行优化,试图减小误差。其实我们可以想想看,误差是客观存在的东西,不论测量手段的精度多高,都会或多或少地产生一个与“真实”值有差距的误差值。误差无法消灭,况且在这种惊慌地消灭误差的过程中,也存在发生过拟合的风险。在这种情况下,我们不妨以如下两点作为准则。
1700509954
1700509955 第一,在验证集数据上的召回率和准确率不比训练集低。这个说法等同于在验证集数据上的误差不比训练集低。
1700509956
1700509957 第二,只要误差值满足业务需要就可以了。过高地追求精确性会提高建模成本,同样有可能得不偿失。
1700509958
1700509959 (1) “二八理论”,也叫“二八定律”,又名“80/20定律”、“帕列托法则(定律)”(也叫“巴莱特定律”)、“最省力的法则”、“不平衡原则”等,被广泛应用于社会学及企业管理学等。1897年,意大利经济学者帕累托偶然注意到19世纪英国人的财富和收益模式。在调查取样中发现,大部分财富流向少数人手里。同时,他还从早期的资料中发现,其他国家都有这种微妙关系一再出现,而且在数学上呈现出一种稳定的关系。于是,帕累托从大量具体的事实中总结:社会上20%的人占有80%的社会财富。这种关系后来被泛化到其他商业场景,即20%左右的客户对象贡献了80%左右的价值。
1700509960
1700509961
1700509962
1700509963
1700509964 数据科学家养成手册 [:1700503648]
1700509965 数据科学家养成手册 第16章 数据可视化与分析
1700509966
1700509967 最后一环,是大部分程序员觉得最没有技术含量却又最重要的一环——可视化。数据可视化,说容易也容易,说困难也困难。容易是说,Photoshop、Excel等工具的存在给广大数据可视化工程师带来了福音,工作量大大减少;困难是说,人类习惯接受的视觉信息一般是三维的,要想用二维的显示介质表现三维的物质,就必须借助类似“旋转”的功能了,如果要表现四维的物质,就必须使用“时间轴”这样的工具了——五维甚至以上该怎么办?数据分析中有几十个维度参与的情况比比皆是。这是第一个难题,除此之外还有,我们一个一个来看。
1700509968
1700509969
1700509970
1700509971
1700509972 数据科学家养成手册 [:1700503649]
1700509973 数据科学家养成手册 16.1 看得见,摸得着
1700509974
1700509975 在可视化和数据分析这个环节,越来越多的企业注意到,在将报表展现给阅读者的时候,能够进行自由的交互是一件非常重要的事情。所谓“交互”,就一定不是将一张“死”的报表呈现出来,以只读的方式让人被动接受。报表需要承担很多的能动性分析作用,这一点现在很多企业已经掌握得很好了。目前,如果哪个企业的报表不具备足够多的交互功能,那么这个企业很可能没有把信息化工作做到位,更谈不上做好分析工作了——因为工具还不够完善。
1700509976
[ 上一页 ]  [ :1.700509927e+09 ]  [ 下一页 ]