打字猴:1.70050981e+09
1700509810 根据观测值做一个逻辑关系“拟合”的假说,假定数据之间的逻辑关系,通常使用方程、函数作为表达形式。此过程中伴随着对残差的分析,并要确保残差足够小(小到大多数人能认可的地步)。
1700509811
1700509812 (3)迁移验证
1700509813
1700509814 数据建模中需要一个证明和分析的过程,也就是把这个逻辑关系换成一组由他人观测的或者在其他环境中观测的数据代入验证,看看误差值是否与预期一致,是否同样足够小(小到大多数人能认可的地步)。
1700509815
1700509816 (4)调整测试
1700509817
1700509818 如果发现残差比较大,就要检查实验过程中是不是有疏漏,条件约数是不是完整,计算过程是不是缜密。如果有问题,就需要进行相应的修正,例如对约数条件叙述的修正或者对逻辑关系假说的修正。
1700509819
1700509820
1700509821
1700509822
1700509823 数据科学家养成手册 [:1700503640]
1700509824 数据科学家养成手册 15.1 模型是宝贵的财富
1700509825
1700509826 这里说的“模型”实际上是指一种数据之间定量转化的关系或者关系假说。如果这个“模型”已经经过验证,那么这个假说就是成立的(或者说模型成立)。
1700509827
1700509828 模型的获取有如下3个渠道。
1700509829
1700509830 (1)有经验的从业人员会把他的知识总结为一种经验的陈述。这种经验的陈述如果在定量方面有了比较精确的结论并可以验证,那么这种模型就是一种经验模型。在实际工作中被广泛使用的“二八理论”(1)就是一种典型的经验模型。很多人在使用二八理论进行判断时,已经不会先去做调查了,而是直接假设这种理论在自己工作的场景中成立。
1700509831
1700509832 (2)通过大量的数据挖掘或者机器学习算法进行归纳和总结,并且在验证集合上能够通过验证。这里强调一定要“在验证集合上通过验证”,目的是再次强调不要出现过拟合的情况,而且这个环节通常是刚入门的分析人员比较容易出现错误的地方。
1700509833
1700509834 (3)向咨询公司购买模型。世界上有很多著名的咨询公司,例如麦肯锡(Mckinsey)、埃森哲(Accenture)、SAP、普华永道(Price Waterhouse Coopers Consulting)等。这些机构每年都在各个行业发布一些数据翔实的调查结果,这些数据可以当成模型使用。但在某些领域,仍然需要数据解读者通过分析和再次建模进行拟合来完善模型。
1700509835
1700509836 为什么说模型是宝贵的财富?就是因为模型里凝结了大量的数据统计和分析结果。这些结果的获取耗费了非常多的人力、物力、财力,而且对消除不确定性、降低试错成本有很大的帮助。所以,很多大型企业在做决策时都喜欢购买这类数据模型的成品甚至半成品作为参考。一份数据分析报告的价格从十几万到上千万元不等(主要由分析的粒度与实践指导价值的多寡而定)。
1700509837
1700509838
1700509839
1700509840
1700509841 数据科学家养成手册 [:1700503641]
1700509842 数据科学家养成手册 15.2 量化是关键
1700509843
1700509844 一个“模型”之所以成为“模型”,是因为其本身拥有描述数据之间关系的能力,关键就在于量化精确。
1700509845
1700509846 还记得我们在本书最开始提到的关于天文历法的问题吗?“太阳东升西落”、“四季夏热冬冷”这种程度的描述虽然有助于消除不确定性,而且有一定的正确性,但量化很不到位,所以不仅不能称为科学,就连价值几何也需要画个问号。
1700509847
1700509848 为什么量化如此关键?量化不精确一定会出现严重的问题吗?我想应该这样考虑。
1700509849
1700509850 首先,抛开科学与否的问题不谈,量化是唯一能够用来量化精确程度的前提。本书一直坚持一个观点,那就是观测值才是一种客观认知下的“正确”值,一切假说和推导最终都要落实到与观测值的比对和对误差的衡量上。所以,一个模型准确与否,必须先做量化才能讨论。而且,一个模型是否足够精确,以及另一个模型与此相比是更精确还是更不精确,也都严重依赖量化这一前提。
1700509851
1700509852 其次,量化的精确性也同样是提高工作效率、降低成本的重要因素。对一件工业品来说,每种制造方案的成本精确量化会直接把成本和收益体现在盈利模型中。
1700509853
1700509854 最后,没有量化的内容就无法计算,无法计算就不能描述差距,不能描述差距就无法针对方法的改进和提高作出评价。没有量化就没有进步的标尺——这个结论的毁灭性太强了。
1700509855
1700509856 所以,如果要进行数据分析和研究,想得到相对精确的认知,就要先做准确的量化,哪怕这种量化看上去还不够完美。
1700509857
1700509858
1700509859
[ 上一页 ]  [ :1.70050981e+09 ]  [ 下一页 ]