1700509800
图15-1 数据建模
1700509801
1700509802
数据建模基本可以分为如下4个步骤。
1700509803
1700509804
(1)观察记录
1700509805
1700509806
用相对准确或精确的方式,通过观测来记录观测值数据。
1700509807
1700509808
(2)猜测假说
1700509809
1700509810
根据观测值做一个逻辑关系“拟合”的假说,假定数据之间的逻辑关系,通常使用方程、函数作为表达形式。此过程中伴随着对残差的分析,并要确保残差足够小(小到大多数人能认可的地步)。
1700509811
1700509812
(3)迁移验证
1700509813
1700509814
数据建模中需要一个证明和分析的过程,也就是把这个逻辑关系换成一组由他人观测的或者在其他环境中观测的数据代入验证,看看误差值是否与预期一致,是否同样足够小(小到大多数人能认可的地步)。
1700509815
1700509816
(4)调整测试
1700509817
1700509818
如果发现残差比较大,就要检查实验过程中是不是有疏漏,条件约数是不是完整,计算过程是不是缜密。如果有问题,就需要进行相应的修正,例如对约数条件叙述的修正或者对逻辑关系假说的修正。
1700509819
1700509820
1700509821
1700509822
1700509824
数据科学家养成手册 15.1 模型是宝贵的财富
1700509825
1700509826
这里说的“模型”实际上是指一种数据之间定量转化的关系或者关系假说。如果这个“模型”已经经过验证,那么这个假说就是成立的(或者说模型成立)。
1700509827
1700509828
模型的获取有如下3个渠道。
1700509829
1700509830
(1)有经验的从业人员会把他的知识总结为一种经验的陈述。这种经验的陈述如果在定量方面有了比较精确的结论并可以验证,那么这种模型就是一种经验模型。在实际工作中被广泛使用的“二八理论”(1)就是一种典型的经验模型。很多人在使用二八理论进行判断时,已经不会先去做调查了,而是直接假设这种理论在自己工作的场景中成立。
1700509831
1700509832
(2)通过大量的数据挖掘或者机器学习算法进行归纳和总结,并且在验证集合上能够通过验证。这里强调一定要“在验证集合上通过验证”,目的是再次强调不要出现过拟合的情况,而且这个环节通常是刚入门的分析人员比较容易出现错误的地方。
1700509833
1700509834
(3)向咨询公司购买模型。世界上有很多著名的咨询公司,例如麦肯锡(Mckinsey)、埃森哲(Accenture)、SAP、普华永道(Price Waterhouse Coopers Consulting)等。这些机构每年都在各个行业发布一些数据翔实的调查结果,这些数据可以当成模型使用。但在某些领域,仍然需要数据解读者通过分析和再次建模进行拟合来完善模型。
1700509835
1700509836
为什么说模型是宝贵的财富?就是因为模型里凝结了大量的数据统计和分析结果。这些结果的获取耗费了非常多的人力、物力、财力,而且对消除不确定性、降低试错成本有很大的帮助。所以,很多大型企业在做决策时都喜欢购买这类数据模型的成品甚至半成品作为参考。一份数据分析报告的价格从十几万到上千万元不等(主要由分析的粒度与实践指导价值的多寡而定)。
1700509837
1700509838
1700509839
1700509840
1700509842
数据科学家养成手册 15.2 量化是关键
1700509843
1700509844
一个“模型”之所以成为“模型”,是因为其本身拥有描述数据之间关系的能力,关键就在于量化精确。
1700509845
1700509846
还记得我们在本书最开始提到的关于天文历法的问题吗?“太阳东升西落”、“四季夏热冬冷”这种程度的描述虽然有助于消除不确定性,而且有一定的正确性,但量化很不到位,所以不仅不能称为科学,就连价值几何也需要画个问号。
1700509847
1700509848
为什么量化如此关键?量化不精确一定会出现严重的问题吗?我想应该这样考虑。
1700509849
[
上一页 ]
[ :1.7005098e+09 ]
[
下一页 ]