打字猴:1.70050979e+09
1700509790
1700509791 数据建模是一项非常重要的技能,尤其是对数据分析师来说,就像吃饭、睡觉、走路甚至呼吸一样不可或缺。
1700509792
1700509793 数据建模,也可以叫作“数学建模”(这两个概念研究的问题几乎没有差别)。关于数学建模的例题和方法论等,现在市面上的很多资料中都有讲述,方法各异,形形色色。如果想从纷杂的方法中总结出一些相对完整的、泛用性好的方法论,我觉得也不难——只要抓住数据建模和数据分析的本质,思路很快就会有了。
1700509794
1700509795 数据建模其实是一门为了解决数据之间定量的逻辑关系问题的学科,是一种通过对数据进行分析处理,定量描述其间关系的方法论学科(如图15-1所示)。数据建模贯穿在我们接触过的各种学科中,例如物理学、化学、地理学、天文学,这些学科的研究对象也是五花八门、种类繁多,但其本质都是在精确地定量研究这些对象的转化条件、转化规律或逻辑。
1700509796
1700509797
1700509798
1700509799
1700509800 图15-1 数据建模
1700509801
1700509802 数据建模基本可以分为如下4个步骤。
1700509803
1700509804 (1)观察记录
1700509805
1700509806 用相对准确或精确的方式,通过观测来记录观测值数据。
1700509807
1700509808 (2)猜测假说
1700509809
1700509810 根据观测值做一个逻辑关系“拟合”的假说,假定数据之间的逻辑关系,通常使用方程、函数作为表达形式。此过程中伴随着对残差的分析,并要确保残差足够小(小到大多数人能认可的地步)。
1700509811
1700509812 (3)迁移验证
1700509813
1700509814 数据建模中需要一个证明和分析的过程,也就是把这个逻辑关系换成一组由他人观测的或者在其他环境中观测的数据代入验证,看看误差值是否与预期一致,是否同样足够小(小到大多数人能认可的地步)。
1700509815
1700509816 (4)调整测试
1700509817
1700509818 如果发现残差比较大,就要检查实验过程中是不是有疏漏,条件约数是不是完整,计算过程是不是缜密。如果有问题,就需要进行相应的修正,例如对约数条件叙述的修正或者对逻辑关系假说的修正。
1700509819
1700509820
1700509821
1700509822
1700509823 数据科学家养成手册 [:1700503640]
1700509824 数据科学家养成手册 15.1 模型是宝贵的财富
1700509825
1700509826 这里说的“模型”实际上是指一种数据之间定量转化的关系或者关系假说。如果这个“模型”已经经过验证,那么这个假说就是成立的(或者说模型成立)。
1700509827
1700509828 模型的获取有如下3个渠道。
1700509829
1700509830 (1)有经验的从业人员会把他的知识总结为一种经验的陈述。这种经验的陈述如果在定量方面有了比较精确的结论并可以验证,那么这种模型就是一种经验模型。在实际工作中被广泛使用的“二八理论”(1)就是一种典型的经验模型。很多人在使用二八理论进行判断时,已经不会先去做调查了,而是直接假设这种理论在自己工作的场景中成立。
1700509831
1700509832 (2)通过大量的数据挖掘或者机器学习算法进行归纳和总结,并且在验证集合上能够通过验证。这里强调一定要“在验证集合上通过验证”,目的是再次强调不要出现过拟合的情况,而且这个环节通常是刚入门的分析人员比较容易出现错误的地方。
1700509833
1700509834 (3)向咨询公司购买模型。世界上有很多著名的咨询公司,例如麦肯锡(Mckinsey)、埃森哲(Accenture)、SAP、普华永道(Price Waterhouse Coopers Consulting)等。这些机构每年都在各个行业发布一些数据翔实的调查结果,这些数据可以当成模型使用。但在某些领域,仍然需要数据解读者通过分析和再次建模进行拟合来完善模型。
1700509835
1700509836 为什么说模型是宝贵的财富?就是因为模型里凝结了大量的数据统计和分析结果。这些结果的获取耗费了非常多的人力、物力、财力,而且对消除不确定性、降低试错成本有很大的帮助。所以,很多大型企业在做决策时都喜欢购买这类数据模型的成品甚至半成品作为参考。一份数据分析报告的价格从十几万到上千万元不等(主要由分析的粒度与实践指导价值的多寡而定)。
1700509837
1700509838
1700509839
[ 上一页 ]  [ :1.70050979e+09 ]  [ 下一页 ]