打字猴:1.700509777e+09
1700509777 在任何与从宏观角度认知大量事物特性有关的研究领域,例如社会学、经济学、生物学,以及更为底层的统计物理学等方面,科研工作者也都是通过对事物宏观特性的统计归纳来试探性地进行解释和分析的,这个过程带有明显的“试错”意味。数据科学在其中所起的作用,就是帮助人们用辩证的、量化的方法过滤那些不可靠的数据假说。在数据统计这个环节中的归纳,就是对不同数据对象进行升降维的尝试而已。
1700509778
1700509779 (1) 出自《论语·先进》:“子贡问:‘师与商也孰贤?’子曰:‘师也过,商也不及。’曰:‘然则师愈与?’子曰:‘过犹不及。’”译为:孔子的学生子贡问孔子,他的同学子张和子夏哪个更贤明一些。孔子说,子张常常超过周礼的要求,子夏则常常达不到周礼的要求。子贡又问,子张能超过是不是好一些。孔子回答说,超过和达不到的效果是一样的。
1700509780
1700509781 (2) 阿尔伯特·奥图·赫希曼(Albert Otto Hirschman,1915年4月~2012年12月),知名经济学家、思想家,著有《叛离、抗议与忠诚》及《反动的修辞》两本政治学经典著作。
1700509782
1700509783 (3) 在一个总体(国家、地区)内,以“最贫穷的人口计算起一直到最富有人口”的人口百分比对应其他各个人口百分比的收入百分比的点组成的曲线。为了研究国民收入在国民之间的分配问题,美国统计学家M.O.洛伦兹(Max Otto Lorenz,1876年9月~1959年7月)于1907年提出了著名的洛伦兹曲线。
1700509784
1700509785
1700509786
1700509787
1700509788 数据科学家养成手册 [:1700503639]
1700509789 数据科学家养成手册 第15章 数据建模
1700509790
1700509791 数据建模是一项非常重要的技能,尤其是对数据分析师来说,就像吃饭、睡觉、走路甚至呼吸一样不可或缺。
1700509792
1700509793 数据建模,也可以叫作“数学建模”(这两个概念研究的问题几乎没有差别)。关于数学建模的例题和方法论等,现在市面上的很多资料中都有讲述,方法各异,形形色色。如果想从纷杂的方法中总结出一些相对完整的、泛用性好的方法论,我觉得也不难——只要抓住数据建模和数据分析的本质,思路很快就会有了。
1700509794
1700509795 数据建模其实是一门为了解决数据之间定量的逻辑关系问题的学科,是一种通过对数据进行分析处理,定量描述其间关系的方法论学科(如图15-1所示)。数据建模贯穿在我们接触过的各种学科中,例如物理学、化学、地理学、天文学,这些学科的研究对象也是五花八门、种类繁多,但其本质都是在精确地定量研究这些对象的转化条件、转化规律或逻辑。
1700509796
1700509797
1700509798
1700509799
1700509800 图15-1 数据建模
1700509801
1700509802 数据建模基本可以分为如下4个步骤。
1700509803
1700509804 (1)观察记录
1700509805
1700509806 用相对准确或精确的方式,通过观测来记录观测值数据。
1700509807
1700509808 (2)猜测假说
1700509809
1700509810 根据观测值做一个逻辑关系“拟合”的假说,假定数据之间的逻辑关系,通常使用方程、函数作为表达形式。此过程中伴随着对残差的分析,并要确保残差足够小(小到大多数人能认可的地步)。
1700509811
1700509812 (3)迁移验证
1700509813
1700509814 数据建模中需要一个证明和分析的过程,也就是把这个逻辑关系换成一组由他人观测的或者在其他环境中观测的数据代入验证,看看误差值是否与预期一致,是否同样足够小(小到大多数人能认可的地步)。
1700509815
1700509816 (4)调整测试
1700509817
1700509818 如果发现残差比较大,就要检查实验过程中是不是有疏漏,条件约数是不是完整,计算过程是不是缜密。如果有问题,就需要进行相应的修正,例如对约数条件叙述的修正或者对逻辑关系假说的修正。
1700509819
1700509820
1700509821
1700509822
1700509823 数据科学家养成手册 [:1700503640]
1700509824 数据科学家养成手册 15.1 模型是宝贵的财富
1700509825
1700509826 这里说的“模型”实际上是指一种数据之间定量转化的关系或者关系假说。如果这个“模型”已经经过验证,那么这个假说就是成立的(或者说模型成立)。
[ 上一页 ]  [ :1.700509777e+09 ]  [ 下一页 ]