打字猴:1.700505264e+09
1700505264 数据科学家养成手册 [:1700503519]
1700505265 4.3.2 破除迷信
1700505266
1700505267 人们热衷于进行各种数据观测、拟合,希望对数据进行可期望的预判。这种行为本质上是在做什么呢?用带有一定功利色彩的眼光来看,这实际上是一个趋利避害的过程。
1700505268
1700505269 在我国古代科学技术尚不发达的时候,巫蛊之术盛行。人们祈求神佛保佑,相信自己的虔诚能够感动神灵,赐予自己实现愿望的能力——这就是人们经常说的“保佑(某人或某事)”。直到现在,人们仍然分成两派,分别坚持自己的观点。
1700505270
1700505271 观点一:这完全是封建迷信,是愚昧的表现,根本不可信。
1700505272
1700505273 观点二:神灵是存在的,如果不信,只是因为“凡夫俗子”没有这种感悟,或者不够虔诚,所以无法打动神灵来保佑。
1700505274
1700505275 这两种观点,即使不是极端敌对,非要除对方而后快,也至少是互相不以为然,绝无调和的可能。
1700505276
1700505277 在本书最开始的部分,在对科学家的特征进行归纳的过程中其实已经明确过了——科学是测量的学科,是量化计算的学科,而且即使不具备突破性,也需要精确性和体系性这两个最为基本的特性。那么,我们不妨想想,我们信任科学的根本原因是什么?科学能够精确地通过量化地进行“应验”,而这个过程中对数据的观测、拟合,以及对模型的归纳,又是在做什么呢?调整的最终目的是为了让模型所表达的“体系”和观测的现象一致。这个“一致”是非常重要的,因为不“一致”就是不能“应验”。
1700505278
1700505279 对于不能“应验”的东西,会有人感兴趣吗?我不知道,因为我也确实看到,从古至今无数人对玄而又玄的东西感兴趣,甚至对“通灵”感兴趣。尤其是在中国魏晋南北朝时期,士大夫阶层都非常热衷于谈论玄学。然而,这种东西在民间和商界不容易传开也是有原因的,恐怕不能单单归咎于除士大夫阶层以外的人都蠢笨之极——也确实不可能是这样。不能“应验”的东西一定不能用于大规模生产的普及,也不能用于生产技术的改进,而不能直接或间接发展生产力的东西通常经不住时间的考验,也不会在整个社会受到广泛认可。不用举太多例子,不论是什么主义,什么理论,什么技术,如果最终不能对发展生产力有帮助,则大都昙花一现,很快就会淹没在历史的洪流之中,或者被束之高阁,成为人们茶余饭后的谈资,并不会得到普及。
1700505280
1700505281 再回来看看那些虔诚祈求神灵进行帮助的行为。有人能说得清需要使用多少量的虔诚能够获得多少量的神灵的帮助吗?退一步讲,假设这种关系或者规律客观存在,那么它能被丈量吗?如果无法丈量,就无法得到量化关系。这种行为的危害是什么?因为这是一个无法自圆其说的体系性解释模型,所以后面的事情就没办法指望了。例如,精确地预测神灵的庇佑量,模型的改进也没办法期许——经过怎样的改进能够使神灵的庇佑增加10%或更多?这种极为“不稳定”的输出与输入关系使可预测性极差,自然是不能商用的,因为量化的商业模型不存在,也就不知道该投入多少资金,耗费多少时间,获得多少收益。这些不可期许的利益对天生必须靠打算盘来核算成本和收益的商人来说是绝对无法接受的——没办法,还得回去琢磨怎么从原料和人工上省钱,怎么通过满足客户偏好甚至市场的宏观需求来多赚钱。不仅如此,估计连普通人也不会再热衷于对这些事情进行研究,除非完全当成业余爱好——这就跟科学没有任何关系了。
1700505282
1700505283 目前世界范围内没有出现过任何一个能够量化虔诚和庇佑关系的模型,哪怕是萌芽性的观点都没有。所以,这种东西我们没办法认定其为科学,并不是因为它是从远古蒙昧时期流传下来的,而是因为它不符合科学的定义。即使真的有这种关系,即使有相当数量的人笃信神灵与庇佑的存在,只要它不能量化,不能进行量化的验证,就不能被认定为科学。补充一句,严谨地说,我同样不能斩钉截铁地否认它的存在。从科学的角度来讲,至少我无法证明它一定不存在——它,只是不科学。
1700505284
1700505285 数据科学家养成手册 [:1700503520]
1700505286 4.3.3 目标一致与不一致
1700505287
1700505288 说到“使用数据科学来求解问题”这个课题,我们必须认同一个重要的观点——出发点必须一致。如果出发点不一致,每个人都站在不同的观点上对事情进行评价,每个参与的人都用自己的价值观和利益观点来进行评价,就无法得到公允的解决方案——因为公允的评价方式不存在。怎么办?还是要回归到简化模型的观点上来——定义目标,量化目标。
1700505289
1700505290 在机器学习领域有一个概念叫作“损失函数”,相信对机器学习有过一些研究的读者朋友不会感到陌生。其实,不仅是机器学习领域,在数据分析和工程优化等领域都有这个概念存在。所谓损失函数就是用来衡量和比较多种方案的优劣程度的量化工具。对于一个问题的多个解的比较过程,只要比较损失函数的值就可以了——这是一种极为理想的方案。
1700505291
1700505292 损失函数根据定义,会有一个对评价的完整解释,例如“损失函数越小,说明解越好”。在线性回归中的表示方法如下:
1700505293
1700505294
1700505295
1700505296
1700505297 这个模型希望把误差e描述成所有的样本值y与axi+b的差,也就是e为0的时候最为理想,拟合没有误差(12)。当然,误差e越大,说明拟合失真越大,拟合效果越不好。
1700505298
1700505299
1700505300
1700505301
1700505302 在机器学习领域,每种模型的训练都需要定义Loss函数,它表示的意义通常也是拟合结果与期望结果的差值的和——当然也是越小越好,和前面说的e的定义是一样的。在不同的场合,这种Loss函数的形式可能会不同。在损失函数的比较中,会认为其值越小越好;而在其他场合,会定义一些越大越好的目标函数来解释“收益”的问题,这种情况下函数值越大越好,考试成绩就是一种常见的目标函数。它们所完成的功能都是“评价”,即量化评价一个方案的效果如何。
1700505303
1700505304 目标的一致化给问题的讨论和求解带来了可能。这种方式给我们带来的好处在后面的章节还会具体讨论,现在我们只要知道这种目标一致的思路是数据科学解决问题思路的重要元素就可以了。
1700505305
1700505306
1700505307
1700505308
1700505309 数据科学家养成手册 [:1700503521]
1700505310 数据科学家养成手册 4.4 本章小结
1700505311
1700505312 数据科学首先作为科学,应该满足科学的基本定义。在此之上,数据科学还兼具数据本身的一些特性。
1700505313
[ 上一页 ]  [ :1.700505264e+09 ]  [ 下一页 ]