打字猴:1.70051026e+09
1700510260 图16-16 求解面积问题
1700510261
1700510262 真是精巧绝伦。
1700510263
1700510264 在本节的案例中,一些利用统计原理来做的工作看似简单,却蕴含着深刻的数学原理。这些既利用随机原理又能得到想定结果的方式,非常值得我们关注。在拥有足够的基础理论知识后,这些技巧使用起来将会如鱼得水。数据分析是一个厚积薄发的工作,关键在于不断积累和总结。
1700510265
1700510266
1700510267
1700510268
1700510269 数据科学家养成手册 [:1700503664]
1700510270 数据科学家养成手册 16.7 仁者见仁,智者见智
1700510271
1700510272 算法是死的,但人是活的。在使用算法进行计算的时候,人们可以进行参数的设定。计算出来的数据结果,也要靠具备不同知识背景、业务水平和分析能力的分析师来解读。所以,作为一名优秀的分析师,会写算法、了解算法的运算过程仅仅是入门,真正困难的是如何用辩证的观点去看待这些计算出来的数据并进行合理的阐释。
1700510273
1700510274 在数据分析环节,我们又一次见到了由人的主观看法大量介入的不可避免的事实。只要是有人参与的环节,都难免会产生“条件相同,但结果不同”的情况。人作为一种极为复杂的“分类器”,其微观行为都是难以捉摸的。所以,即使是同样的数据,不同的人也会分析出不同的结果,进而导向不同的决策——这也不是什么奇怪的事情。我们都听说过,很多大公司,甚至是有上百年历史、上千亿资产的大公司,由于各种原因产生决策失误,最后走向倒闭、被并购等令人叹惋的结局。不要以为这些大公司的数据分析人员和决策人员都是无能的白痴或者骗子,仅仅是因为他们的错误才导致公司走向衰亡。我们必须清楚一点:人类对未来一直都是充满敬畏的,其中重要的原因是未来对人类而言都是不可知的,没人能知道下一刻会发生什么,就更别说5年甚至10年以后会发生什么了。就好像我们开车去一个遥远而陌生的地方,即使打开导航和GPS定位并采用躲避拥堵模式,就肯定能躲开所有的拥堵路段吗?你能确定在途经的某个只能通过一辆车的路口没有突发的事故吗?这个比喻要表达的意思已经非常明确了。
1700510275
1700510276 对于数据分析,也只能直面这个悲观的事实:人的认知能力是有限的,对于越远期、越微观的事物,人类的把握能力越弱。从数据分析师的职业道德角度来说,恪守以数据为本的原则,认真处理数据,基于自己最大的认知能力解读,说实话,认真听取其他拥有不同知识背景的分析师的观点——就够了。这是对自己工作的尊重。不必太在意分析是不是面面俱到、会不会出错——没有人能保证自己的分析与客观世界一致。数据科学只涉及认知边界内的量化知识,如果想尽可能做到一致,那就努力开拓自己的认知边界吧。
1700510277
1700510278
1700510279
1700510280
1700510281 数据科学家养成手册 [:1700503665]
1700510282 数据科学家养成手册 16.8 永恒的困惑
1700510283
1700510284 做过分析工作的人应该会和我有同感:在做数据解读和分析的时候,有一个永远解不开的困惑,那就是所有的预测和分析都要经过实践的验证才能够被证明或证伪。这就意味着,无论一个人有多么高的算法编写能力或者数学分析能力,在分析一个具体问题的时候,一定要等到事实的发生与其判断的一致,才能认定其正确性。在被认定之前,无论有多少证据或者苗头使判断看上去依据充分,也只能到事后才能认定。
1700510285
1700510286 这个结论是非常无奈的。
1700510287
1700510288 很多做数据画像的公司或者团队会对其服务的对象信誓旦旦地承诺,说他们的分析是多么精确,画像是如何精准,能够帮助客户大大提高广告投放的准确率。但是从数据科学的角度来说,这一切承诺都是苍白无力的。听者如果是具有数据科学素养的人,也会问同样的问题——这些画像帮助哪些公司提高了转化率?提高的比例是多少?分析拟合的召回率和准确率是多少?ROI(5)是多少?如果不能给出令人信服的证据,再多的鼓吹都是空中楼阁。
1700510289
1700510290 这就好比一位画师给甲画像,然后把画像给乙、丙、丁等人观看,并宣称这幅画像惟妙惟肖、细节逼真。如果乙、丙、丁要判断画师的话是不是正确,评价画师的画功是不是如其所说,要么拿一张甲的照片来对比,要么直接把甲叫到面前来观察,只有这样才能真正用应验性的方法来对画师作出评价。次之的选择就是看这位画师过去画过多少肖像画,人们对其画功的赞誉有多少,将这些内容作为评价先验概率和似然度的条件,通过这种方式来判断“画像惟妙惟肖”是否有很高的置信度。
1700510291
1700510292 在数据分析场景中,同样有这样的问题。即使有同样的数据,同样的知识背景,不同的分析师也有可能得出不同的分析结果。哪种结果和事实更接近?没有人能够在最终的事实出现之前下结论。然而,在这种情况下,有着丰富经验和极好“历史战绩”的分析师给出的结论通常更有置信度。但我要强调的是,即使如此,也不能在分析结论被验证之前就说某位分析师的结论一定是对的,这才是困惑所在,也会直接或间接影响决策的实施。下面我们就会讨论决策的实施问题。此外,分析的边界是什么,分析到什么程度才算可以?对于这个问题,不同的流派也持有不同的观点。
1700510293
1700510294 我的观点是这样的。在以因果关系为导向的分析场景中,我们所做的事情实际上是在解开一个个“黑盒子”。我们把一个事件A当成“因”,把另一个事件B当成“果”,那么事件A与事件B的关系本身就是一个“黑盒子”。当挖掘得到一定成果,发现了事件A和事件B的关系后,这个“黑盒子”就被打开,变成了两个更“小”的“黑盒子”,即事件A’ 和事件B’。然而,一般作为“因”的事件A’ 会更吸引人们的注意。我们会再打开A’ 的“黑盒子”,看看是什么导致了事件A’——解开后可能是两个更“小”的“黑盒子”。这种逻辑层面的深入研究是无法说清回溯尽头的。通常将分析边界划定在人们目前能够清晰感知的地方就够了,不必探求过深。
1700510295
1700510296 举个例子,玻璃棒和丝绸摩擦后,二者都会对轻小物体有吸引作用。通过研究发现:这种摩擦可以使丝绸带负电荷,使玻璃棒带正电荷;带有相同电荷的物体互相排斥,带有不同电荷的物体互相吸引。这种现象就是静电感应现象。带有正电荷的物体甲在与不带电的物体乙靠近时,甲所带的正电荷会排斥乙所带的正电荷,使其向远离甲的方向移动,同时吸引乙所带的负电荷向靠近甲的方向移动,从而形成吸引现象。到这里,第一个“黑盒子”已经解开了。至于为什么电荷同性相斥、异性相吸,则是下一层“黑盒子”。如果还是在经典物理学的范围内,就大可不必往下研究了,或者等到理论基础足够从下一级的层面来解释时再进行研究。也有一些问题确实神奇而精妙,总会让我们感觉到有一个人类在认知上不容易迈过去边界。在这种情况下,也可以不迈过边界——只要当前的理论体系确实足够完善,能够解决眼下的问题就好。
1700510297
1700510298
1700510299
1700510300
1700510301 数据科学家养成手册 [:1700503666]
1700510302 数据科学家养成手册 16.9 本章小结
1700510303
1700510304 数据可视化与分析是整个大数据落地过程中较为靠后的环节,通常伴随着很多的配色技巧、展示技巧,以及分析人员自身的行业背景和从业知识。应该说,在整个决策制定之前,所有数据层面的产出都应该在这个环节进行充分的呈现。
1700510305
1700510306 数据可视化同样不是一个孤立的过程,其中就包括数据与人交互并帮助人认知数据的过程。作为分析的实施者,数据分析人员应该有丰富的行业背景知识,并且要了解数学、地理、物理、心理学等相关学科的知识。分析过程中引入的维度越多,分析的维度就丰富,分析出来的结论通常也就有着越好的视角和说服力。
1700510307
1700510308 说到底,数据可视化主要是为了迎合人类自身的阅读习惯,以及人类对颜色、条目的敏感性这些因素而进行的技巧性调整。
1700510309
[ 上一页 ]  [ :1.70051026e+09 ]  [ 下一页 ]