打字猴:1.700510081e+09
1700510081 数据科学家养成手册 [:1700503655]
1700510082 数据科学家养成手册 16.4 有图就别要表格
1700510083
1700510084 美国心理学家乔治·A·米勒(2)在1956年发表的论文The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information中,提出了著名的神奇数字“7±2”理论。
1700510085
1700510086 这个理论有一个很重要的结论——健康的人记忆广度为7个单位。在没有任何提示或者帮助的情况下,人可以轻松记住7个杂乱无章的信息单元(例如汉字、字母、数字等)。一些记忆力比较好的人可以记住9个,记忆力差一点人的也可以记住5个这种杂乱无章的信息单元。这就是我国古代七言绝句和五言绝句比较流行的心理学和数据科学理论解释。甚至像曾国藩(3)这样的治世能臣,在统兵打仗的时候,为了让士兵(尤其是那些文化水平低下的底层湘军士兵)牢记军纪,写下了《水军得胜歌》。
1700510087
1700510088 三军听我苦口说,教你水战真秘诀。 第一船上要洁净,全仗神灵保性命。 早晚烧香扫灰尘,敬奉江神与火神。 第二湾船要稀松,时时防火又防风。 打仗也要去得稀,切莫拥挤吃大亏。 第三军器要整齐,船板莫沾半点泥。 牛皮圈子挂桨柱,打湿水絮封药箱。 第四军中要肃静,大喊大叫须严禁。 半夜惊营莫急躁,探听贼情莫乱报。 第五打仗不要慌,老手心中有主张。 若是好汉打得进,越近贼船越有劲。 第六水师要演操,兼习长矛并短刀。 荡桨要快舵要稳,不慌不忙听号令。 第七不可抢贼赃,怕他来杀回马枪。 又怕暗中藏火药,未曾得财先受伤。 第八水师莫上岸,止许一人当买办。 其余个个要守船,不可半步走河沿。 八条句句值千金,你们牢牢记在心。
1700510089
1700510090 不要笑,这种朗朗上口的方式是最便于普及和记忆的,这是一种韵律性的信息“可视化”。
1700510091
1700510092 人自身有一种非常致命的、难以克服的缺陷——同时容纳的信息量太小。例如,我们在同时和两个人对话的时候,只能让他们一个一个地说,如果这两个人一起开口,我们就很难分辨他们各自说的是什么。这种现象同样存在于视觉、嗅觉等感官领域。所以,在对数据进行分析之后,得到的可视化内容一定要简洁明了,这一点非常重要。
1700510093
1700510094 假如一个完整展现在人眼前的画面,其内容全部都是文字,如果想从中获取信息,就需要把这些文字从头到尾读一遍,然后归纳总结出一个主题思想。所以,用长文字进行描述的方式看上去内容很丰富,但是提取信息的效率却很低。
1700510095
1700510096 可视化的价值就在于帮助阅读者抓住重点信息。在“抓住重点信息”这个任务中,可视化工程师要和阅读者一起完成工作。可视化工程师下的功夫越多,信息提炼越到位,阅读者的阅读效率就越高,可视化工作的意义就越重大。
1700510097
1700510098 向上一层,就是通过大标题和小标题来归纳,并附带相关详细信息。这种方式在新闻类信息可视化工作里用得最多,效果还是比较好的。
1700510099
1700510100 再向上一层,就是纯粹用条目性解析的形式来表达。这种方式是大标题和小标题的变种,略去了附带的详细信息,优点是在一个画面中对核心内容的聚焦效果更好。
1700510101
1700510102 再向上一层,就是利用表格对信息内容进行归纳和对比。表格这种在二维空间中天然具有维度划分功能的形式非常适合用来进行对比,对内容的罗列和陈述也很有帮助。
1700510103
1700510104 再向上一层,就是图表。图表表现的内容通常最少,特点也最明显——维度少,数值化,更容易让人对对象概念聚焦。说这种形式好,还有一个根本原因,那就是人类获取信息的特点。人类的双眼对图形和图像的敏感程度比较高,对这些信息的获取比较直接。而在面对文字这类符号信息的时候,人类先要将它们读取,传送至大脑,经过理解映射成具体的事物及量化关系,这个过程消耗的时间比直接读取图表信息的反射时间要长,具象性弱了很多,视觉冲击也不够强。
1700510105
1700510106 所以,对于一段需要陈述的内容,表现形式的优先选择顺序通常是:图表、表格、条目、标题加详情文字、文字段落。
1700510107
1700510108
1700510109
1700510110
1700510111 数据科学家养成手册 [:1700503656]
1700510112 数据科学家养成手册 16.5 分析的内涵
1700510113
1700510114 数据分析工作在不同的单位是由不同岗位、不同职种的人员完成的,有的分析工作是在做统计的时候就已经嵌入算法当中了,而有的分析是在一般性的指标统计呈现在报表或者文件中以后,通过其他辅助分析软件和人的阅读判断来进行。这两类分析工作都是分析,但分析应该放在哪个环节更为妥当,分析工作应该由什么样的人来完成更为合适呢?是由偏重业务(具体场景)的人来做,还是由数学超牛的“大拿”们来做呢?我想,如果我们能够理解分析的内涵和实质,这个问题不难解答。
1700510115
1700510116 说到分析,究其本质,就是通过对事物的感知及对比、类比、推测、反证等各种研究方法得到事物规律的过程。既然如此,凡是帮助人们逼近事物规律的认知过程都应该算作分析,或者说,凡是有助于消除不确定性的与数据互动的行为都应该算作分析——我认为这么说绝对不夸张。所以从这个角度来说,程序员在数据库里进行的各种加和值、平均值、方差、数量的计算工作,都应该算是整个分析工作的一部分。不过,通常没有人把这些已经得到广泛应用的认知方式算作分析,因为它太“直接”,没有通过复杂辩证去伪存真的过程——含金量太低。
1700510117
1700510118 按照这种“含金量”的说法,目前获得普遍认可的有意义的分析工作是什么呢?从目的出发,大致可以分为以下几种。
1700510119
1700510120 数据科学家养成手册 [:1700503657]
1700510121 16.5.1 相关性分析
1700510122
1700510123 相关性分析是所有分析里最常见的一种,也是在日常生产中使用最普遍的一种。这种分析的目的就是通过事件或者数据发生的彼此连带程度来判断其相关程度。如果两个事件大概率前后发生或一起发生,就认为二者有关联性,或者说关联性较高;如果两个事件中一个发生的情况下会大概率抑制另一个的发生,则认为二者是负关联。
1700510124
1700510125 在这里我一直用的是“相关”、“关联”这样的词,而没有用“因果”。这也是不少刚入行的分析师容易在逻辑上犯的一个小错误——“相关”是否等于“因果”?答案很明确——不等于。
1700510126
1700510127 有这样一个案例(这个案例也出现在《爱上统计学》这本书中):“在美国中西部的一个小镇,一名地方警察局局长发现了如下神奇的规律,也即冰淇淋销量越高,犯罪率就越高;反之,冰淇淋销量下降后,犯罪率也跟着下降了。城市议员Joe Bob得知上述规律后,便兴奋地提出了他的政见,也即‘限制冰淇淋消费以便降低犯罪率’。朋友们应该能察觉,这想法甚是荒谬,可问题出在何处?原来,当气温逐步变暖后,会呈现白昼更长、门窗常开、衣着较少等现象,进而引发犯罪率的提升。不巧的是,冰淇淋销量也往往随气温同步变化。于是,两个本无因果关系的事件,却因数据上的极大相关性而凑在一块儿,被生硬解读后,冰淇淋也终于‘中枪’倒地。”
1700510128
1700510129 这类错把“相关”当成“因果”的事情其实用归谬的方法也能很快得到验证。在实践中,简单地说,就是把被认为是因果关系的两件事单独罗列出来,然后靠增大(提高)或降低(减小)“因”事件的程度来观察“果”事件对应的程度。当然,最好能够用量化的方式去观察。
1700510130
[ 上一页 ]  [ :1.700510081e+09 ]  [ 下一页 ]