打字猴:1.700510069e+09
1700510069 在报表中同样可以使用这种方式来降低阅读者的阅读成本,如图16-10所示。
1700510070
1700510071
1700510072
1700510073
1700510074 图16-10 毗邻吸引原则
1700510075
1700510076 这张报表中有很多内容。从结构上看,左侧大都是财务相关信息,包括登记人数、支付值、申请金额、各种药品的分类金额等;右侧则是与诊断相关的内容,有预测模型、记述信息、健康风险信息、评分值、慢性病症状等。对于内容较多的报表来说,毗邻吸引原则尤为重要,因为这时需要用若干个板块分别陈述某个方面侧重的信息,再在某个信息分类里展现相关的详细信息,这与写文章时要分章节的思路是一样的。
1700510077
1700510078
1700510079
1700510080
1700510081 数据科学家养成手册 [:1700503655]
1700510082 数据科学家养成手册 16.4 有图就别要表格
1700510083
1700510084 美国心理学家乔治·A·米勒(2)在1956年发表的论文The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information中,提出了著名的神奇数字“7±2”理论。
1700510085
1700510086 这个理论有一个很重要的结论——健康的人记忆广度为7个单位。在没有任何提示或者帮助的情况下,人可以轻松记住7个杂乱无章的信息单元(例如汉字、字母、数字等)。一些记忆力比较好的人可以记住9个,记忆力差一点人的也可以记住5个这种杂乱无章的信息单元。这就是我国古代七言绝句和五言绝句比较流行的心理学和数据科学理论解释。甚至像曾国藩(3)这样的治世能臣,在统兵打仗的时候,为了让士兵(尤其是那些文化水平低下的底层湘军士兵)牢记军纪,写下了《水军得胜歌》。
1700510087
1700510088 三军听我苦口说,教你水战真秘诀。 第一船上要洁净,全仗神灵保性命。 早晚烧香扫灰尘,敬奉江神与火神。 第二湾船要稀松,时时防火又防风。 打仗也要去得稀,切莫拥挤吃大亏。 第三军器要整齐,船板莫沾半点泥。 牛皮圈子挂桨柱,打湿水絮封药箱。 第四军中要肃静,大喊大叫须严禁。 半夜惊营莫急躁,探听贼情莫乱报。 第五打仗不要慌,老手心中有主张。 若是好汉打得进,越近贼船越有劲。 第六水师要演操,兼习长矛并短刀。 荡桨要快舵要稳,不慌不忙听号令。 第七不可抢贼赃,怕他来杀回马枪。 又怕暗中藏火药,未曾得财先受伤。 第八水师莫上岸,止许一人当买办。 其余个个要守船,不可半步走河沿。 八条句句值千金,你们牢牢记在心。
1700510089
1700510090 不要笑,这种朗朗上口的方式是最便于普及和记忆的,这是一种韵律性的信息“可视化”。
1700510091
1700510092 人自身有一种非常致命的、难以克服的缺陷——同时容纳的信息量太小。例如,我们在同时和两个人对话的时候,只能让他们一个一个地说,如果这两个人一起开口,我们就很难分辨他们各自说的是什么。这种现象同样存在于视觉、嗅觉等感官领域。所以,在对数据进行分析之后,得到的可视化内容一定要简洁明了,这一点非常重要。
1700510093
1700510094 假如一个完整展现在人眼前的画面,其内容全部都是文字,如果想从中获取信息,就需要把这些文字从头到尾读一遍,然后归纳总结出一个主题思想。所以,用长文字进行描述的方式看上去内容很丰富,但是提取信息的效率却很低。
1700510095
1700510096 可视化的价值就在于帮助阅读者抓住重点信息。在“抓住重点信息”这个任务中,可视化工程师要和阅读者一起完成工作。可视化工程师下的功夫越多,信息提炼越到位,阅读者的阅读效率就越高,可视化工作的意义就越重大。
1700510097
1700510098 向上一层,就是通过大标题和小标题来归纳,并附带相关详细信息。这种方式在新闻类信息可视化工作里用得最多,效果还是比较好的。
1700510099
1700510100 再向上一层,就是纯粹用条目性解析的形式来表达。这种方式是大标题和小标题的变种,略去了附带的详细信息,优点是在一个画面中对核心内容的聚焦效果更好。
1700510101
1700510102 再向上一层,就是利用表格对信息内容进行归纳和对比。表格这种在二维空间中天然具有维度划分功能的形式非常适合用来进行对比,对内容的罗列和陈述也很有帮助。
1700510103
1700510104 再向上一层,就是图表。图表表现的内容通常最少,特点也最明显——维度少,数值化,更容易让人对对象概念聚焦。说这种形式好,还有一个根本原因,那就是人类获取信息的特点。人类的双眼对图形和图像的敏感程度比较高,对这些信息的获取比较直接。而在面对文字这类符号信息的时候,人类先要将它们读取,传送至大脑,经过理解映射成具体的事物及量化关系,这个过程消耗的时间比直接读取图表信息的反射时间要长,具象性弱了很多,视觉冲击也不够强。
1700510105
1700510106 所以,对于一段需要陈述的内容,表现形式的优先选择顺序通常是:图表、表格、条目、标题加详情文字、文字段落。
1700510107
1700510108
1700510109
1700510110
1700510111 数据科学家养成手册 [:1700503656]
1700510112 数据科学家养成手册 16.5 分析的内涵
1700510113
1700510114 数据分析工作在不同的单位是由不同岗位、不同职种的人员完成的,有的分析工作是在做统计的时候就已经嵌入算法当中了,而有的分析是在一般性的指标统计呈现在报表或者文件中以后,通过其他辅助分析软件和人的阅读判断来进行。这两类分析工作都是分析,但分析应该放在哪个环节更为妥当,分析工作应该由什么样的人来完成更为合适呢?是由偏重业务(具体场景)的人来做,还是由数学超牛的“大拿”们来做呢?我想,如果我们能够理解分析的内涵和实质,这个问题不难解答。
1700510115
1700510116 说到分析,究其本质,就是通过对事物的感知及对比、类比、推测、反证等各种研究方法得到事物规律的过程。既然如此,凡是帮助人们逼近事物规律的认知过程都应该算作分析,或者说,凡是有助于消除不确定性的与数据互动的行为都应该算作分析——我认为这么说绝对不夸张。所以从这个角度来说,程序员在数据库里进行的各种加和值、平均值、方差、数量的计算工作,都应该算是整个分析工作的一部分。不过,通常没有人把这些已经得到广泛应用的认知方式算作分析,因为它太“直接”,没有通过复杂辩证去伪存真的过程——含金量太低。
1700510117
1700510118 按照这种“含金量”的说法,目前获得普遍认可的有意义的分析工作是什么呢?从目的出发,大致可以分为以下几种。
[ 上一页 ]  [ :1.700510069e+09 ]  [ 下一页 ]