1700510090
不要笑,这种朗朗上口的方式是最便于普及和记忆的,这是一种韵律性的信息“可视化”。
1700510091
1700510092
人自身有一种非常致命的、难以克服的缺陷——同时容纳的信息量太小。例如,我们在同时和两个人对话的时候,只能让他们一个一个地说,如果这两个人一起开口,我们就很难分辨他们各自说的是什么。这种现象同样存在于视觉、嗅觉等感官领域。所以,在对数据进行分析之后,得到的可视化内容一定要简洁明了,这一点非常重要。
1700510093
1700510094
假如一个完整展现在人眼前的画面,其内容全部都是文字,如果想从中获取信息,就需要把这些文字从头到尾读一遍,然后归纳总结出一个主题思想。所以,用长文字进行描述的方式看上去内容很丰富,但是提取信息的效率却很低。
1700510095
1700510096
可视化的价值就在于帮助阅读者抓住重点信息。在“抓住重点信息”这个任务中,可视化工程师要和阅读者一起完成工作。可视化工程师下的功夫越多,信息提炼越到位,阅读者的阅读效率就越高,可视化工作的意义就越重大。
1700510097
1700510098
向上一层,就是通过大标题和小标题来归纳,并附带相关详细信息。这种方式在新闻类信息可视化工作里用得最多,效果还是比较好的。
1700510099
1700510100
再向上一层,就是纯粹用条目性解析的形式来表达。这种方式是大标题和小标题的变种,略去了附带的详细信息,优点是在一个画面中对核心内容的聚焦效果更好。
1700510101
1700510102
再向上一层,就是利用表格对信息内容进行归纳和对比。表格这种在二维空间中天然具有维度划分功能的形式非常适合用来进行对比,对内容的罗列和陈述也很有帮助。
1700510103
1700510104
再向上一层,就是图表。图表表现的内容通常最少,特点也最明显——维度少,数值化,更容易让人对对象概念聚焦。说这种形式好,还有一个根本原因,那就是人类获取信息的特点。人类的双眼对图形和图像的敏感程度比较高,对这些信息的获取比较直接。而在面对文字这类符号信息的时候,人类先要将它们读取,传送至大脑,经过理解映射成具体的事物及量化关系,这个过程消耗的时间比直接读取图表信息的反射时间要长,具象性弱了很多,视觉冲击也不够强。
1700510105
1700510106
所以,对于一段需要陈述的内容,表现形式的优先选择顺序通常是:图表、表格、条目、标题加详情文字、文字段落。
1700510107
1700510108
1700510109
1700510110
1700510112
数据科学家养成手册 16.5 分析的内涵
1700510113
1700510114
数据分析工作在不同的单位是由不同岗位、不同职种的人员完成的,有的分析工作是在做统计的时候就已经嵌入算法当中了,而有的分析是在一般性的指标统计呈现在报表或者文件中以后,通过其他辅助分析软件和人的阅读判断来进行。这两类分析工作都是分析,但分析应该放在哪个环节更为妥当,分析工作应该由什么样的人来完成更为合适呢?是由偏重业务(具体场景)的人来做,还是由数学超牛的“大拿”们来做呢?我想,如果我们能够理解分析的内涵和实质,这个问题不难解答。
1700510115
1700510116
说到分析,究其本质,就是通过对事物的感知及对比、类比、推测、反证等各种研究方法得到事物规律的过程。既然如此,凡是帮助人们逼近事物规律的认知过程都应该算作分析,或者说,凡是有助于消除不确定性的与数据互动的行为都应该算作分析——我认为这么说绝对不夸张。所以从这个角度来说,程序员在数据库里进行的各种加和值、平均值、方差、数量的计算工作,都应该算是整个分析工作的一部分。不过,通常没有人把这些已经得到广泛应用的认知方式算作分析,因为它太“直接”,没有通过复杂辩证去伪存真的过程——含金量太低。
1700510117
1700510118
按照这种“含金量”的说法,目前获得普遍认可的有意义的分析工作是什么呢?从目的出发,大致可以分为以下几种。
1700510119
1700510121
16.5.1 相关性分析
1700510122
1700510123
相关性分析是所有分析里最常见的一种,也是在日常生产中使用最普遍的一种。这种分析的目的就是通过事件或者数据发生的彼此连带程度来判断其相关程度。如果两个事件大概率前后发生或一起发生,就认为二者有关联性,或者说关联性较高;如果两个事件中一个发生的情况下会大概率抑制另一个的发生,则认为二者是负关联。
1700510124
1700510125
在这里我一直用的是“相关”、“关联”这样的词,而没有用“因果”。这也是不少刚入行的分析师容易在逻辑上犯的一个小错误——“相关”是否等于“因果”?答案很明确——不等于。
1700510126
1700510127
有这样一个案例(这个案例也出现在《爱上统计学》这本书中):“在美国中西部的一个小镇,一名地方警察局局长发现了如下神奇的规律,也即冰淇淋销量越高,犯罪率就越高;反之,冰淇淋销量下降后,犯罪率也跟着下降了。城市议员Joe Bob得知上述规律后,便兴奋地提出了他的政见,也即‘限制冰淇淋消费以便降低犯罪率’。朋友们应该能察觉,这想法甚是荒谬,可问题出在何处?原来,当气温逐步变暖后,会呈现白昼更长、门窗常开、衣着较少等现象,进而引发犯罪率的提升。不巧的是,冰淇淋销量也往往随气温同步变化。于是,两个本无因果关系的事件,却因数据上的极大相关性而凑在一块儿,被生硬解读后,冰淇淋也终于‘中枪’倒地。”
1700510128
1700510129
这类错把“相关”当成“因果”的事情其实用归谬的方法也能很快得到验证。在实践中,简单地说,就是把被认为是因果关系的两件事单独罗列出来,然后靠增大(提高)或降低(减小)“因”事件的程度来观察“果”事件对应的程度。当然,最好能够用量化的方式去观察。
1700510130
1700510131
在这种目的下,常用的分析方法很多,例如朴素贝叶斯算法、贝叶斯信念网络、Apriori算法等。这类基于统计的概率模型通常能够比较好地呈现关联关系,为我们的分析起到了很好的过滤作用。
1700510132
1700510133
朴素贝叶斯算法是一种典型的使用量化概率的方式计算事件之间关联程度的算法。在11.8.2节我们已经对朴素贝叶斯算法进行了比较详细的介绍,这里只说说对这个模型的理解。
1700510134
1700510135
例如,在全局范围内P(A)是一个值,但是P(A|B)比P(A)大,这说明在发生事件B的情况下,事件A更容易发生——至少观测到的结果是这样。还要说明一下:即使在这种情况下从数据层面去理解,同样不能下结论说事件A和事件B有因果关系,而只能说事件B与事件A正相关(如图16-11所示)。相反,如果P(A|B)比P(A)小,就说明在事件B发生的情况下会抑制事件A的发生,事件B与事件A负相关(如图16-12所示)。这里说的事件A或事件B都属于复合事件,例如事件A可以定义为多个事件的与或非关系,事件B也可以。
1700510136
1700510137
1700510138
1700510139
图16-11 正相关 图16-12 负相关 在任何一个BI或者大数据系统里都可以进行“无脑”式的相关性分析工作,并在正负相关性的基础上进行过滤,找到有趣的模式。这种试探性的认知方式使用极为普遍,而且建模容易,数据层面的证据充分,理解难度低,是大数据应用中一种很有效的分析方法。
[
上一页 ]
[ :1.70051009e+09 ]
[
下一页 ]