1700510167
数据科学家养成手册 16.6 有趣的统计应用
1700510168
1700510169
在和很多分析人员攀谈的过程中,我听到过一些抱怨:“这些数字完全是随机的,太糟糕了。”“随机的东西没什么价值。”不过,随机真的不好吗?
1700510170
1700510171
人们对客观事物认知的不断深入是一个熵减的过程。人们厌恶信息熵,总觉得它意味着杂乱、未知,是千百年来都要消灭的认知“大敌”。降低认知中的熵也是数据科学的使命中最为重要的组成部分。熵和随机不分家。在相同条件下重复进行试验,每次的结果未必相同——这种困扰对于认知能力有限的人类来说永远存在。然而,基于“尺有所短,寸有所长”的辩证逻辑观点,“随机没有价值”这样的观点是值得怀疑的。著名统计学家R.C.Rao的Statistics and Truth一书中有一些案例就很好地利用了随机这种特性的优点。
1700510172
1700510174
16.6.1 不规则图形的面积
1700510175
1700510176
平面中有一个不规则图形(如图16-13所示),我们能求出它的面积吗?乍一看用初等数学中的割补法恐怕难有进展,所以不妨把它放到计算机中,用统计学中的概率来尝试计算。
1700510177
1700510178
1700510179
1700510180
1700510181
图16-13 不规则图形
1700510182
1700510183
随机产生一个平均分布的序列x,取值范围为1到n,n为整个矩形的宽度像素数。随机产生一个平均分布的序列y,取值范围为1到m,m为整个矩形的高度像素数。在大量产生向量ai=(x, y)坐标值的过程中,由于x和y是平均分布的,所以落入图形中的概率值与整个矩形的概率值之比就是其面积。在i无限趋向∞的过程中,这个比值也在无限接近理想的面积S。
1700510184
1700510185
如果能够获得这些图形边线的方程当然很好。如果不能,也可以用颜色差异来判断生成的ai向量落入不规则图形与未落入不规则图形的区别。这就是一个巧妙利用随机求不规则图形的数值解的方法,而且可以推广到无限高维。
1700510186
1700510188
16.6.2 套出你的实话
1700510189
1700510190
在以访谈的形式获取调查数据的过程中,可能会遇到一些尴尬,例如问题可能触及受访者的隐私。即使调查者信誓旦旦地对受访者保证绝不会外泄信息,受访者还是会心存芥蒂,答题的时候很可能会给出一个“不正确”的答案。
1700510191
1700510192
如果在问卷中明确写着“您吸食大麻吗”,就算是不记名问卷,也会有相当比例的受访者因为畏惧交卷时被他人看到自己的答案流露出不屑或鄙夷而填写“否”。怎么办?这时可以和受访者做一个“小游戏”。凡是涉及这种情况时,都可以使用一个“无害”的问题作为配伍。
1700510193
1700510194
一个问题被设计成了两个问句,一个是S(您吸食大麻吗?),另一个是T(您的手机号码尾数是偶数吗?)。受访者被要求掷一次硬币,如果正面朝上,就回答S,如果反面朝上,就回答T,而且不用标注究竟掷出来的是哪一种情况。这下气氛就轻松多了。在实验中,大部分受访者都会老老实实掷一次硬币,然后根据硬币的正反面来回答对应的问题。
1700510195
1700510196
1700510197
1700510198
1700510199
1700510200
1700510201
1700510202
1700510203
1700510204
1700510205
假设我们要求的吸食大麻的人数比例为π,手机尾号为偶数的人数比例为λ,该题目回答“是”的人数比例为p。根据随机的原理,回答S题目的人数比例约为,回答T题目的人数比例约为。在选择S题目的人中,回答“是”的人数比例为,回答“否”的人数比例为;在选择T题目的人中,回答“偶数”的人数比例为,回答“不为偶数”的人数比例为。所以,,用来估算吸食大麻的人数比例。其中,p是统计结果中的已知值,λ则可以要求受访者留下手机号码或者干脆在大样本中直接取。
1700510206
1700510207
这里使用的同样是随机现象所产生的正面影响。是不是很有趣呢?
1700510208
1700510210
16.6.3 巧测圆周率
1700510211
1700510212
“蒲丰投针实验”是由法国数学家蒲丰(4)(如图16-14所示)完成的一个有趣的数学实验。
1700510213
1700510214
1700510215
[
上一页 ]
[ :1.700510166e+09 ]
[
下一页 ]