打字猴:1.70262728e+09
1702627280
1702627281 看穿一切数字的统计学 [:1702626734]
1702627282 07 为了1%的准确率值得花费几千万吗?
1702627283
1702627284
1702627285
1702627286 抽样调查中“经常出现的悖论”
1702627287
1702627288 很多人出于直觉认为,只有进行全面调查才能够得到正确的结果。比如说,上一节提到的关于失业率的调查,假设随机选取的0.5%的人全部都是失业者,而剩下的99.5%的人则全都没有失业,那么实际上整体的失业率只有0.5%,而抽样调查的结果却是失业率为100%,这就是抽样调查中“经常出现的悖论”。
1702627289
1702627290 可是,这个“经常出现的悖论”所举的例子究竟会不会出现?严格来说答案是“有可能出现”。但是对统计学家来说,不能仅仅回答“有可能出现”,还必须回答“有可能出现的概率”。
1702627291
1702627292 如果失业率真的只有0.5%,那么对总人口1.2亿中的0.5%,也就是60万人进行调查,结果这60万人全部是失业者的概率当然不可能为0。因为在数学上,不管一个数字多么无限接近于0,严格地说都不能将其称为0。
1702627293
1702627294 如果要将这个数字以小数的形式准确地表示出来,那恐怕要多达100万位数字以上,而且前面所有的数字都以0表示。
1702627295
1702627296 或许有人不知道为什么会出现这个数字,让我们换一种说法。0.5%的概率,也就是抽签200次只能中1次,那么要连续抽中60万次的概率有多大呢?
1702627297
1702627298 虽然将抽中的签再次放回抽签箱中的方法(统计学中将其称为重复抽样),与不放回的方法(不重复抽样)相比抽中的概率更高,但即便如此,仍然需要“在60万次抽签中维持1/200概率”的奇迹。这就是之前提到的那个无限接近于0的小数。
1702627299
1702627300 重复抽样可以在60万次的抽样中维持“1/200”的概率,而实际上,失业率调查属于不重复抽样,在最后第60万次的抽样中需要从剩下的约1.194亿人中选出唯一的失业者,这完全可以说是一个奇迹。
1702627301
1702627302 由此可见,提出“经常出现的悖论”的人实在是相当悲观,要不然就是骗子。既然没有人担心“小行星撞击地球的危险”,为什么对“导致抽样调查结果不准确的概率”表现得如此不信任?
1702627303
1702627304 如果说0.5%的概率连续抽中不太现实,那么如果是99%的概率,连续抽中60万次的可能性有多大呢?实际上,也只有0.24%,60万次的话就要在这个基础上除以1 000,这又是一个称得上是奇迹的概率。
1702627305
1702627306 为了使计算的过程更简单,我们经常能够见到以“调查对象全部准确”为例进行命题,但即便不是那样,对10万人进行调查的话,调查结果和真正的结果之间出现1%误差的概率,也是非常小的。
1702627307
1702627308 实际上在计算误差的时候,并不是像这样直接地进行概率计算,而是通过图2–2所示的公式来进行计算的。
1702627309
1702627310
1702627311
1702627312
1702627313 图2–2 标准误差计算公式
1702627314
1702627315 比如之前提到过的那个例子,总人数即美国的所有人口数也就是1.2亿,真实比率则是“真实失业率”的值。当然这个值我们并不知道,我们只要填入通过抽样调查得到的失业率数值即可,基本上填上这个值是不会错的。
1702627316
1702627317 因为在真实比率达到50%的时候,“标准误差”值为最大,所以如果不放心的话可以用50%这个值进行计算,用“能够想到的最大标准误差”进行判断,这也是一种慎重的做法。
1702627318
1702627319 为什么真实比率达到50%的时候,标准误差最大呢?因为0.5×(1–0.5)所得到的结果比0.6×(1–0.6)和0.3×(1–0.3)所得到的结果都大,因此我们选择50%作为最大值的标准。
1702627320
1702627321 至于标准误差的使用方法,因为从抽样调查中得到的比率(比如说失业率)是用标准误差除以2得到的数值,因此只要将算出的标准误差结果乘以2就是真实比率的范围。这一数据的可信度高达95%。
1702627322
1702627323 比如说抽样调查的结果显示失业率为25%,假设其标准误差为0.5%,那么全面调查得到的真实失业率数值应该在24%~26%之间,这一事实早已在80多年以前就已经被统计学家们证明过了。
1702627324
1702627325 增加1万个样本也只能改变0.1%的标准误差
1702627326
1702627327 那么,对于那些不喜欢看数学公式的人,让我们换一种说法解释标准误差的变化程度。
1702627328
1702627329 比如说,从10万名顾客的数据中对男女性别比率进行调查的结果,假设顾客中女性的比率占70%。那么关于这一结果的标准误差,在增加抽样调查的人数之后会发生怎样的变化呢。结果如图2–3所示。
[ 上一页 ]  [ :1.70262728e+09 ]  [ 下一页 ]