打字猴:1.702627271e+09
1702627271 后来,这些统计学家们又对消费者物价指数以及工业统计进行了调查,并且针对这些反映一国宏观经济状况的重要指标设计了利用样本进行的定期调查。如果没有统计学家的贡献,后世的经济学家们关于“面对经济萧条的局面应该采取什么政策”的讨论就会缺乏重要的数据基础,那么一切或许都会变成“纸上谈兵”。
1702627272
1702627273 如果日本难以摆脱“第二次全球金融危机”的话,不妨也积极地雇用那些找不到工作的优秀大学毕业生,充分地发挥他们的力量。
1702627274
1702627275 我经常从现代的一些人口中听到“抽样调查的结果根本没有可信度”这样的话,似乎日本的行政部门所掌握的统计能力与80年前的美国相比,没有一丁点儿的进步。
1702627276
1702627277 当然,抽样调查的准确率确实比全面调查要低,但问题在于究竟低多少,以及准确率较低的结果对实际判断和应该采取的行动会产生怎样的影响。反过来说,对判断和行动不会产生影响的准确率是毫无意义的,为了这些毫无意义的准确率所花费的成本都是一种浪费。
1702627278
1702627279 当面对难以处理的庞大数据之时,适当地进行抽样调查可以大幅减少为了获取必要信息所花费的成本,这一点不管在80年前还是现在都是一样的。可即便如此,那些热衷于大数据的商人们还是不断地提倡对大数据原原本本地进行计算。
1702627280
1702627281 看穿一切数字的统计学 [:1702626734]
1702627282 07 为了1%的准确率值得花费几千万吗?
1702627283
1702627284
1702627285
1702627286 抽样调查中“经常出现的悖论”
1702627287
1702627288 很多人出于直觉认为,只有进行全面调查才能够得到正确的结果。比如说,上一节提到的关于失业率的调查,假设随机选取的0.5%的人全部都是失业者,而剩下的99.5%的人则全都没有失业,那么实际上整体的失业率只有0.5%,而抽样调查的结果却是失业率为100%,这就是抽样调查中“经常出现的悖论”。
1702627289
1702627290 可是,这个“经常出现的悖论”所举的例子究竟会不会出现?严格来说答案是“有可能出现”。但是对统计学家来说,不能仅仅回答“有可能出现”,还必须回答“有可能出现的概率”。
1702627291
1702627292 如果失业率真的只有0.5%,那么对总人口1.2亿中的0.5%,也就是60万人进行调查,结果这60万人全部是失业者的概率当然不可能为0。因为在数学上,不管一个数字多么无限接近于0,严格地说都不能将其称为0。
1702627293
1702627294 如果要将这个数字以小数的形式准确地表示出来,那恐怕要多达100万位数字以上,而且前面所有的数字都以0表示。
1702627295
1702627296 或许有人不知道为什么会出现这个数字,让我们换一种说法。0.5%的概率,也就是抽签200次只能中1次,那么要连续抽中60万次的概率有多大呢?
1702627297
1702627298 虽然将抽中的签再次放回抽签箱中的方法(统计学中将其称为重复抽样),与不放回的方法(不重复抽样)相比抽中的概率更高,但即便如此,仍然需要“在60万次抽签中维持1/200概率”的奇迹。这就是之前提到的那个无限接近于0的小数。
1702627299
1702627300 重复抽样可以在60万次的抽样中维持“1/200”的概率,而实际上,失业率调查属于不重复抽样,在最后第60万次的抽样中需要从剩下的约1.194亿人中选出唯一的失业者,这完全可以说是一个奇迹。
1702627301
1702627302 由此可见,提出“经常出现的悖论”的人实在是相当悲观,要不然就是骗子。既然没有人担心“小行星撞击地球的危险”,为什么对“导致抽样调查结果不准确的概率”表现得如此不信任?
1702627303
1702627304 如果说0.5%的概率连续抽中不太现实,那么如果是99%的概率,连续抽中60万次的可能性有多大呢?实际上,也只有0.24%,60万次的话就要在这个基础上除以1 000,这又是一个称得上是奇迹的概率。
1702627305
1702627306 为了使计算的过程更简单,我们经常能够见到以“调查对象全部准确”为例进行命题,但即便不是那样,对10万人进行调查的话,调查结果和真正的结果之间出现1%误差的概率,也是非常小的。
1702627307
1702627308 实际上在计算误差的时候,并不是像这样直接地进行概率计算,而是通过图2–2所示的公式来进行计算的。
1702627309
1702627310
1702627311
1702627312
1702627313 图2–2 标准误差计算公式
1702627314
1702627315 比如之前提到过的那个例子,总人数即美国的所有人口数也就是1.2亿,真实比率则是“真实失业率”的值。当然这个值我们并不知道,我们只要填入通过抽样调查得到的失业率数值即可,基本上填上这个值是不会错的。
1702627316
1702627317 因为在真实比率达到50%的时候,“标准误差”值为最大,所以如果不放心的话可以用50%这个值进行计算,用“能够想到的最大标准误差”进行判断,这也是一种慎重的做法。
1702627318
1702627319 为什么真实比率达到50%的时候,标准误差最大呢?因为0.5×(1–0.5)所得到的结果比0.6×(1–0.6)和0.3×(1–0.3)所得到的结果都大,因此我们选择50%作为最大值的标准。
1702627320
[ 上一页 ]  [ :1.702627271e+09 ]  [ 下一页 ]