打字猴:1.702627294e+09
1702627294 如果要将这个数字以小数的形式准确地表示出来,那恐怕要多达100万位数字以上,而且前面所有的数字都以0表示。
1702627295
1702627296 或许有人不知道为什么会出现这个数字,让我们换一种说法。0.5%的概率,也就是抽签200次只能中1次,那么要连续抽中60万次的概率有多大呢?
1702627297
1702627298 虽然将抽中的签再次放回抽签箱中的方法(统计学中将其称为重复抽样),与不放回的方法(不重复抽样)相比抽中的概率更高,但即便如此,仍然需要“在60万次抽签中维持1/200概率”的奇迹。这就是之前提到的那个无限接近于0的小数。
1702627299
1702627300 重复抽样可以在60万次的抽样中维持“1/200”的概率,而实际上,失业率调查属于不重复抽样,在最后第60万次的抽样中需要从剩下的约1.194亿人中选出唯一的失业者,这完全可以说是一个奇迹。
1702627301
1702627302 由此可见,提出“经常出现的悖论”的人实在是相当悲观,要不然就是骗子。既然没有人担心“小行星撞击地球的危险”,为什么对“导致抽样调查结果不准确的概率”表现得如此不信任?
1702627303
1702627304 如果说0.5%的概率连续抽中不太现实,那么如果是99%的概率,连续抽中60万次的可能性有多大呢?实际上,也只有0.24%,60万次的话就要在这个基础上除以1 000,这又是一个称得上是奇迹的概率。
1702627305
1702627306 为了使计算的过程更简单,我们经常能够见到以“调查对象全部准确”为例进行命题,但即便不是那样,对10万人进行调查的话,调查结果和真正的结果之间出现1%误差的概率,也是非常小的。
1702627307
1702627308 实际上在计算误差的时候,并不是像这样直接地进行概率计算,而是通过图2–2所示的公式来进行计算的。
1702627309
1702627310
1702627311
1702627312
1702627313 图2–2 标准误差计算公式
1702627314
1702627315 比如之前提到过的那个例子,总人数即美国的所有人口数也就是1.2亿,真实比率则是“真实失业率”的值。当然这个值我们并不知道,我们只要填入通过抽样调查得到的失业率数值即可,基本上填上这个值是不会错的。
1702627316
1702627317 因为在真实比率达到50%的时候,“标准误差”值为最大,所以如果不放心的话可以用50%这个值进行计算,用“能够想到的最大标准误差”进行判断,这也是一种慎重的做法。
1702627318
1702627319 为什么真实比率达到50%的时候,标准误差最大呢?因为0.5×(1–0.5)所得到的结果比0.6×(1–0.6)和0.3×(1–0.3)所得到的结果都大,因此我们选择50%作为最大值的标准。
1702627320
1702627321 至于标准误差的使用方法,因为从抽样调查中得到的比率(比如说失业率)是用标准误差除以2得到的数值,因此只要将算出的标准误差结果乘以2就是真实比率的范围。这一数据的可信度高达95%。
1702627322
1702627323 比如说抽样调查的结果显示失业率为25%,假设其标准误差为0.5%,那么全面调查得到的真实失业率数值应该在24%~26%之间,这一事实早已在80多年以前就已经被统计学家们证明过了。
1702627324
1702627325 增加1万个样本也只能改变0.1%的标准误差
1702627326
1702627327 那么,对于那些不喜欢看数学公式的人,让我们换一种说法解释标准误差的变化程度。
1702627328
1702627329 比如说,从10万名顾客的数据中对男女性别比率进行调查的结果,假设顾客中女性的比率占70%。那么关于这一结果的标准误差,在增加抽样调查的人数之后会发生怎样的变化呢。结果如图2–3所示。
1702627330
1702627331
1702627332
1702627333
1702627334 图2–3 抽样人数对标准误差的影响
1702627335
1702627336 当抽样人数只有100名的时候,标准误差为4.6%,那么“顾客中女性比率占70%”的结果实际上在综合考虑后就应该是“女性比率占61%~79%”。但是当抽样人数增加到1 000人时,标准误差就降低到1.4%,综合的结果为“女性比率占67%~73%”;当抽样人数增加至8 000人时,标准误差为0.5%,综合的结果为“女性比率占69%~71%”。
1702627337
1702627338 而在此基础上“继续增加抽样调查人数对标准误差的影响越来越小”,当抽样人数为1万人时,标准误差为0.4%,抽样人数为2万人时,标准误差为0.3%。
1702627339
1702627340 这一结果,就算与花高价投资的数据处理服务器所得到的“女性比率占70%”的准确结果相比,对于判断可以说也几乎没有影响。
1702627341
1702627342 随机抽取8 000名顾客的数据,对于数据库管理员来说易如反掌,而将这8 000条数据记录在Excel表格中,就连打工的学生也能轻松完成。至于数据库管理员的加班费和学生的报酬大概只要几万日元就搞定了吧。为了那仅仅不到1%的准确度,有必要投资数千万日元吗?
1702627343
[ 上一页 ]  [ :1.702627294e+09 ]  [ 下一页 ]