打字猴:1.702627264e+09

1702627264

1702627265 假设前一种方案的全面调查方式能够得到失业者的支持，那么就要对大概超过1 000万人以上的登记卡进行收集和整理，与之相比，对占总人口数的0.5%的人（约60万~70万人）的调查结果进行收集和整理，两者谁更节约、更高效呢？毫无疑问一定是后者吧。

1702627266

1702627267 后来，美国率先摆脱了大萧条的局面，这究竟是否应该归功于罗斯福与年轻统计学家们的新政，在经济学家中众说纷纭、尚无定论。但不管怎样，由新政主导的大规模公共工程建设开始后，失业率开始下降的事实已经被统计学家们所设计的调查的数据所证实。

1702627268

1702627269 能够在当时有限的财政预算之内，准确地计算出失业率实际下降了多少，可以说完全是当时那些优秀的统计学家们的功劳。

1702627270

1702627271 后来，这些统计学家们又对消费者物价指数以及工业统计进行了调查，并且针对这些反映一国宏观经济状况的重要指标设计了利用样本进行的定期调查。如果没有统计学家的贡献，后世的经济学家们关于“面对经济萧条的局面应该采取什么政策”的讨论就会缺乏重要的数据基础，那么一切或许都会变成“纸上谈兵”。

1702627272

1702627273 如果日本难以摆脱“第二次全球金融危机”的话，不妨也积极地雇用那些找不到工作的优秀大学毕业生，充分地发挥他们的力量。

1702627274

1702627275 我经常从现代的一些人口中听到“抽样调查的结果根本没有可信度”这样的话，似乎日本的行政部门所掌握的统计能力与80年前的美国相比，没有一丁点儿的进步。

1702627276

1702627277 当然，抽样调查的准确率确实比全面调查要低，但问题在于究竟低多少，以及准确率较低的结果对实际判断和应该采取的行动会产生怎样的影响。反过来说，对判断和行动不会产生影响的准确率是毫无意义的，为了这些毫无意义的准确率所花费的成本都是一种浪费。

1702627278

1702627279 当面对难以处理的庞大数据之时，适当地进行抽样调查可以大幅减少为了获取必要信息所花费的成本，这一点不管在80年前还是现在都是一样的。可即便如此，那些热衷于大数据的商人们还是不断地提倡对大数据原原本本地进行计算。

1702627280

1702627281 看穿一切数字的统计学 [:1702626734]

1702627282 07 为了1%的准确率值得花费几千万吗？

1702627283

1702627284

1702627285

1702627286 抽样调查中“经常出现的悖论”

1702627287

1702627288 很多人出于直觉认为，只有进行全面调查才能够得到正确的结果。比如说，上一节提到的关于失业率的调查，假设随机选取的0.5%的人全部都是失业者，而剩下的99.5%的人则全都没有失业，那么实际上整体的失业率只有0.5%，而抽样调查的结果却是失业率为100%，这就是抽样调查中“经常出现的悖论”。

1702627289

1702627290 可是，这个“经常出现的悖论”所举的例子究竟会不会出现？严格来说答案是“有可能出现”。但是对统计学家来说，不能仅仅回答“有可能出现”，还必须回答“有可能出现的概率”。

1702627291

1702627292 如果失业率真的只有0.5%，那么对总人口1.2亿中的0.5%，也就是60万人进行调查，结果这60万人全部是失业者的概率当然不可能为0。因为在数学上，不管一个数字多么无限接近于0，严格地说都不能将其称为0。

1702627293

1702627294 如果要将这个数字以小数的形式准确地表示出来，那恐怕要多达100万位数字以上，而且前面所有的数字都以0表示。

1702627295

1702627296 或许有人不知道为什么会出现这个数字，让我们换一种说法。0.5%的概率，也就是抽签200次只能中1次，那么要连续抽中60万次的概率有多大呢？

1702627297

1702627298 虽然将抽中的签再次放回抽签箱中的方法（统计学中将其称为重复抽样），与不放回的方法（不重复抽样）相比抽中的概率更高，但即便如此，仍然需要“在60万次抽签中维持1/200概率”的奇迹。这就是之前提到的那个无限接近于0的小数。

1702627299

1702627300 重复抽样可以在60万次的抽样中维持“1/200”的概率，而实际上，失业率调查属于不重复抽样，在最后第60万次的抽样中需要从剩下的约1.194亿人中选出唯一的失业者，这完全可以说是一个奇迹。

1702627301

1702627302 由此可见，提出“经常出现的悖论”的人实在是相当悲观，要不然就是骗子。既然没有人担心“小行星撞击地球的危险”，为什么对“导致抽样调查结果不准确的概率”表现得如此不信任？

1702627303

1702627304 如果说0.5%的概率连续抽中不太现实，那么如果是99%的概率，连续抽中60万次的可能性有多大呢？实际上，也只有0.24%，60万次的话就要在这个基础上除以1 000，这又是一个称得上是奇迹的概率。

1702627305

1702627306 为了使计算的过程更简单，我们经常能够见到以“调查对象全部准确”为例进行命题，但即便不是那样，对10万人进行调查的话，调查结果和真正的结果之间出现1%误差的概率，也是非常小的。

1702627307

1702627308 实际上在计算误差的时候，并不是像这样直接地进行概率计算，而是通过图2–2所示的公式来进行计算的。

1702627309

1702627310

1702627311

1702627312

1702627313 图2–2 标准误差计算公式

[ 上一页 ] [ :1.702627264e+09 ] [ 下一页 ]