打字猴:1.702627309e+09
1702627309
1702627310
1702627311
1702627312
1702627313 图2–2 标准误差计算公式
1702627314
1702627315 比如之前提到过的那个例子,总人数即美国的所有人口数也就是1.2亿,真实比率则是“真实失业率”的值。当然这个值我们并不知道,我们只要填入通过抽样调查得到的失业率数值即可,基本上填上这个值是不会错的。
1702627316
1702627317 因为在真实比率达到50%的时候,“标准误差”值为最大,所以如果不放心的话可以用50%这个值进行计算,用“能够想到的最大标准误差”进行判断,这也是一种慎重的做法。
1702627318
1702627319 为什么真实比率达到50%的时候,标准误差最大呢?因为0.5×(1–0.5)所得到的结果比0.6×(1–0.6)和0.3×(1–0.3)所得到的结果都大,因此我们选择50%作为最大值的标准。
1702627320
1702627321 至于标准误差的使用方法,因为从抽样调查中得到的比率(比如说失业率)是用标准误差除以2得到的数值,因此只要将算出的标准误差结果乘以2就是真实比率的范围。这一数据的可信度高达95%。
1702627322
1702627323 比如说抽样调查的结果显示失业率为25%,假设其标准误差为0.5%,那么全面调查得到的真实失业率数值应该在24%~26%之间,这一事实早已在80多年以前就已经被统计学家们证明过了。
1702627324
1702627325 增加1万个样本也只能改变0.1%的标准误差
1702627326
1702627327 那么,对于那些不喜欢看数学公式的人,让我们换一种说法解释标准误差的变化程度。
1702627328
1702627329 比如说,从10万名顾客的数据中对男女性别比率进行调查的结果,假设顾客中女性的比率占70%。那么关于这一结果的标准误差,在增加抽样调查的人数之后会发生怎样的变化呢。结果如图2–3所示。
1702627330
1702627331
1702627332
1702627333
1702627334 图2–3 抽样人数对标准误差的影响
1702627335
1702627336 当抽样人数只有100名的时候,标准误差为4.6%,那么“顾客中女性比率占70%”的结果实际上在综合考虑后就应该是“女性比率占61%~79%”。但是当抽样人数增加到1 000人时,标准误差就降低到1.4%,综合的结果为“女性比率占67%~73%”;当抽样人数增加至8 000人时,标准误差为0.5%,综合的结果为“女性比率占69%~71%”。
1702627337
1702627338 而在此基础上“继续增加抽样调查人数对标准误差的影响越来越小”,当抽样人数为1万人时,标准误差为0.4%,抽样人数为2万人时,标准误差为0.3%。
1702627339
1702627340 这一结果,就算与花高价投资的数据处理服务器所得到的“女性比率占70%”的准确结果相比,对于判断可以说也几乎没有影响。
1702627341
1702627342 随机抽取8 000名顾客的数据,对于数据库管理员来说易如反掌,而将这8 000条数据记录在Excel表格中,就连打工的学生也能轻松完成。至于数据库管理员的加班费和学生的报酬大概只要几万日元就搞定了吧。为了那仅仅不到1%的准确度,有必要投资数千万日元吗?
1702627343
1702627344 虽然这种方法与现在大数据时代的思考方式刚好相反,但是每当有人向我进行数据分析的咨询时,我都会推荐他们“先找到为了进行正确的判断所必需的最少数据”。如果1%的误差在今后几年内不断累积,会对数千万日元的销售额和成本产生影响,那么在这种情况下大数据分析技术就会派上用场吧。可是即便在这种情况下,也没有必要从一开始就对全部数据进行分析。
1702627345
1702627346 数据分析的过程,实际上就是一个不断探索的过程。需要分析的数据越复杂就越是如此,随着分析的不断深入,发现的问题就会越多,甚至会出现与实际情况完全相反的结果,为此就要尝试不同的分析方法,而在分析中使用的数据如果发现有什么问题也要及时地进行修正,上述这些问题即便是经验非常丰富的统计学家也无法避免。实际上为了避免出现错误,越是经验丰富的统计学家,在分析的准备上所花费的时间就越多。
1702627347
1702627348 在对参考结果选择各种各样的方法与数据作为突破口的探索分析之中,尝试的次数是非常重要的。因此,那些必须使用特殊工具或者奇妙程序的情况,以及必须长时间等待分析结果的情况都应该尽可能地避免。这样的话,就算最后必须以全部数据为对象进行分析和验证,也可以事先获取一定量的抽样数据,并且通过探索分析找到建立假设的依据。
1702627349
1702627350 虽然为了建立假设寻找一定量抽样数据的方法,需要相当专业的统计学知识,但如果只是为了掌握数据概况的话,有上万条数据就够了,这种程度的统计工作仅靠一个熟练应用Excel的人就可以搞定。
1702627351
1702627352 当然,对庞大的数据进行高速且符合一定条件的随机抽样调查,以及对最终的分析结果是否准确进行验证的时候,还是需要大数据技术发挥实力。但是,这种速度和准确度究竟有多大的价值呢?这个问题的答案,就要取决于分析结果能够产生多大的价值了。
1702627353
1702627354 实际上分析本身并没有价值,如何活用分析的结果,最终得到的价值也是不同的。
1702627355
1702627356
1702627357
1702627358
[ 上一页 ]  [ :1.702627309e+09 ]  [ 下一页 ]