打字猴:1.702638969e+09
1702638969
1702638970 我们知道关于抽样调查的新闻报道,通常会把估计值和误差范围分开来说。比如,“根据一项最新的盖洛普调查,有65%的女性赞成制定新法规对枪支进行管制。误差范围是±4%”。我们也知道,新闻报道往往对置信度省略不说,不过置信区间通常是95%。
1702638971
1702638972 如果下一次你看到一则关于抽样调查结果的新闻,可以这样想:如果媒体报道的大部分置信区间是95%,那么在你看到的20个抽样调查的结果中,大约有1个的置信区间中不包含真实比例。
1702638973
1702638974 并不是所有的置信区间都用“估计值±误差范围”这种形式表示。以下是对置信区间的完整描述。
1702638975
1702638976 置信区间
1702638977
1702638978 一个参数的C置信区间(level C Confidence interval)包含两个部分:
1702638979
1702638980 • 一个根据数据计算出来的区间。
1702638981
1702638982 • 置信度C(Confidence level C)是在多次重复抽样的情况下,区间包含参数真实值的概率。
1702638983
1702638984 置信区间的公式有许多种,可在不同的情况下使用。要知道,不管用哪种公式,置信区间的解释方法都是一样的,而且你没办法让电脑来替你做这件事。
1702638985
1702638986 置信区间应用了概率的核心概念:如果抽样许多次,考虑会发生什么情况。95%置信区间中的95%是概率,是这个方法所产生的区间内包含参数真实值的概率。
1702638987
1702638988 例4 置信区间的变化
1702638989
1702638990 BRFSS2010年在6911名加州大学生的样本中发现有792人酗酒,所以样本统计量是:
1702638991
1702638992
1702638993
1702638994
1702638995 95%置信区间是:
1702638996
1702638997
1702638998
1702638999
1702639000 从同一个总体中再抽一个同样大小的样本,结果发现有826个调查对象有酗酒经历。对于这个样本:
1702639001
1702639002
1702639003
1702639004
1702639005 继续抽一个同样大小的样本,其中的酗酒人数是752人,其样本统计量和置信区间分别为:
1702639006
1702639007
1702639008
1702639009
1702639010
1702639011 继续多次抽样,每一个样本都会给出一个新的值和置信区间。如果我们不停地抽样,就会有95%的置信区间中包含那个真实参数值。不管真实参数是多少,结果都是这样。图21-3展示了这个过程和结果。
1702639012
1702639013
1702639014
1702639015
1702639016 图21-3 从同一总体中反复抽样,会得到不一样的95%置信区间,但这些区间中有95%包含真实的p值
1702639017
1702639018 知识普及 谁抽烟?
[ 上一页 ]  [ :1.702638969e+09 ]  [ 下一页 ]