打字猴:1.702638829e+09
1702638829 统计学的世界(第8版) [:1702629697]
1702638830 统计学的世界(第8版) 第21章 什么是置信区间
1702638831
1702638832 案例分析
1702638833
1702638834 你认识很容易生气的人吗?大自然有办法让这些人平静下来,因为他们比较容易得心脏病。好几项观察研究都发现生气和心脏病之间存在相关性。最好的一项研究随机观察了12986人,来自各个种族和4个社区。首次做身体检查时,所有实验对象的年龄都在45~64岁之间,而且都没有心脏病。我们把焦点集中在这个样本当中血压正常的8474人身上。
1702638835
1702638836 有个简短的心理测试叫作“斯皮尔伯格发怒量表”(Spielberger Trait Anger Scale),用于度量每个人的易怒程度。结果表明,实验对象中有633人位于发怒量表的高阶,4731人在中阶,3110人在低阶。实验人员跟踪研究这些人近6年,并比较了高阶组和低阶组患心脏病的比率。有一些潜在变量存在,高阶组中大部分是男性、高中没毕业、爱抽烟喝酒的人。在对这些差异做出调整之后,最易怒的高阶组和最不易怒的低阶组比起来,前者患心脏病的概率是后者的2.2倍,前者患急性心脏病的概率是后者的2.7倍。
1702638837
1702638838 生气似乎是很严重的事。但在研究期间,低阶组和高阶组分别只有53人和27人患心脏病。我们知道,2.2倍和2.7倍这两个数字,对于所有血压正常的45~64岁人士来说不完全正确。但是,这两个结果接近实际情况吗?
1702638839
1702638840 我们将在本章学习置信区间,它可以帮助我们判断像2.2和2.7这样的数字有多准确。学完这一章,你将能够计算比例和平均数的置信区间,也能够解释这些区间代表的意思。
1702638841
1702638842 估计
1702638843
1702638844 统计推断根据样本数据对总体得出结论,比如,回答“职业女性中有大学学历的占多少百分比”或“得这类癌症的病人的平均存活时间是多少”这类问题,即估计用来描述总体的一个数值(百分比或平均数)。用来描述总体的数值叫作参数。要估计总体的参数,我们可以从总体中抽取一个样本,并把样本统计量的值当作总体参数的估计值。
1702638845
1702638846 例1 大学生酗酒问题
1702638847
1702638848
1702638849 高风险行为在人群中有多普遍?“行为风险因素监测系统”(BRFSS)是全球最大的以电话访问的形式进行持续健康调查的机构,早在1984年它就开始逐年跟踪美国人的健康状况和高风险行为。该调查结果可以在美国疾病控制和预防中心网站上看到。这个调查每个月都会从美国50个州、哥伦比亚特区、波多黎各、美属维京群岛和关岛收集数据。在加利福尼亚州,2010年BRFSS访问了一个包含6911名大学生的简单随机样本,其中有792人说他们那一年有过酗酒经历。酗酒是指男性一次喝5个或以上标准饮酒量的酒,女性一次饮用4个或以上标准饮酒量的酒。这个结果可能因为有些人不愿意如实告知酒精摄入量而出现偏差(见练习21.14),而在这里,我们假设调查对象说的都是真话。基于这些数据,我们如何判断2010年加州全体大学生中有多少百分比的人酗酒?我们把这个未知的参数p称为“比例”,用于估算参数p的是样本统计量。
1702638850
1702638851
1702638852
1702638853
1702638854 统计推断的一个基本步骤,就是用样本统计量来估计总体参数。一旦我们取得样本,就可以估算出所有加州大学生中2010年有过酗酒经历的人的比例“大约为11.5%”,因为样本统计量是11.5%。我们只能估计总体参数“大约”是这个数字,因为我们知道样本结果通常不会和总体的真实结果一模一样。置信区间把这个“大约”精确化了。
1702638855
1702638856 95%置信区间
1702638857
1702638858 95%置信区间是根据样本数据计算出来的一个区间,保证在所有样本当中,有95%的样本统计量会包含在该区间之中。
1702638859
1702638860 我们会先介绍总体参数的置信区间,再讨论我们实际上做了什么,并且稍加推广。
1702638861
1702638862 95%置信区间
1702638863
1702638864
1702638865
1702638866
1702638867 我们要估计总体成员中拥有某种特征的比例p,这个特征可能是他们有工作,或者他们对总统的表现满意等。让我们把正在考虑的这个特征叫作“成功”。我们会用简单随机样本的成功比例,来估计总体的成功比例p。样本统计量作为总体参数p的估计值,表现如何?想要得到答案,我们应该问:“如果我们取许多个样本,会发生什么情况?”我们知道,的值会随样本而变,我们也知道这个变异性不是偶发的。长期下来,它有很清楚的形态,用正态曲线可以把这个形态比较准确地描绘出来。
1702638868
1702638869 样本统计量的抽样分布
1702638870
1702638871
1702638872 样本统计量的抽样分布,是指从同一总体中抽出的同样大小的所有可能样本,其统计量之值的分布。从一个成功比例为p的很大的总体中抽取一个大小为n的简单随机样本,用表示成功的样本统计量:
1702638873
1702638874
1702638875
1702638876
1702638877 当样本够大时,
1702638878
[ 上一页 ]  [ :1.702638829e+09 ]  [ 下一页 ]