打字猴:1.702638819e+09
1702638819 统计学的世界(第8版) [:1702629696]
1702638820 统计学的世界(第8版) 第4部分 统计推断
1702638821
1702638822 推断的意思是根据证据得出结论。统计推断是根据样本所提供的证据,对总体得出结论。在数学领域形成结论,要从某些假设开始,然后通过逻辑推理证明结论确实成立。统计学却不一样。统计结论不是百分之百确定的,因为样本不等于总体。所以,统计推断除了结论之外,还需要说明结论的不确定程度。我们用概率语言来表达结果的不确定程度。
1702638823
1702638824 因为推断必须得出结论,并说明不确定的程度,所以它是统计学中最专业的部分。旨在训练人们在实践中应用统计学的教科书和课程,把大部分时间都花在推断上面。我们这本书的目标,就是帮助你了解统计学,技巧不需要那么多,思考却不可或缺。我们只会谈到推断的几个基本技巧。技巧很简单,背后的概念却很精妙,所以要准备开始思考了。先想想你已学到的东西,不要被统计技巧唬住了,即使使用最高超技巧的推断,也没法弥补诸如自愿回应样本或没有控制组的实验所造成的瑕疵。
1702638825
1702638826
1702638827
1702638828
1702638829 统计学的世界(第8版) [:1702629697]
1702638830 统计学的世界(第8版) 第21章 什么是置信区间
1702638831
1702638832 案例分析
1702638833
1702638834 你认识很容易生气的人吗?大自然有办法让这些人平静下来,因为他们比较容易得心脏病。好几项观察研究都发现生气和心脏病之间存在相关性。最好的一项研究随机观察了12986人,来自各个种族和4个社区。首次做身体检查时,所有实验对象的年龄都在45~64岁之间,而且都没有心脏病。我们把焦点集中在这个样本当中血压正常的8474人身上。
1702638835
1702638836 有个简短的心理测试叫作“斯皮尔伯格发怒量表”(Spielberger Trait Anger Scale),用于度量每个人的易怒程度。结果表明,实验对象中有633人位于发怒量表的高阶,4731人在中阶,3110人在低阶。实验人员跟踪研究这些人近6年,并比较了高阶组和低阶组患心脏病的比率。有一些潜在变量存在,高阶组中大部分是男性、高中没毕业、爱抽烟喝酒的人。在对这些差异做出调整之后,最易怒的高阶组和最不易怒的低阶组比起来,前者患心脏病的概率是后者的2.2倍,前者患急性心脏病的概率是后者的2.7倍。
1702638837
1702638838 生气似乎是很严重的事。但在研究期间,低阶组和高阶组分别只有53人和27人患心脏病。我们知道,2.2倍和2.7倍这两个数字,对于所有血压正常的45~64岁人士来说不完全正确。但是,这两个结果接近实际情况吗?
1702638839
1702638840 我们将在本章学习置信区间,它可以帮助我们判断像2.2和2.7这样的数字有多准确。学完这一章,你将能够计算比例和平均数的置信区间,也能够解释这些区间代表的意思。
1702638841
1702638842 估计
1702638843
1702638844 统计推断根据样本数据对总体得出结论,比如,回答“职业女性中有大学学历的占多少百分比”或“得这类癌症的病人的平均存活时间是多少”这类问题,即估计用来描述总体的一个数值(百分比或平均数)。用来描述总体的数值叫作参数。要估计总体的参数,我们可以从总体中抽取一个样本,并把样本统计量的值当作总体参数的估计值。
1702638845
1702638846 例1 大学生酗酒问题
1702638847
1702638848
1702638849 高风险行为在人群中有多普遍?“行为风险因素监测系统”(BRFSS)是全球最大的以电话访问的形式进行持续健康调查的机构,早在1984年它就开始逐年跟踪美国人的健康状况和高风险行为。该调查结果可以在美国疾病控制和预防中心网站上看到。这个调查每个月都会从美国50个州、哥伦比亚特区、波多黎各、美属维京群岛和关岛收集数据。在加利福尼亚州,2010年BRFSS访问了一个包含6911名大学生的简单随机样本,其中有792人说他们那一年有过酗酒经历。酗酒是指男性一次喝5个或以上标准饮酒量的酒,女性一次饮用4个或以上标准饮酒量的酒。这个结果可能因为有些人不愿意如实告知酒精摄入量而出现偏差(见练习21.14),而在这里,我们假设调查对象说的都是真话。基于这些数据,我们如何判断2010年加州全体大学生中有多少百分比的人酗酒?我们把这个未知的参数p称为“比例”,用于估算参数p的是样本统计量。
1702638850
1702638851
1702638852
1702638853
1702638854 统计推断的一个基本步骤,就是用样本统计量来估计总体参数。一旦我们取得样本,就可以估算出所有加州大学生中2010年有过酗酒经历的人的比例“大约为11.5%”,因为样本统计量是11.5%。我们只能估计总体参数“大约”是这个数字,因为我们知道样本结果通常不会和总体的真实结果一模一样。置信区间把这个“大约”精确化了。
1702638855
1702638856 95%置信区间
1702638857
1702638858 95%置信区间是根据样本数据计算出来的一个区间,保证在所有样本当中,有95%的样本统计量会包含在该区间之中。
1702638859
1702638860 我们会先介绍总体参数的置信区间,再讨论我们实际上做了什么,并且稍加推广。
1702638861
1702638862 95%置信区间
1702638863
1702638864
1702638865
1702638866
1702638867 我们要估计总体成员中拥有某种特征的比例p,这个特征可能是他们有工作,或者他们对总统的表现满意等。让我们把正在考虑的这个特征叫作“成功”。我们会用简单随机样本的成功比例,来估计总体的成功比例p。样本统计量作为总体参数p的估计值,表现如何?想要得到答案,我们应该问:“如果我们取许多个样本,会发生什么情况?”我们知道,的值会随样本而变,我们也知道这个变异性不是偶发的。长期下来,它有很清楚的形态,用正态曲线可以把这个形态比较准确地描绘出来。
1702638868
[ 上一页 ]  [ :1.702638819e+09 ]  [ 下一页 ]