打字猴:1.702640026e+09
1702640026
1702640027
1702640028
1702640029
1702640030 置信区间把我们对真实p值的了解(以95%的置信度)明白地表示出来。抛1000次和抛4040次硬币所得到的置信区间都包含了0.5这个数字,所以我们不会怀疑硬币不平衡。可是抛100000次的时候,我们却有把握认为真实的p值落在0.504~0.510的区间里。因此,我们可以认为p值不是0.5。
1702640031
1702640032 给出置信区间
1702640033
1702640034 置信区间提供的信息比显著性检验多,因为置信区间实际上估计了总体参数的值,而且置信区间也比较容易解释。因此,好的做法是尽可能地给出置信区间。
1702640035
1702640036 “5%的显著性水平”并非神奇的指标
1702640037
1702640038 显著性检验的目的,就是评估样本所提供的不利于零假设的证据有多强,P值在做这件事。但是,要证明零假设不正确,P值要小到何种程度,才能令人信服呢?这主要根据两种情况来决定:
1702640039
1702640040 • H0的可信度有多高?如果H0所代表的假设是人们多年来一直深信不疑的事,就需要很强的证据(很小的P值)才能说服他们。
1702640041
1702640042 • 否定H0的结果是什么?如果否定H0而肯定Ha,意味着要花很多钱把产品包装改换成另一种,你就需要有很强的证据,证明采用新包装一定能增加销售量。
1702640043
1702640044 这两种标准都有点儿主观。不同的人常想用不同的显著性水平,P值可以让我们自行决定证据是不是充分。但什么样的显著性水平能让我们满意,必须在计算P值之前就确定下来。先计算P值,再确定让我们满意的显著性水平略高于这个P值,这种做法是对显著性检验的滥用。
1702640045
1702640046 使用统计检验的人常会强调某几个标准的显著性水平,比如10%、5%和1%。举例来说,法庭在一些歧视案件里常用5%当作标准。把重点放在这几个值上,反映出做统计检验的人仍在使用临界值,而尚未进入电脑时代。5%的显著性水平(α=0.05)尤其常见。在“显著”和“不显著”之间没有清楚的界线,只是在P值越来越小时,我们有越来越强的证据而已。0.049和0.051这两个P值,并没有实质性差别。把P≤0.05当作“显著性水平”的全球性标准,一点儿道理也没有。
1702640047
1702640048 【统计学中的争议】 应该禁止显著性检验吗?
1702640049
1702640050 许多领域的研究都依赖显著性检验,甚至形成过度依赖。哈佛大学一位因统计检验而出名的杰出心理学家罗伯特·罗森塔尔说:“我们当中许多人所受的训练,是叫我们不要过于仔细地看数据。你建立一项假设,选择用何种统计检验方法,然后执行该检验,如果你的结果有5%的统计学显著性水平,你的假设就会得到支持。否则就把它们往抽屉里一塞,束之高阁。”
1702640051
1702640052 你对上面的说法有何反应?这个方法与我们在本书里强调的方法相比,怎么样?
1702640053
1702640054
1702640055
1702640056
1702640057 怎么会有这么多心理学家几乎从来不看数据呢?有些心理学家说,是因为显著性检验的唯我独尊,以及5%的显著性水平被当作结果足够重要的神奇指标。尤其在“结果要想发表,就必须有5%的显著性水平”已成为惯例的情况下,研究者养成了罗森塔尔所说的那种坏习惯:有5%的统计学显著性水平,成功;没有5%的统计学显著性水平,失败。批评者说,既然对统计检验的限制这么大,解释错误的风险这么高而且坏习惯这样根深蒂固,心理学专业期刊就应该全面禁止显著性检验。
1702640058
1702640059 提防刻意寻找的显著性
1702640060
1702640061 统计学显著性的意义应该是,你找到了你想找的效应。假如你先决定你在寻找什么效应,然后设计统计研究来找这个效应,再用显著性检验来评估你得到的证据,那么统计学显著性背后的证据就可以发挥作用。如果不是这样,显著性检验的实际意义可能不大。
1702640062
1702640063 例4 预测受训者的成功概率
1702640064
1702640065 在接受管理培训的人中,有的人最后成了管理者,有的人却没有长进,不得不离开公司。你想知道是什么因素造成了这么大的区别吗?你有很多关于以往受训者的数据,包括他们的个性和目标,大学时学过什么课程以及表现如何,还有他们的家庭背景和嗜好。利用统计软件,你可以轻松对这些变量进行很多显著性检验,看看哪些变量能够预测受训者未来成功。啊哈!结果你发现,和被淘汰的人相比,未来的管理者明显拥有城市或郊区的生活背景,以及技术专业的学士学位。
1702640066
1702640067 在你决定以后根据这些发现做招聘之前,先要记住,有5%显著性水平的结果,即使H0为真,长期来看,100次之中也会发生5次。当你做了很多个显著性水平为5%的检验时,你会预期其中几个仅因为随机性就表现出统计学显著性。做一个α=0.05的检验,是你有所发现的一个不错的证据。但是,几十次检验中只有一两次达到这个水平,就算不上证据了。
1702640068
1702640069 在例4里,我们检验了每种可能,再挑出其中最具显著性的结果。这是错误的做法,会混淆“数据的探索分析”(使用图、表、数字概括,如同第二部分,找出数据的模式)与“正式的统计推断”。如果你用数据探索分析的方法检验各种研究结果,找到统计学显著性并不令人惊讶,只需要挑出最大的,然后检验,看看它是否明显大于其他。
1702640070
1702640071 在数据里搜寻可能的形态当然是合理的,“探索性数据分析”(exploratory data analysis)是统计研究的一个重要组成部分。但是,如果你已经成功地在数据里找到了突出的效应,正式推断的论据就不再适用了。补救方法很清楚:建立假设后,设计一个研究来找寻你想找的特定效应。如果这个研究结果有统计学显著性,你就有真正的证据了。
1702640072
1702640073 练习
1702640074
1702640075 23.2 带我去看球赛。一位实验人员比较了某个大城市近期的一个离婚男性的随机样本,和同一城市的一个已经结婚10年且从未离过婚的男性的随机样本。他研究了每个样本的122个变量,并且在这两个样本之间做了122个独立的显著性检验。只有一个变量具有1%的显著性水平,即男人带他们的妻子多久看一次大联盟棒球赛。已婚男性带妻子看大联盟棒球赛的比例平均而言要比那些离婚男性高。这是一个看大联盟棒球赛会提高婚姻稳定程度的好的证据吗?讨论一下。
[ 上一页 ]  [ :1.702640026e+09 ]  [ 下一页 ]