打字猴:1.702640045e+09
1702640045
1702640046 使用统计检验的人常会强调某几个标准的显著性水平,比如10%、5%和1%。举例来说,法庭在一些歧视案件里常用5%当作标准。把重点放在这几个值上,反映出做统计检验的人仍在使用临界值,而尚未进入电脑时代。5%的显著性水平(α=0.05)尤其常见。在“显著”和“不显著”之间没有清楚的界线,只是在P值越来越小时,我们有越来越强的证据而已。0.049和0.051这两个P值,并没有实质性差别。把P≤0.05当作“显著性水平”的全球性标准,一点儿道理也没有。
1702640047
1702640048 【统计学中的争议】 应该禁止显著性检验吗?
1702640049
1702640050 许多领域的研究都依赖显著性检验,甚至形成过度依赖。哈佛大学一位因统计检验而出名的杰出心理学家罗伯特·罗森塔尔说:“我们当中许多人所受的训练,是叫我们不要过于仔细地看数据。你建立一项假设,选择用何种统计检验方法,然后执行该检验,如果你的结果有5%的统计学显著性水平,你的假设就会得到支持。否则就把它们往抽屉里一塞,束之高阁。”
1702640051
1702640052 你对上面的说法有何反应?这个方法与我们在本书里强调的方法相比,怎么样?
1702640053
1702640054
1702640055
1702640056
1702640057 怎么会有这么多心理学家几乎从来不看数据呢?有些心理学家说,是因为显著性检验的唯我独尊,以及5%的显著性水平被当作结果足够重要的神奇指标。尤其在“结果要想发表,就必须有5%的显著性水平”已成为惯例的情况下,研究者养成了罗森塔尔所说的那种坏习惯:有5%的统计学显著性水平,成功;没有5%的统计学显著性水平,失败。批评者说,既然对统计检验的限制这么大,解释错误的风险这么高而且坏习惯这样根深蒂固,心理学专业期刊就应该全面禁止显著性检验。
1702640058
1702640059 提防刻意寻找的显著性
1702640060
1702640061 统计学显著性的意义应该是,你找到了你想找的效应。假如你先决定你在寻找什么效应,然后设计统计研究来找这个效应,再用显著性检验来评估你得到的证据,那么统计学显著性背后的证据就可以发挥作用。如果不是这样,显著性检验的实际意义可能不大。
1702640062
1702640063 例4 预测受训者的成功概率
1702640064
1702640065 在接受管理培训的人中,有的人最后成了管理者,有的人却没有长进,不得不离开公司。你想知道是什么因素造成了这么大的区别吗?你有很多关于以往受训者的数据,包括他们的个性和目标,大学时学过什么课程以及表现如何,还有他们的家庭背景和嗜好。利用统计软件,你可以轻松对这些变量进行很多显著性检验,看看哪些变量能够预测受训者未来成功。啊哈!结果你发现,和被淘汰的人相比,未来的管理者明显拥有城市或郊区的生活背景,以及技术专业的学士学位。
1702640066
1702640067 在你决定以后根据这些发现做招聘之前,先要记住,有5%显著性水平的结果,即使H0为真,长期来看,100次之中也会发生5次。当你做了很多个显著性水平为5%的检验时,你会预期其中几个仅因为随机性就表现出统计学显著性。做一个α=0.05的检验,是你有所发现的一个不错的证据。但是,几十次检验中只有一两次达到这个水平,就算不上证据了。
1702640068
1702640069 在例4里,我们检验了每种可能,再挑出其中最具显著性的结果。这是错误的做法,会混淆“数据的探索分析”(使用图、表、数字概括,如同第二部分,找出数据的模式)与“正式的统计推断”。如果你用数据探索分析的方法检验各种研究结果,找到统计学显著性并不令人惊讶,只需要挑出最大的,然后检验,看看它是否明显大于其他。
1702640070
1702640071 在数据里搜寻可能的形态当然是合理的,“探索性数据分析”(exploratory data analysis)是统计研究的一个重要组成部分。但是,如果你已经成功地在数据里找到了突出的效应,正式推断的论据就不再适用了。补救方法很清楚:建立假设后,设计一个研究来找寻你想找的特定效应。如果这个研究结果有统计学显著性,你就有真正的证据了。
1702640072
1702640073 练习
1702640074
1702640075 23.2 带我去看球赛。一位实验人员比较了某个大城市近期的一个离婚男性的随机样本,和同一城市的一个已经结婚10年且从未离过婚的男性的随机样本。他研究了每个样本的122个变量,并且在这两个样本之间做了122个独立的显著性检验。只有一个变量具有1%的显著性水平,即男人带他们的妻子多久看一次大联盟棒球赛。已婚男性带妻子看大联盟棒球赛的比例平均而言要比那些离婚男性高。这是一个看大联盟棒球赛会提高婚姻稳定程度的好的证据吗?讨论一下。
1702640076
1702640077 小结
1702640078
1702640079 本章要点
1702640080
1702640081 • 统计推断的应用范围不如探索性数据分析广泛。任何推断方法都只能在正确的条件下应用,尤其要满足随机样本或随机实验的要求。
1702640082
1702640083 • 了解置信区间和统计学显著性的意义,以免得出不恰当的结论。
1702640084
1702640085 • 增加观察值的数目对置信区间有很直接的影响,因为在同样的置信度之下置信区间会变窄。
1702640086
1702640087 • 即使总体的真实情况维持不变,随着观察值增多,P值会减小,使得显著性检验比置信区间更难解释。
1702640088
1702640089 • 样本很大时,即使P值很小,也不见得有实际意义;而样本很小时,关于总体的重要事实却可能不具有统计学显著性。要避免使用固定的显著性水平,例如5%,来做决定。
1702640090
1702640091 在第21章和第22章,我们介绍了隐藏在统计推断和显著性检验背后的基本推理。我们将其应用于对总体比例和总体平均数做出统计推断。在这一章,我们提供了关于置信区间和显著性检验的一些提醒。有些是之前在第1~6章已经提过的,还有一些是有关置信区间和显著性检验的。这些提醒有助于你对涉及置信区间或显著性检验的研究结果做出评估。
1702640092
1702640093 案例分析与评估
1702640094
[ 上一页 ]  [ :1.702640045e+09 ]  [ 下一页 ]