1702644090
1702644091
选举民调尤其关键的一步是,将那些不会在选举日当天去投票站投票的美国公民筛选出来(因为如果我们想预测某次选举的胜利者,那么那些不打算去投票的人的观点对于我们来说就是无关紧要的)。作为个人而言,他们总是会说自己会去投票,因为他们觉得这是民调公司愿意听到的答案。但是有研究表明,那些自称会去投票的人中有1/4〜1/3的人最终没有投票。为了减小这类抽样偏见对民调结果的影响,一种方法是向受访者提问他们是否参加了上一次或前几次的选举投票,那些每场投票都参加的受访者最有可能在未来的选举中投票。如果担心受访者会羞于表达某个社会接受度不高的观点,例如对某个激进组织或民族群体的负面印象,民调人员会采用迂回的问法,如“你身边有认识的人”持有这种观点吗?
1702644092
1702644093
历史上最触人神经的一次民意测验来自芝加哥大学全美国民意研究中心(NORC)的一个研究项目,课题名称为“性的社会组织:美国人的性行为”,很快便成为人们熟知的“性调查”。这项研究的官方描述包括“构成性交易的行为结构”、“一生中的性伴侣组合过程和行为方式”等用语。用最简单的话来概括这项研究就是:谁在跟谁做爱,以及多长时间做爱一次。这项发表于1995年的研究,其目的不仅仅告诉我们身边人的性行为,同时也是为了预测美国人的性行为是否会以及如何影响到艾滋病的传播。
1702644094
1702644095
倘若美国人连没去投票这类事情都难以承认,那么可以想象他们在描述自己的性行为时内心的那种纠结,尤其是当这些问题涉及不正当行为、不忠以及其他隐私的内容时。他们的调查方法非常引人注目,调查样本为3342名成年人,这些人代表了全体美国成年人群体,每一位受访者都要经过长达90分钟的采访,其中有将近80%的受访者完成了全部问题,研究人员在此基础上得出了一份有关美国人性行为的准确报告(至少在1995年的时候是这样的)。
1702644096
1702644097
鉴于大家已经硬着头皮读完了一整章有关民意测验方法论的内容,而且基本上“啃”完了一本有关统计学的书,到了应该“犒劳”大家的时候了,一起来看看这项“性调查”都发现了什么吧(其实都不是什么“骇人听闻”的结论)。正如一位读过这份报告的人所说:“美国人的性行为比我想象的‘逊色’太多了。”
1702644098
1702644099
•人们通常与自己的“同类”做爱,有90%的夫妻都来自于相同的种族,拥有相同的宗教信仰、社会阶级和相仿的年纪。
1702644100
1702644101
•大多数人的性生活频率为“一个月若干次”,至于“若干次”是几次,这个范围就大了。关于受访者从18岁开始有过的性伴侣数量,有的人没有性伴侣,有的人的性伴侣人数多达1000个,绝大多数人的性伴侣人数在这两者之间。
1702644102
1702644103
•有差不多5%的男性和4%的女性有过同性性行为。
1702644104
1702644105
• 80%的受访者在过去一年里,只有一个甚至没有性伴侣。
1702644106
1702644107
•拥有一个性伴侣的受访者要比那些一个都没有或者同时拥有多个性伴侣的人更快乐。
1702644108
1702644109
• 1/4的已婚男性和10%的已婚女性承认自己曾经“出轨”。
1702644110
1702644111
•绝大多数人在做爱方面还是比较传统的,男女之间最有吸引力的做爱方式依然很传统。
1702644112
1702644113
对于这份知名的“性调查”,有一句简单但却有力的评论:调查结论中的那句 “调查的准确性保证结论能够代表全体美国成年人的性行为”是建立在两个前提之上的,受访者是从全体美国成年人中正确抽取的样本,受访者提供了诚实准确的答案。其实,我们也可以用这句话来概括整章的内容。对民意测验最为直观的感受是,人们会怀疑就凭这样一些人的回答真的能知道大部分群体中的人心里到底是怎么想的?回答这个问题其实很容易,统计学最基本的原则之一就是一个正确抽取的样本相似于其所在的群体。民意测验真正的挑战有两个:设计并选取正确的样本>用恰当的方式从该样本中获取合适的信息,以准确地反映他们的真实感受。
1702644114
1702644115
本章补充知误点
1702644116
1702644117
下面为大家解释一下,为什么当某个回答占所有受访者人数的比例接近50%时(同时意味着1-p也接近50%),标准误差会达到最大。先假设你正在美国的北达科他州进行两项民意测验。第一项民意测验的目的是弄清该州民主党和共和党的人数比例。假设这个州真实的两党人数正好各占50%,但你的民调结果却显示为60%的共和党人和40%的民主党人。因此,你的结果距离真实情况出现了10%的巨大误差。但是,你在这个统计过程中并没有犯下什么难以饶恕的数据收集错误,你只是使共和党人增多了20%,使民主党人减少了20%。这种计算错误时常会发生,有时候即使是一个方法设计良好的民意测验也无法避免。
1702644118
1702644119
你的第二项民意测验旨在获取生活在北达科他州的印第安人占该州总人口的比例。假设真实情况是印第安人占全州人口的10%,非印第安人占90%。那么现在我们就来讨论一下假如你的民调结果也存在10%的误差,那你的样本数据收集必须差到什么地步。有两种情况都可以造成这种误差。第一种,你没有发现任何印第安人,认为100%的人都是非印第安人,第二种,你发现有20%的人口是印第安人,非印第安人占80%。在第一种情况I下,你漏掉了生活在该州的全部印第安人;在第二种情况下,你在计算印第安人数量时多计算了整整一倍。无论是哪种情况,都是极其严重的抽样错误,你的计算结果均偏离了100%:[(0-10)/10]以及[(20-10)/10]。但是,如果你只是错误地计算了20%的印第安人——与第一项共和党民主党人数调查的错误程度一样,则你的结果将会是8%的印第安人和92%的非印第安人,跟该州的真实人口情况只相差20%。
1702644120
1702644121
当P与1-P接近50%时,相对小的抽样错误在民调结果中就会被放大为严重的绝对错误。而当P或者1-P接近于零时,就会出现相反的现象:即使是相对严重的抽样错误反映在民调结果中,也会变得微不足道。
1702644122
1702644123
同样是20%的抽样错误,在民主党和共和党人数调查中导致结果出现10%的误差,但在印第安人口的调查中却只有2%的误差。由于民意测验中的标准误差是以绝对值的形式表达的(例如±5%),计算公式决定了这一误差在p和1-p接近50%时达到最大。
1702644124
1702644125
1702644126
1702644127
1702644129
赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第12章 回归分析与线性关系
1702644130
1702644131
你认为什么样的工作压力更容易使职场人士猝死,是“缺乏控制力加话语权”的工作,还是“权力大,责任也大”的工作?
1702644132
1702644133
工作压力过大会致人死亡吗?答案是肯定的,有大量证据表明工作压力会导致早逝,尤其使心脏病猝死的概率陆增。但这种致命的压力或许跟你想象的有所不同。公司高管们几乎每天都要做出重要决策,这些决策关系到他们公司的前途命运,但他们所承受的风险要远远小于他们的秘书,后者必须兢兢业业地接听电话,完成上级布置的各种任务。但这怎么可能呢?其实最危险的一类工作压力来自于对自己的工作任务“缺乏控制力”。针对数千名英国公务员的多项调查(“白厅”研究)发现,那些对自己的工作没有支配能力的雇员——也就是基本上对干什么、怎么干没有话语权的人——相比起那些拥有更多决策权的雇员来说,前者的死亡率更高。由此表明,并不是那些“权力越大,责任也越大”的压力置你于死地,而是那种等着上司给你布置任务,但自己又没有权力决定怎么完成、何时完成这些任务的压力把人压垮了。
1702644134
1702644135
本章并不是要讲工作压力、心脏病或英国的公务员等内容。之所以要提到“白厅”研究,是为了引出本章真正要讨论的问题:研究人员是如何得出这样的结论的?很显然,类似于上面的问题都无法用随机试验的方式解决,因为我们不可能把人强行分配到各个工作岗位并强迫他们在那里工作好几年,然后再看看谁因公殉职(就算不考虑道德因素,这样做也会把英国政府的日常公务弄得一团糟)。在实际操作中,研究人员在很长一段时间里对英国政府系统的数千名公务员进行了详细的纵向数据收集,这些数据经过分析能提供有意义的相关关系信息,如“缺乏控制力”的工作与冠心病发病率之间的关系等。
1702644136
1702644137
一个简单的相关关系,并不足以让人得出某类工作对健康有害的结论。在发现了英国政府系统中低级别的雇员更容易患上心脏病之后,我们还必须考虑到其他可能的因素。例如,我们可以想见这些低级别雇员的受教育水平要比高层官员们低;这些人更有可能染上烟瘾(或许是因为他们在工作中郁郁不得志);低级别雇员小时候的体质较弱,从而影响了长大后的工作前景;又或者较低的收入使得他们无法享受到好的医疗资源等。重点在于,任何一项只是简单地比较某个大型人群中个体(或不同人群)健康状况的研究都不会告诉我们太多有用的结论,在这样庞杂的数据中有太多的干扰因素会模糊我们对那些真正值得注意的关系的看法。心脏病真的是“低级别工作”导致的吗?又或者只是这类雇员所共有的一些因素共同导致的?如果我们认同了后者,那就等于完全无视一个真正的公共健康威胁。
1702644138
1702644139
回归分析就是帮助我们处理这类问题的统计学工具。具体来说,回归分析能够在控制其他因素的前提下,对某个具体变量与某个特定结果之间的关系进行量化。也就是说,我们能够在保持其他变量效果不变的情况下,将某个变量的效果分离出来,例如从事某项特定的工作。“白厅”研究用回归分析来衡量低级别工作对某个人群的健康状况的伤害,这类人群在工作生活中的其他方面都是相似的,例如吸烟习惯(低级别雇员抽烟总数的确要比他们的上级多,但这对整个政府系统员工的心脏病发病率差异的影响相对来说并不是很大)。
[
上一页 ]
[ :1.70264409e+09 ]
[
下一页 ]