打字猴:1.701536036e+09
1701536036 学会提问(原书第10版) [:1701532958]
1701536037 学会提问(原书第10版) 不知来历的和带有偏见的数据
1701536038
1701536039 最近一个新闻标题:40%的大学生饱受抑郁症的折磨!
1701536040
1701536041 在你情绪低落的时候你该不该过分担心呢?你又怎么知道自己可以相信这样的统计数据?
1701536042
1701536043 任何统计数据都要求将发生在某地的某些事件界定并准确识别出来,这常常是一项非常艰巨的任务。因此,要找出欺骗性的数据,第一个策略就是尽量找到足够多的关于这些数据是如何采集的信息。我们能不能准确地知道美国到底有多少人在报税单上做过手脚,多少人有过婚前性行为,多少人开车打手机,或多少人使用违禁药品?如果你想象一下做这些统计的细枝末节,我们怀疑你的答案会是“不太可能”。为什么?因为要为特定的目标而得到精确的数据,你常常会遇到各种各样的拦路虎和绊脚石,其中包括关键词语的模棱两可,识别相关人员或事件的种种困难,人们不愿意提供真实信息,人们不能报告各种事件,还有观察事件的种种身体上的障碍等。因此,统计数据往往只能是基于事实做出的一些估计。这些估计有时候很有用,但它们也可能有欺骗性。记住总要问一句,“作者是怎样得出这个估计的?”你得到的细节越多越好。
1701536044
1701536045 不知来历的统计数据最常见的一个用处就是用大量的数字给别人加深印象或让别人肃然起敬,这些呈现出来的数字的精确性常常会让人怀疑。比如,大量的数字可能被用来提醒公众注意日见增长的身体失调或精神失常的发生率,例如癌症、饮食异常或幼年孤僻症等。如果我们能知道这些数据确定的过程是如何仔细,我们肯定会更加深受这些数据的感染。比如一直以来人们都在努力统计大学生抑郁症发病率的准确数据,但是不知来历的数据问题已经成为影响统计的一个主要因素,研究报上来的发病率存在10%~40%的跨度。所以,本章一开始提到的那份研究如果让你觉得过度惊慌的话,你未免显得有些杯弓蛇影。记住:在对这样的数据做出反应之前,我们先要问一声它们是怎么得来的。
1701536046
1701536047
1701536048
1701536049
1701536050 学会提问(原书第10版) [:1701532959]
1701536051 学会提问(原书第10版) 令人困惑的平均值
1701536052
1701536053 请检查下面的陈述:
1701536054
1701536055 (1)快速致富的一个方法就是做一名职业足球队员,2010年国家足球联盟球星的平均收入是180万美元。
1701536056
1701536057 (2)在大学里要取得好成绩学生需要付出的努力是越来越少了。根据最近一项调查,大学生每周平均花在学习上的时间是12.8小时,和20年前的大学生相比大概只有他们的一半。
1701536058
1701536059 两个例子当中都使用了“平均”这个词。但是实际上却有3种不同的方法来测定平均值,而且在大多数情况下,每种方法都会给出不同的数值。
1701536060
1701536061 第一种方法是把所有数值相加然后用总数除以相加的数值个数。这种方法所得的结果就是平均数(mean)。第二种方法是将所有数值从高到低排列,然后找到位于最中间的数值,这个中间数值就是中位数(median)。有一半的数值在中位数之上,另一半在中位数之下。第三种方法是将所有数值排列好,计算每个不同数值出现的次数或每个不同数值范围出现的次数,出现频率最高的数值就叫作众数(mode),这是第三种平均值。
1701536062
1701536063 作者谈论的是平均数、中位数还是众数,将会产生很大的区别。
1701536064
1701536065
1701536066
1701536067
1701536068 第一个例子当中取哪种平均值最能说明问题?考虑一下职业化运动当中大牌球星的收入与那些一般球员的收入对比。最大牌的球星,比如说橄榄球明星四分卫,收入比球队里大部分其他球员要高出很多。事实上,2010年度薪酬最高的橄榄球运动员岁入超过1 500万美元——远远高于平均值。这样高的收入将会急剧拉高平均数,但是对于中位数或众数而言则影响不大。举例来说,国家橄榄球联盟的球员2010年度工资平均数是180万美元,但是其工资中位数却只有77万美元。因此,在大部分职业运动当中,平均数工资比中位数工资或者众数工资要高出很多。所以,如果有人想让工资水平显得非常非常高,他就会选择平均数作为平均值。
1701536069
1701536070 现在让我们来仔细看看第二个例子。如果这里列举的平均值要么是中位数要么是众数,我们有可能就高估了平均的学习时间。有些学生很可能花很多时间学习,比如一周30或40个小时,这样就提高了平均数的数值但是却不影响中位数或者众数的数值。学习时间的众数可能花远低于或者远高于中位数,主要取决于花多长时间学习对学生而言最为常见。
1701536071
1701536072 当你见到平均值的时候,一定要记得问一下:“是平均数、中位数还是众数,选择的平均值不同会不会产生什么影响?”要回答这个问题,请想一想平均值的不同含义会对信息的意义造成怎样的改变。
1701536073
1701536074 不仅判断一个平均值是平均数、中位数还是众数非常重要,判定最小数值和最大数值之间的差距(即全距(range))以及每个数值出现的频率(数值分布),常常也显得异常重要。
1701536075
1701536076 下面我们来看一个例子,在这个例子里全距和数值分布就显得非常重要。
1701536077
1701536078 医生对20岁的病人说:你所患癌症的预后不容乐观。患同样癌症的病人存活时间的中位数是十个月。所以剩下来的这几个月你想做什么就做点什么吧,不必有什么顾虑了。
1701536079
1701536080 病人听到医生给出这样的诊断结果,他对自己的未来该做出怎样可怕的展望呢?首先,我们确定的是获得这种诊断的病人有一半不到十个月就去世了,还有一半人存活时间超过了十个月。但是我们并不知道活下来的那部分人的存活时间的全距和数值分布。这些可能显示出有些人甚至是很多人活得远远超过了十个月时间。其中有些人甚至很多人可能活到80岁以上呢!知道病人存活时间的完整分布可能会改变这名癌症患者对未来的看法。
1701536081
1701536082 一般来说,病人应该考虑国内不同的医院对于他的疾病的存活率是不是有不同的全距和数值分布。这样他就应该考虑选择在那家有最乐观的数值分布的医院就诊。
1701536083
1701536084 当我们遇到平均数的时候,了解全距和数值分布的一个总体好处就是这样做会提醒你大多数人或事并不正好符合平均值,与平均值差异极大的结果也在意料之中。例如,在有些健康议案中许多旨在改善我们健康状况的医疗干预措施事先都会给我们看一看其平均获益情况,尽管这项研究中的许多人获益极少或压根就没有获益,甚至有些人会不同程度地受损。
1701536085
[ 上一页 ]  [ :1.701536036e+09 ]  [ 下一页 ]