1701030131
1701030132
在这种情况下,你还会买沃尔沃吗?估计你会立即转向购买萨帕了。但是,仔细想想,你的朋友提供的信息,不过是在有关沃尔沃的大量样本信息中再加入一个样本信息而已,并不足以改变样本的平均值──也就是说,仅凭你朋友的一席话,并不足以改变原先支持你选择沃尔沃的理由。但是,现实中有多少人还能这样理性地思考呢?
1701030133
1701030134
人们也常常犯下以总体特征来推断小样本特征的错误。
1701030135
1701030136
类似地,人们也常常犯下以总体特征来推断小样本特征的错误。譬如许多人认为,一家医院中一年出生的小孩大致应该是男孩和女孩各占50%左右。事实上,很多小医院的出生性别比完全不是这样。一个城市的出生性别比可能是1:1,但这不等于在更小的单位也是如此。如果你不能理解小医院为什么通常不是1:1的性别比,那么你想想更小的单位,比如家庭,有多少家庭出生的小孩会是男孩女孩各占一半呢?读者有必要记住,小样本的特征不一定服从总体的特征,所以不能把总体的特征作为小样本特征的描述。当然,反过来也一样,小样本难以反映总体的情况,所以也不能把小样本特征当做总体特征。比如,不能看到几个没文化的人比几个有文化的人赚了更多的钱,就得出结论说文化程度高对提高经济收入并没有帮助。又比如,你不能因为看到一个无臂人用脚画画很好,就得出结论说要学好画画就要砍掉双手一样。可是现实中却有持这种逻辑的人。
1701030137
1701030138
另一种常见的错误是人们常常忽略了随机事件的独立性,错误地把它们关联起来。比如掷硬币,每一次投掷出现正面或反面的概率都是0.5。也就是说,以前曾经出现过什么样的历史,对于下一次投掷的结果是没有影响的。考虑你现在参加投掷硬币的赌博游戏,每投掷一次赌注1元。已经投了9次结果都很“偶然”地出现了正面,现在面临第10次投掷,你应该选择押注正面还是反面?有不少人是这样想的,既然已经出现了9次正面,均匀的硬币要连续出现10次正面的概率太小了(这个概率为0.510=0.097 7%),因此下一次出现反面的概率应该很大。这样的决策,忽略了下一次投掷概率与历史无关的事实。只要硬币是均匀的,不管前9次结果如何,下一次正面和反面出现的概率均为0.5,所以你押注哪一面,胜负概率都一样。当然,这里还有另一种可能,那就是硬币不是均匀的,所以前面9次出现正面并不那么“偶然”,如此第10次还很有可能出现正面──你现在应该选择的就是正面,而不是像先前所思考的那样选择反面。
1701030139
1701030140
人们常常忽略了随机事件的独立性,错误地把它们关联起来。
1701030141
1701030142
这个赌硬币的例子和股票市场很类似。股票市场也充满了随机性。基本上有两种投资理念,一种认为股票价格完全随机,与业绩无关,这种情况下股票与均匀硬币本质上是一样的,股票价格的历史表现不足以作为决策的依据,因为未来价格与历史价格无关;另一种观点认为,股票的长期业绩较好,很可能表明股票存在内在价值支撑,这就与非均匀材质的硬币一样,按照这样的理念,那么过去业绩表现较好的,在未来也更有可能表现出较好的业绩。这两类观点究竟哪一类更符合股票市场的现实?现在似乎还没有研究可以将它们检验出来。但是通过一些仿真实验可以明白的是,存在大量均匀和非均匀的硬币不断投掷,比如经过30轮投掷,能够保持30次都在正面的硬币仍然存在[8],而这些硬币也并不完全是非均匀的硬币,这表明可能部分股票的业绩确实有内在支撑,但也有些股票业绩良好可能仅仅是偶然因素。
1701030143
1701030144
很多人不善于从结果去推断信息,以至于过度夸大了某些后果的严重性。
1701030145
1701030146
还有一种经常犯错误的情况是很多人不善于从结果去推断信息,以至于过度夸大了某些后果的严重性。我太太的一个朋友怀了小孩,因高龄怀孕担心胎儿的健康做了唐氏筛查。唐氏综合征俗称先天性痴呆,是最常见的一种染色体疾病。怀孕年龄越大,胎儿患此病的概率越高,按照年龄段来看这位朋友胎儿患此病的概率为0.13%。如果胎儿确实患有此病,则唐氏筛查有80%的可能性会查出来(也就是有20%的可能性查不出,但胎儿实际上是患病的);如果胎儿未患此病,则不会查出异常。这位朋友不放心去做了筛查,结果没什么问题,但她反而更担心了。我太太说,没检查出问题不是很好吗,可以放心了;她却说,还是有20%的可能性患病啊,只是没有查出来啊。我太太的数学很差,听她这样说也懵了,但又觉得不对劲,回来问我,为什么检查无恙之后,患病的概率反而提高了?我一听就觉得好笑:她们是先验地假定胎儿已经患上唐氏综合征,所以才会认为未检查出病状有20%的患病概率;事实上,胎儿患病的概率仅为0.13%,检查后未发现异常而胎儿患病的概率应是(0.13%×20%)/(0.13%×20%+99.87%×100%)=0.026%,比未检查时的0.13%概率降低了约80%。
1701030147
1701030148
也许聪明的读者会觉得这些失误太明显了,自己不会犯这样的错误。那么请你看看下面这则报道是否存在问题。有一份关于中国吸烟与健康的研究报告写道:“吸烟与肺癌发生的关系已为众多的实验研究以及多个设计严格的大宗人群研究所证实。约80%以上的肺癌与吸烟(包括被动吸烟)有关。”读完这话,你是不是觉得吸烟很可能导致患肺癌(即认为吸烟是一个严重损害健康的问题)?吸烟几乎就是肺癌的罪魁?如果你认为是,不妨继续往下看。
1701030149
1701030150
我国约有36%的烟民;肺癌发病率(缺乏中国数据,以世界数据0.333%代替);肺癌患者80%是烟民或被动吸烟者,即是说肺癌患者中还有20%是非吸烟者;为了让不太熟悉概率的读者能够理解,我不妨假设肺癌患者共100名,其中80名是为烟民或被动吸烟者,20名是非吸烟者。那么我们据此可推算社会总体人口为100/(0.333%)=30 030人,其中烟民为30 030(36%)=10811人,被动吸烟者的频率不知,姑且假设为X人,那么吸烟者(包括烟民和被动吸烟者)致癌的概率为80/(10 811+X)。非吸烟者的致癌概率为20/(30 030-10 811-X)。稍加计算就可以知道,除非被动吸烟者数量X<13 213,或被动吸烟者比例小于44%,吸烟者患癌症的概率才会超过非吸烟者患癌症的概率。在缺乏被动吸烟者比例的情况下,我们无法推断出吸烟对癌症究竟有多大影响。
1701030151
1701030152
不过,这份报告披露了我国男性吸烟率为66%,女性吸烟率为3.1%;而男性肺癌发病率为0.355%,女性为0.312%。而一个社会男女性别比基本上为1:1,则按照我们前面的假设,100个肺癌患者中,大约有100[0.355/(0.355+0.312)]=53人为男性,有100-53=47人为女性。社会中男女基本上相等意味着这个社会分别有30 030(0.5)=15 015个男性和女性。两个人口总量相等、烟民结构完全不同(一个有过半烟民,一个只有少数烟民)的群体,肺癌发病率和发病人数竟然如此接近,这能说明吸烟是肺癌的发病罪魁吗?
1701030153
1701030154
我应当承认,在上述两段推理中,在某些地方我用世界数据来代替中国数据(因为找不到中国数据),可能存在偏差。不过我的本意不在为吸烟致癌翻案,所以问题不算严重。我只是想借此说明,在对公众发布信息的时候,应尽量提供背景信息,以免误导公众;更不能有意隐瞒关键信息,利用公众缺乏概率推断能力而有意误导公众。同时也说明,如果读者能多掌握一点概率推断的知识,就会更少地受到媒体的欺骗。
1701030155
1701030156
[1]在美国俚语中,鸡崽(chicken)被用于表示胆怯者、懦夫,而笨驴(donkey)则表示蠢人。
1701030157
1701030158
[2]事实上,来自心理学和行为经济学的研究已表明,对于同等价值的物品,人们失去它而损失掉的效用会超过拥有它而获得的效用,前者基本上是后者的两倍。即失去的比得到的更觉珍贵,失去100元带来的痛苦将是得到100元带来的快乐的两倍。
1701030159
1701030160
[3]当然,读者是女孩也可以。我没有任何歧视女孩的意思,模型中的男女性别假设完全可以互换。
1701030161
1701030162
[4]本例的Mathematica文件或Excel计算表可在作者主页www.cnobel.com下载,文件名分别为Table2.2.nb和Table2.2.xls。
1701030163
1701030164
[5]当然还可以对例子进一步一般化,假设有X>1个女孩。那么,从第n个女孩开始认真考虑,则获得最好女孩的概率为:
1701030165
1701030166
1701030167
1701030168
1701030169
1701030170
上式有一个近似计算方法:当X比较大的时候,,此函数为凹,求n的一阶条件得到最优解n*=1+X/e,代入Prob(n),有Prob(n*这个解表明,不管女孩数量是多少,只要数量足够多,获得最好女孩的最大概率都近似为0.368。与我们精确计算略有差异。
1701030171
1701030172
[6]但是参加比赛毕竟与选择女朋友不同。评委的心理往往导致两类偏差会影响公正评价。一类是记忆偏差,另一类是直接比较偏差。这两种偏差导致首先登场的选手比第二、第三登场的选手会得到更高的评价,但是出场顺序更后的选手,也有很大的优势获得更高的评价。Lionel Page和Katie Page的论文”Biases in sequential performance evaluation, a field study on the idol series”利用8个国家的大众偶像评选活动(如“美国偶像”之类的活动)的数据,表明了这样的结果。当你准备面晤或接到工作面试通知,并且询问你愿意安排在什么时间时,你应该选择安排在什么位置呢?两位Page的研究表明:你应尽量安排在最后。
1701030173
1701030174
[7]可参阅Paul Hoffman, The Man Loved Only Numbers(New York:Hyperion,1998)第233~240页,本书讲到了几个概率论专家,包括才华横溢、著作等身的数学家保罗·厄多斯(Paul Erdös),他们算错了一个很简单的概率题,跟他们解释后竟然还不知道自己的错误。
1701030175
1701030176
[8]以概率而论,任何1枚硬币要连续30次正面向上的概率(0.530)接近0,但是如果有100万枚硬币参加投掷,则30轮后至少有1枚硬币连续30次正面向上的概率约为9.3%(再考虑有2枚、3枚……等情况,则概率超过9.3%);如果是1 000万枚硬币,则约为92.7%(几乎是肯定的了)。
1701030177
1701030178
1701030179
1701030180
[
上一页 ]
[ :1.701030131e+09 ]
[
下一页 ]