打字猴:1.701738869e+09
1701738869 有效思维 [:1701737940]
1701738870 有效思维 第十一章 数字的理解与误解
1701738871
1701738872 前一章末了的讨论应当已经使我们明白,即使我们知道,例如,三十岁到四十岁之间的公共汽车司机100个有90个有胃病,我们也没有理由作结论,开公共汽车和得胃炎之间有某种特殊联系,如果我们所知道的就只有这一情况。我们还需要知道在三十岁到四十岁之间的非公共汽车司机的人中间的胃病发病率。在进行后一种人的取样的时候,既要有从事相近的职业的,如卡车司机等等,又要有从事迥不相同的职业的,如国会议员、教师、律师等等,还要有没有固定职业的,如失业者和“无所事事的有钱人”。这种办法合乎常识,也符合逻辑。如果发现在非公共汽车司机的人中间,患胃病的人的比例比公共汽车司机中间的比例低,那就有理由说在开公共汽车和得胃病这二者之间有特殊联系。这并不意味着所有的公共汽车司机都有胃病;它只意味着公共汽车司机有得胃病的倾向。前一章里讨论了一个同类的问题,其目的就在于强调A有B的倾向这一形式跟所有的A都是B和有的A是B这两种形式有根本性的区别。我说这种区别是根本性的,因为“A有B的倾向”给予我们的信息跟“所有的A都是B”和“有的A是B”是不同类的。如果我们说“A有B的倾向”,比我们说“有的A是B”提供更多的信息,虽然前者包含后者。另一方面,“A有B的倾向”又不等于“所有的A都是B”。把话说得细致些,“A有B的倾向”的意思就是“虽然有的A不是B,有的非A是B,然而A之中的B的比例大于非A之中的B”。稍稍思考一下,我们就会懂得,这样的信息是有用的;而且在人类事务中有一定重要性、引起人们关心的问题上,我们所能得到的有关事物之间的联系的信息往往只能是这种形式的信息。很少既真实又合于我们需要的话能够采取“所有的A都是B”的形式,如果A代表变化多端的事物,如人,政府形式,职业种类,处罚种类等等。
1701738873
1701738874 我们说到某种职业病的时候,意思是从事这种职业的人有得那种病的倾向。这一发现应当引导我们去考察导致这种疾病的条件。也许会发现这些条件可以改变,因而消除或至少是减少得这种病的倾向,不至于要求人们完全脱离那种职业。无须多举例子来说明我们必须弄清楚两种特征之间有一定的联系还是仅仅偶然同时出现;另一方面,由于这些特征难于从乱七八糟的一堆情况里分离出来,我们无法直接研究它们的联系。公共汽车司机中间得胃病的多这个问题就属于这种情形。我们面对一堆复杂的情况,不能决定这些人如果不当公共汽车司机是否同样会得胃病。处理这类问题,必须运用统计方法。在这类问题上,我们既无法观察一切可能的案例,又不能做实验。要做实验,必得能够控制有关的条件,一次变换一个因素。如果做不到这一点,变换一个因素的结果将被各种别的变化的影响所扰乱。统计方法就是帮助我们对多种原因的事例作有效处理的。确实没有别的方法可以分清这些因素。
1701738875
1701738876 详细说明统计考查的性质不在本书的范围之内,讨论统计法的技术问题就更不用说了。我们的讨论限于陈述和解说统计结果所遇到的某些困难。很多无效思维是由于没有认识到,如果我们要从统计结果中得出正确的结论,如果我们要避免由统计结果的某种表现方式所引起的误解,我们就必须在某些方面提高警惕。
1701738877
1701738878
1701738879
1701738880
1701738881
1701738882 有效思维的障碍之一是,我们有时候没有认识到我们的结论建立在不完全的数据之上,我们本当应用一种粗浅的统计方法。前一章末了提到瘪下巴的人有性格懦弱的倾向就属于这类问题。我们往往会从一个例子或几个例子,其中A是B,一跃而得出凡A皆B的结论。我们忘了要留意反面的例子,因而很容易被人家只用一个A不是B的例子就把我们驳倒。可是,我们已经在前面说过,虽然有A不是B的例子,我们不是只能满足于“有的A是B,有的A不是B”这种软弱的陈述。可能有A往往是B这种倾向。读者还记得,要确立这一论断,必须区分四类。用字母A和B来表示,这四类是:AB类;A 类; B类;类。如果B中之A的比例等于非B中之A的比例,那么这两类是不相干的。A没有是B的倾向,B也没有是A的倾向。例如,据我所知,蓝眼珠的人没有脾气好的倾向,脾气好的人也没有蓝眼珠的倾向。如果事实是如此,我们就应该说,蓝眼珠和好脾气之间没有联系。我曾经听人说,海军中的人有蓝眼珠的倾向,我怀疑这种信念起源于海军人员与蓝色的海之间的联系,而这种信念又为虚构所加固。可是如果这种信念有事实根据,我们就得说,当海军和有蓝眼珠之间有正面的联系。两种特征之间的联系可以有各种程度,从完全联系到完全不联系即互不相干。
1701738883
1701738884
1701738885
1701738886
1701738887
1701738888 始终存在一种犯错误的危险,就是没有注意到AB,A , B,四类,下面是一个例子。
1701738889
1701738890 “种牛痘不防止出天花或者使天花出得比较温和。按照户口登记总处的统计,婴儿死于牛痘的比死于天花的多。”(《和平新闻》,1938年4月23日)
1701738891
1701738892 姑且承认死于牛痘的婴儿比死于天花的多。这也不能支持前面的结论。因为种牛痘的婴儿的数目比传染上天花的婴儿多。上面的引文的作者没有考虑到那些没有种牛痘、得了天花而死了的婴儿与种了牛痘、有传染天花的机会而没有传染的婴儿的比例如何。
1701738893
1701738894 统计考查的目的就是要使我们能够发现并陈述特征组合与特征组合之间的联系。或者个体类之间的相互关系——二者实际是一回事。人口统计是拿不同时期或不同地区之间的出生率、死亡率等等作比较的。劳动统计搜集某种工业劳动的工伤事故次数和这种劳动的疲劳度,用以确定二者之间有无或有多大的相关度。表示这种种结果,我们有应用起来很方便的语言——平均数。
1701738895
1701738896 我想大家都熟悉“平均”这个词的用法,但是未必每个人都知道统计学家有不同类别的平均数。该用哪一种,决定于数据的类型和统计应用的目的。最为大家所熟悉的是算术平均数。举个例,假定一个候选人在考试中得了60分,他怎么知道这是个好的还是不好的分数呢?不同的主考人给分数可以上下很大,同一主考人在不同的考试中给分数也可以上下很大。如果候选人知道60分是“大大高于平均数”,他就会很高兴。这里的平均数大概是算术平均数。这个平均数是先把所有应考人的分数加在一起,除以应考的人数取得的。这样,平均数代表一个分数集,可以认为表示这个集的中央倾向。算术的平均数有时候不能表示事情的真相,因为它不提供这些项目的分布情况,它们可能挤在中心附近,也可以分散得很开,或者从最低分到最高分分布得很均匀。如果我们要比较不同职业的两组人可能获得的平均收入,算术的平均数就可能造成误解。比如我们要比较一组教师的工资和伊戈希尔商行职员的工资。假定我们在两组各取二十名,分别称为A和B。假定A组里边有八个人年薪300镑,三个人年薪325镑,四个人年薪350镑,两个人年薪400镑,一个人年薪425镑,两个人年薪500镑。这一组的平均收入是350镑。在B组,两个人年薪150镑,四个人年薪200镑,四个人年薪250镑,两个人年薪300镑,一个人年薪350镑,一个人年薪400镑,一个人年薪450镑,一个人年薪500镑,一个人年薪600镑,两个人年薪800镑,一个人年薪1000镑。这一组人的平均收入是380镑。但是,虽然B组的平均收入高于A组,如果说B组的人有获得更高收入的倾向,那可就错了。正相反,B组有十个人的收入低于A组的任何一个人;就是说,B组有一半人的年收入在A组的任何一人之下。B组的人的“总收入”达到7600镑,而A组的人的总收入只有7000镑,这一事实并不能鼓舞B组里的一部分成员,他们很少希望能得到较高的收入。较高的一头的高收入把平均数“拉高”了。收入并不是公有的,所以B组有几个人收入大大高于A组的多数人,并不能安慰B组那些低收入的人。所以,如果我们用算术平均数来计算英国居民的平均收入,我们会得到一个非常错误的印象,因为英国的财富是分布得很不均匀的,有百万富翁在一个极端,有毫无收入的人在另一极端,而大多数人的收入是一年不到250镑。以这一个例子而论,用称为众数(mode)的那种平均数更为有用。所谓“众数”就是在一组里边出现次数最多的一个。因此,众数常常被认为是一组之中最有代表性的一个。在两端之间的变异(称为“分布域”)相当大的时候,众数比算术平均数更能代表整个组,因为众数标志着整个大组里边最大的一个小组,因而表示最有可能出现的一种情况。它不像算术平均数那样会被这一头或那一头“拉高”或“拉低”。众数的这个特点有时候很有用。如果我们要决定一个很大的集合物的性质,并且我们已经取样相当多,那么众数是最有用的平均数,因为它不受两极端的广大分歧的影响。另一方面,用于某种目的,众数又可能是一种缺点,因为在整组之中取消几个个体可以不影响众数。另一种平均数是中数。这是一系列个体按大小排列之后居于中间的一个。如果这一系列的个体数是单数,必然有一个中数,比它大的和比它小的恰好数目相等。如果个体数是双数,那么,最中间的两个个体的算术平均数就是中数。
1701738897
1701738898
1701738899 上面只是关于平均数的非常初步的说明。关于各种平均数和统计方法的充分讨论可以在许多教科书里找到。我的注意力放在报纸的普通读者会遇到的某些困难上,这些困难往往不引起注意。首先我们可以注意,算术的平均数不能表示一组之中任何一个个体的情况。可能没有一个个体恰好符合这个数;即使有,这个数目也不是表示那个个体的;平均数表示组的特征。例如,如果我们知道一个板球击球手的平均得分是50,我们不能认为他恰巧有得五十分的任何机会。相反,他可能是不稳定的人,第一次失了手,当他注意了球的时候,可能扳回了一百分。另一种危险是把话说得准确到超过事实所允许。例如要求一个学生把他一个星期之内用于学习的小时数说出来。他也许说是8,7,7,5,6,8,8。算术平均数是6小时,用小数记下来是6.8591。计算是正确的,但不能就此认为得数是准确的。学生提供的是整数,小时的数目是对的。但可能多几分钟,少几分钟。例如他说的是7小时,实际是6小时52分。这是个无关紧要的例子,但是可以用来说明对精确数字结果的信赖往往是可笑的,除非那些数据是以同样的数据取得精密度。重要的是不要让我们上虚假的精确性的当。我们太容易轻信统计结果,因为我们相信统计人员的数学能力。A.N.怀特海教授说得好:“因为有了长时间的准确的数学计算,就认为把计算结果用于某些自然界事实是绝对可靠,没有比这更常见的错误了。”(1)
1701738900
1701738901 下面也许是伪准确的一个例子:“1930至1935年,日本本国居民从64,450,005增加到69,254,148人。1935年出生超过死亡在一百万以上。”(2)我们不知道作者是否把1930年12月31日午夜前一分钟出生的(如果有)和1930年12月31日午夜后一分钟出生的之间的线画得准确。如若不然,我们倒想知道那末位数5是怎么得来的。在人口统计上,平均数的价值是不大的,除非考查延续相当多的年份。常识告诉我们,如果我们的考查只有三四年,我们没有根据说一个国家的出生率在下降。也许在这一段时间之内有什么特殊的、不再现的原因起了作用。常识——可惜太稀罕了——告诉我们一条规律,平均数的可靠性与所依据的观察的次数多寡成正比例。还有,有了一个以一定次数的观察为根据的平均数,从它产生的推论的可靠程度要看那些数据的分布是否分散在两个极端。一定要记住,“平均数”是“极端之间的变异的度量”。可以把它当做有代表性的数。
1701738902
1701738903 虽然多数没有研究过这门学问的人会说“平均”意味着“算术平均数”,我想一般人嘴里说的“平均”(the average man)只能认为指“众数人”(the mode或modal man),意思是“典型人”(3)。我们在前一章讨论罗素的话,他说的“平均的妇女”(一般妇女)就是用的这个意思。无疑,“典型妇女”(如果有)是具有最常常跟妇女联系在一起的那些特征的妇女。我想这个解释合于罗素的用法。可是也可能他并不打算说得这么精确。正如《滑稽》(Punch)报里的一个角色说过的,“我相信五十个女人里边不会有比一个更多的平均女人。”在两极端相距很远的时候,一个受教育比较少的人很难认识到还是有一个平均数。有时候我们大家都感觉困难,除了专业的统计学家。我们全都很难记住,通过平均数,甚至通过一般的统计结果,给予我们的信息是何等稀少,只有专业的统计学家他们不糊涂。
1701738904
1701738905 很多人都知道,有时候从调查表的答案里产生出来的数据经过统计得出重要的结论。1935年的有名的和平投票就是用的这个方法,更早几年两家伦敦报纸举行的关于宗教信仰是否衰颓的调查也是用的这个方法。很明显,没有很可靠的信息可以用这种方式取得。一般的做法是要求对一些问题用简单的即无条件的“是”和“非”来回答。然而在这类问题上要设计出非常明晰的问题、可以用“是”和“非”来回答,几乎是不可能。其次,只有某一种类型的人会回答这些问题;别的人会拒绝回答,或者因为讨厌这种调查法,或者因为懒,或者因为有别的事情缠住。在这种情况下,要划清被调查者的范围就非常困难。然而这是正确使用统计法的首要条件。结果的性质如此有赖于每一个提问的措辞周密、问题总的覆盖面、其答案将构成数据的人的类型,以致在我看来,这种调查表的可靠性非常小,尤其是通过报纸或通过派人登门收集。调查表的方法只能在考查者本人能适当控制的情况下应用才能有点用处。
1701738906
1701738907 我要从米里森·法瑟特女爵士1912年出版的《妇女选举权》上引一个例子。(4)她说英国反妇女选举权同盟十分强调从市县选举妇女投票人那里收集到很多请愿书、抗议书反对国会选举中的妇女选举权。但是米里森女爵士指出,拥护选举权者“在同一群众中就同一问题举行的调查”,其结果与反对选举权者所获得的结果“全然不同”。她引用了“拥护选举权者在1909年和反对选举权者在1911年分别举行的雷丁市妇女选举人意见调查”,结果如下:
1701738908
1701738909 拥护妇女选举权同盟1909年调查:
1701738910
1701738911
1701738912
1701738913
1701738914 反对妇女选举权同盟1911年调查:
1701738915
1701738916
1701738917
1701738918
[ 上一页 ]  [ :1.701738869e+09 ]  [ 下一页 ]