打字猴:1.70264256e+09

1702642560

1702642561 基尼系数是否就是社会分配公平程度最完美的衡量指标呢？绝对不是，正如传球效绩指数也不是衡量四分卫比赛表现的完美指标一样。不过，基尼系数确实以一种便捷易懂的形式为我们提供了一个重要社会现象的一些宝贵信息。

1702642562

1702642563 我们慢慢地又回到了前文中所提出的那个问题：学习统计学的意义是什么？统计学能够帮助我们处理数据，而数据只不过是包裹着华丽外衣的信息。在很多时候、很多事情上，数据不仅琐碎而且并非那么重要，比如比赛数据统计；但有的时候数据却能为你打开一扇洞察人类存在本质的窗户，比如基尼系数。

1702642564

1702642565 但是，正如所有信息宣传片都会指出的：这不是所有情况！谷歌首席经济学家范瑞安在接受《纽约时报》采访时曾说，在未来10年内统计学家将会成为“性感的职业”。对此我不得不承认，经济学家有的时候对“性感”的理解确实非同寻常。但我们还是来看看下面这些彼此不相干的问题：

1702642566

1702642567 我们如何确认那些在统考中作弊的学校？

1702642568

1702642569 网飞（Netflix）是如何知道你喜欢的电影类型的？

1702642570

1702642571 既然不能对人体进行癌症诱发试验，那我们如何才能得知哪些物质或行为会诱发癌症？

1702642572

1702642573 祈祷真的能让手术病人的状况改善吗？

1702642574

1702642575 从顶尖高校毕业是否就意味着更高的经济收入？

1702642576

1702642577 是什么推高了自闭症的发病率？

1702642578

1702642579 统计学能够帮助我们回答这些问题（至少也会加快我们解决这些问题的步伐）。这个世界正在制造出越来越多的数据，而且速度越来越快。但是正如《纽约时报》所指出的，“数据只不过是知识的原材料”。无论是在寻找被低估的棒球运动员，还是在更公平地分配教师工资的问题上，统计学都是我们分析信息获得有意义结果的最有力工具。下面，我们就来快速了解一下统计学是如何赋予原始数据以意义的。

1702642580

1702642581 描述性数据——击球率与大学学分

1702642582

1702642583 保龄球的得分是一个描述性的数据，棒球的击球率也是。对于绝大多数美国的体育迷来说，从5岁开始，他们就已经精通这些赛场上的描述统计学了。在体育以及生活中的其他领域，我们使用数字来总结信息。棒球运动员米奇·曼托到底有多棒？他的击球率高达0.298。对于一个棒球迷来说，这就是一个极有意义的陈述、一个非常耀眼的成就，这个数字囊括了他长达18个赛季的棒球职业生涯（但我却觉得有那么一点儿沮丧，一个伟大运动员一生的奋斗到头来不过就是一个数字）。当然，棒球迷们也承认，像击球率这类描述性数据在总结一个运动员的价值时，具有其他衡量标准不可比拟的优势。

1702642584

1702642585 在美国，衡量一个学生的高中和大学学业表现的方法是计算平均成绩点数（GPA）,通俗点儿说就是学生在校的平均成绩。如果一门课的成绩为A，那么就可以获得4点，B是3点，C是2点，以此类推。当高中毕业生申请大学、大学毕业生找工作时，GPA就是评价他们学术潜力的一个方便快捷的指标。一个GPA为3.7的学生显然要比另一个GPA只有2_5的学生的实力强，这就使得GPA成为一个受人欢迎的描述性数据，不仅计算容易、理解容易，而且对不同学生进行比较也很容易。

1702642586

1702642587 但这一衡量指标并不完美。GPA没有反映不同学生所选课程的难易程度，假设一个GPA为3.4的学生选的都是相对没有挑战性的课，而另一名GPA只有2.9的学生的课程表里尽是微积分、物理这类难学的课，我们能一口判定孰优孰劣吗？我以前所在的高中就试图解决这一问题，学校规定比较难学的课程会有额外的加分,这些课程如果期末成绩为A,那么就会有5点的奖励，而非原来的4点。但这也带来了新的问题，我的母亲很快就反应过来，在新的GPA计算方法下，对于一个选了很多加分课程的学生来说（比如说我），其他普通课程就算做到最好，也就是拿到了A,最终的平均分也会被拉下来。因此，我的家长不准我在高中选修驾驶课，因为即使我做到完美，也有可能会因为这门课而错失进入顶尖大学的机会，进而断送了我成为畅销书作家的美好前程。但不学开车也是不行的，于是父母自己掏钱送我去一家私人驾驶学校学开车，那个暑假的晚上我基本都是在车里度过的。

1702642588

1702642589 很疯狂吧？但本书的主题之一就是，对于描述统计学的过分依赖会带来误导性的结论或导致不良行为。上一句话我原先用的短语是“过分简化的描述统计学”，可后来我把“过分简化”给删掉了，因为这个形容词是多余的，描述统计学存在的意义就是简化，因此不可避免地会丢失一些内容和细节，任何一个数字工作者对此都要心知肚明。

1702642590

1702642591 用抽样数据来解决大问题

1702642592

1702642593 有多少无家可归的人在芝加哥街头流浪？已婚人士多久过一次性生活？这些问题看上去风马牛不相及，但事实上它们都可以通过对基本统计工具的运用予以解答（虽然答案并非那么完美）。统计学的一个核心功能就是使用手中已有的数据进行合理推测，以回答那些我们还未掌握所有信息的“大”问题。简言之，我们能够使用“已知世界”的数据来对“未知世界”进行推断。

1702642594

1702642595 那么，我们就从“流浪者”这个问题开始。对于一个大都市来说，要把生活在其中的无家可归者一个一个都数出来，不仅成本高昂，而且在实际操作中也困难重重。但这又是一个非常重要的数据，能够为当地政府开展社会救济、向州和联邦政府争取拨款以及在美国国会上获得支持提供依据。一种重要的统计学做法就是抽样，也就是在一小片区域内进行数据收集，比如10多个街区，然后再根据得到的数据进行推断，对整个城市的流浪人口作一个明智的判断。抽样所需的资源要比全城计数少得多，如果使用得当，同样可以获得准确的结果。

1702642596

1702642597 民意调查也是抽样的一种形式。由一定数量的家庭组成的样本能够代表所属全体人口的观点，舆情研究机构会与这些家庭取得联系，针对某一个特定事件或候选人的情况询问家庭成员的看法。显然，这要比联系整个州或美国所有家庭要简单。盖洛普民意调查和研究机构认为，一个符合统计学方法、包含1000个家庭的样本能够代表整个美国的所有家庭，两者的调查结果基本能够保持一致。

1702642598

1702642599 通过这种方式，我们统计出了美国人性生活的频率、对象和方式。20世纪90年代中期，芝加哥大学的国家民意研究中心（NORC）针对美国人性行为开展了一项非常雄心勃勃的研究，其选取了大量具有代表性的美国成年人作为样本，调查结果就是基于这些人面对各类问题时所做出的反应和回答得出的。如果你继续读下去，保证会在第10章找到这项研究的结论。说真的，现在有几本统计学的著作能够向你承诺这些？

1702642600

1702642601 概率、风险与考试作弊

1702642602

1702642603 从长远看，赌场总是能够挣到钱，而且无一例外。这并不是说赌场每时每刻都在赚钱，每当赌场里的钟声和口哨声响起时，就代表某位幸运的赌客刚刚赢走了几千美元。整个博彩事业是建立在机遇游戏之上的，也就是说任何一次骰子的投掷和扑克牌的翻牌都是不确定的。但与此同时，相关事件的潜在概率又是已知的，比如“黑杰克”抽中21点或“轮盘赌”转到红色的概率是固定的。当这些游戏的概率对赌场有利时（赌场当然不会亏钱），不管场内的钟声和口哨声有多热闹，或者赌客手里的赌注积累得有多大，赌场永远都是最终的赢家。

1702642604

1702642605 这一统计现象在生活中所产生的影响远比在赌场里大得多。许多公司会对某些最不愿意遇到的风险进行概率评估，公司的管理层都知道想要完全避免这些风险是不可能的，就像赌场没法保证赌客们每一手牌都会输一样。但是，任何一家面对不确定因素的公司都可以通过商业流程的设计来管理这些风险，将从环境灾难到不合格产品等一系列不利因素的出现概率降至可接受的范围内。华尔街各大公司经常会对它们的投资组合进行风险评估，充分考虑不同情景的出现概率以设计出合理的应对方案。2008年金融危机爆发的部分原因，就是一系列之前被认为是极不可能发生的市场事件都成为现实，就好像赌场里的每一位赌客在某一晚同时抽中大奖一样。我会在之后的章节里向大家解释，其实华尔街的投资模型都存在缺陷，这些公司用来评估风险的数据也过于局限，但此时此刻，我想说的是，任何一个风险评估模型都必须以概率作为基础。

1702642606

1702642607 面对难以接受的风险，如果个人和企业无法规避，就会通过其他方式寻求保护。保险业应运而生，通过收取保费，保险公司为其客户在遭遇如车祸、火灾等不良事件后提供保护。保险公司并不是通过消除这些不良事件来挣钱，因为车祸和火灾每天都会发生，甚至汽车有可能会一下子撞进房子里引起火灾。保险公司收取高额的保费，用于支付车祸、火灾等意料之中的风险的赔偿金，然后往往还会有大量盈余。（保险公司还可以通过宣传安全驾驶、在游泳池周围装设围栏、为每个卧室安装烟雾探测器等方式来减少预期的损失赔偿。）

1702642608

1702642609 概率在有些情况下甚至可以被用来判断考试作弊。一家由美国学术能力评估考试（SAT）的一位开发者创办的考试安全公司，专注于提供“数据取证”服务，为客户寻找考试作弊的蛛丝马迹。举个例子，在学校或考点进行的考试，多名考生以同样的答案答错同一道题的情况是极少见的，通常发生的概率只有不到百万分之一，如果有类似的情况出现，该公司就会予以标记。其数学逻辑源自一个事实，即当大部分考生对某道题都给出了正确答案时，我们并不会感到大惊小怪，因为这是他们应该做的事情。这些考生有作弊的可能，但他们凭一己之力做对题的可能性更大。但是当这一群考生答错题的时候，他们的错误答案不应该是完全一样的，如果错误答案完全一样，那么他们就有可能是相互抄袭（或者通过短信息分享答案）。此外，还有几种情况会引起该公司的注意，比如在一场考试中，考生在难题上的正确率大大高于容易的题（这意味着他们有可能提前就知道答案）；又或者在一场考试中，收上来的答题卡上“错改对”的涂改痕迹要明显多于“对改错”（这意味着有可能是老师或监考人员在考试结束后对答题卡动了手脚）。

[ 上一页 ] [ :1.70264256e+09 ] [ 下一页 ]