打字猴:1.702640485e+09
1702640485
1702640486 辛普森悖论
1702640487
1702640488 在几个组别中都存在的相关关系,可能在数据整合成一组后消失甚至出现相反的关系。这种情况被称为辛普森悖论。
1702640489
1702640490 辛普森悖论是在存在潜在变量时,观察到的相关关系可能具有误导性的一种极端表现形式。请记住第15章的提醒:留意潜在变量。
1702640491
1702640492 例8 抵押贷款歧视
1702640493
1702640494 一项关于人们向银行申请住房抵押贷款的研究显示出很强的种族歧视特征:银行拒绝黑人房贷申请者的百分比远高于白人申请者。华盛顿特区的一个关于银行贷款歧视的案件指出银行拒绝黑人房贷申请者的比例为17.5%,而白人房贷申请者被拒绝的比例只有3.3%。
1702640495
1702640496 银行答复说,潜在变量可以解释这种差异。黑人的收入较低(平均而言),信用记录较差,而且工作稳定性不如白人。不考虑种族因素,仅根据这些合法的理由,银行就可以拒绝黑人的抵押贷款申请。这些潜在因素和种族因素是交叉产生影响的,银行认为这导致黑人房贷申请者被拒绝的百分比较高。考虑到辛普森悖论,甚至有可能出现银行接受黑人房贷申请的比例高于白人,如果黑人申请者拥有和白人申请者同样的收入和信用记录。
1702640497
1702640498 哪一方是对的?双方都将聘请统计学家检视潜在因素的影响,提交统计数据,以支持或否定银行在房贷中存在种族歧视的指控。不幸的是,没有对法官和陪审团如何评估统计数据的官方指引,而法官和陪审员不一定具备统计学专业知识。即便让专家来找寻差异出现的原因,潜在变量和诸如辛普森悖论这样的因素,也会让他们感到非常棘手。法庭将尽力做出公正的判决,但这项判决可能不会建立在统计数据的基础之上。
1702640499
1702640500 小结
1702640501
1702640502 本章要点
1702640503
1702640504 • 类别变量把个体归类到不同的组别。要想呈现两个类别变量之间的相关关系,可以用一个包含各组计数的双向表。我们通过比较某些特定的百分比,来描述类别变量之间相关关系的本质。
1702640505
1702640506 • 观察到的相关关系有可能是由潜在变量造成的,从而造成误导。有时,在几个组别中都存在的相关关系,在我们把各组数据整合到一起后却消失不见甚至改变了方向,这就是辛普森悖论。
1702640507
1702640508 • 卡方检验可以用来检验双向表展示出的相关关系是否有统计学显著性。卡方统计量是对“从双向表中观察到的计数”与“当行变量及列变量之间没有相关关系时我们的预期计数”这两个计数做比较。该统计量的抽样分布不是正态分布,它是一种新的分布,叫作卡方分布。
1702640509
1702640510 在第14章和第15章,我们讨论了两个数值变量之间的关系。在这一章,我们使用双向表描述两个类别变量之间的关系。检查双向表每一行(或每一列)的分布,分布模式的不同给出了两个变量之间的关系。如果这些模式没有变化,则说明两个变量之间不存在相关关系。
1702640511
1702640512 在第21、22和23章里,我们用正规的统计推断来检验分布模式上的差异是否只源于随机性。我们基于每个变量单独的分布,将预期计数与观察到的计数进行比较。卡方检验回答了这些计数之间的差异是否由随机性造成。
1702640513
1702640514 在第14章和第15章中,我们必须留意,不要假设我们看到的模式会在增加了额外数据的情况下继续保持或者扩大到更大的范围。在各个组中都存在的相关关系,在把这些组别整合为一组后,这些关系却不存在了,这就是辛普森悖论。
1702640515
1702640516 案例分析与评估
1702640517
1702640518 这是本章开头展示的那个表:
1702640519
1702640520
1702640521
1702640522
1702640523 用你在本章所学的知识回答以下问题:
1702640524
1702640525 • 有多大比例的助理教授是女性?
1702640526
1702640527 • 有多大比例的副教授是女性?
1702640528
1702640529 • 有多大比例的正教授是女性?
1702640530
1702640531 • 当职称从助理教授提高到正教授时,女性所占比例有何变化?在最高职称中,女性是过多、过少还是适中?
1702640532
1702640533 • 这些数据是否说明女性在获得职称提升方面存在困难?请说明。
1702640534
[ 上一页 ]  [ :1.702640485e+09 ]  [ 下一页 ]