打字猴:1.702628417e+09

1702628417 看穿一切数字的统计学 [:1702626751]

1702628418 21 快速加深对统计学的理解的一张图表

1702628419

1702628420

1702628421

1702628422 统计学教科书将广义线性模型分为两种

1702628423

1702628424 回归分析本身就是一个非常有用的工具，但是如果将更多的统计学方法全都统一理解为“广义的回归分析”的话，那么其应用范围还会变得更加广阔。

1702628425

1702628426 像这种“广义的回归分析”的思考方式，被统计学家们称为广义线性模型。所谓线性，指的就是回归分析中用直线表示的关系性，“将许许多多的方法都统一成回归分析进行整理”就是广义线性模型的意义所在。

1702628427

1702628428 极端地说，我认为基础统计学的教科书大体可以分为两类。一类是因为没有活用广义线性模型，而对费希尔时代创造的各种统计方法逐一进行介绍的教科书，另一类是对基本相同的方法进行概括介绍的教科书。

1702628429

1702628430 前一种教科书经常会导致以下这样的教学悲剧。

1702628431

1702628432 虽然记住了T检验和回归分析等名称，但是却搞不清楚它们之间的关系和规则，只能当作不同的方法单独记忆，结果就是不知道什么时候该用什么方法。就算当时能够顺利地解答练习题并且通过考试，但是等毕业以后回过头来再想起统计学的时候仍然是一头雾水。

1702628433

1702628434 那么，如果我们以“基本相同的方法”为出发点，仅仅通过一张图表来对所有的概念进行解释说明，那会怎样呢？我认为，这不但能够大幅减少我们理解统计学的时间，并且能够加深对统计学的理解。

1702628435

1702628436 这张图表如表5–7所示。

1702628437

1702628438 本书中曾经多次提到，统计学的目的在于从基于公平条件的比较中寻找出现区别的要素，那么只要能够找到在解释变量中，希望进行比较的结果变量，就能够非常简单地找出应该使用的统计学方法。再重复一次，这个表中介绍的所有方法都属于“广义线性模型”的回归分析。

1702628439

1702628440 表5–4 涵盖广义线性模型的一张图表

1702628441

1702628442 分析轴（解释变量）两组间的比较多组间的比较连续值多寡的比较对多个解释变量同时进行比较希望进行比较的内容（结果变量）

1702628443

1702628444 连续值对平均值的区别进行T检验对平均值的区别进行方差分析回归分析多元回归分析是/否等二值统计表的记录与卡方检验

1702628445

1702628446 逻辑回归

1702628447

1702628448 “一张图表”的使用方法

1702628449

1702628450 比如，我们将每位顾客的消费额作为变量，从0开始以1日元为单位增加的数值作为连续值。以此作为结果变量，在两组变量之间（比如以性别区分）进行比较并且记录平均值，然后分析通过T检验得到的p值和置信区间即可。

1702628451

1702628452 另外，来店次数的值也属于连续值，如果想要对“来店次数多的人消费额越高”这一假设进行比较，可以将来店次数作为解释变量，消费额作为结果变量进行回归分析，然后分析回归系数的估计值和置信区间以及p值即可。

1702628453

1702628454 而像“是否消费”以及“是否来店”等数据，只需要两个数值“是”或“否”就能够表示清楚。要想将此作为结果变量在两组或者更多组之间（比如，以10岁为一个年龄层的分组）进行比较的话，只需要通过统计表将各组的购买率和来店次数等记录下来，然后分析通过卡方检验求得的p值即可。

1702628455

1702628456 比较麻烦的是既不属于连续值也不属于二值，而是以“按照某种规则进行分类”作为结果变量的情况，不过，这在实际应用中也可以当作二值或者连续值来进行计算。

1702628457

1702628458 比如说，拥有“完全没有”、“几乎没有”、“偶尔”、“经常”这4个选项的调查表中，存在着递进的顺序。所以，可以将这里的前两项与后两项分成两类，当作二值变量进行计算。就算选项无法平均分成两份，那么将“经常”作为单独一类，其他所有选项作为另外一类进行二值计算。此外，将全部数值当作连续值进行分析的方法，在实际应用中也经常出现。

1702628459

1702628460 不过，像日本民众支持的政党这样的分类，恐怕就不像上述调查表的结果那么明确地富有方向性和递进关系了。

1702628461

1702628462 虽然可以用“自由主义”的尺度通过直觉进行排列，但是对于政策领域来说，这种顺序是可以颠倒的，而且日本民众对政党的支持也不只由“自由主义”这唯一的条件决定。因此，这里必须将“有本质区别的分类”作为变量，比如“是否支持民主党”以及“是否支持自民党”，将数值换算成对不同政党的支持这样一个二值，就可以以此作为进行分析的突破口。

1702628463

1702628464 对3个分类以上的变量进行分析确实比较麻烦，可即便如此，“仅仅通过这一张图表就可以对几乎所有数据之间的关联性进行分析，并且对将来的结果进行预测”，也不得不说，这是一个非常简单且有效的方法。

1702628465

1702628466 任何方法都应该得到相同的p值

[ 上一页 ] [ :1.702628417e+09 ] [ 下一页 ]