打字猴:1.70262921e+09
1702629210 通过语素分析,确实可以将文章这种非结构化数据转换为是否出现单词的虚拟变量。由此实现的对文章进行统计学处理也确实是一大进步,但是仅仅将这一进步应用在通过单纯的统计和分类对整体情况进行把握方面,实在是一种浪费。像文章中的何种单词以何种组合出现之类的信息,在绝大多数情况下如果离开了庞大的解释变量,就不是我们所追求的结果。
1702629211
1702629212 不过实际上,在日本的商业领域之中,已经出现将文本挖掘与利益连接起来的事例。
1702629213
1702629214 比如对营业日志进行文本挖掘,分析成功事例与失败事例之间有怎样的单词频率区别,从而达到增加机会的目的。有人对有价证券报告书中出现的单词进行分析,找出后来破产的企业和成功的企业之间单词的出现频率有怎样的区别。还有人将顾客对店铺的忠诚度和对店铺发表的感想进行了综合分析,找出对店铺忠诚度高的人在感想中都会出现什么样的单词。在上述例子中,都没有仅仅针对文章中出现的单词频率,而是对文章之外还有什么与结果变量之间具有关联性进行了分析,所以才找到了能够产生利益的战略。
1702629215
1702629216 虽然文本挖掘背后凝聚了非常高的技术含量,但只要利用工具的话谁都可以轻而易举地做到。而如何通过文本挖掘获得利益,则需要文本挖掘之外的统计能力了。
1702629217
1702629218 看穿一切数字的统计学 [:1702626759]
1702629219 28 “演绎”的计量经济学与“归纳”的统计学
1702629220
1702629221
1702629222
1702629223 统计学与计量经济学表面上的区别
1702629224
1702629225 计量经济学家是对在经济学领域应用统计学的人的一种统称,但计量经济学与统计学之间的界限却有些模糊。
1702629226
1702629227 如果是在几十年前,或许还可以清楚地分成“将统计学应用在社会与经济领域就是计量经济学家”、“将统计学应用在农业和医疗领域就是生物统计学家”,但是从生物统计学之中诞生出来的方法现在却被广泛应用于许多领域,就连计量经济学家们也不例外。而且现在人们对于费希尔和皮尔森所发明的种种方法,并不特意将其归类为“生物统计学”。一般情况下说起统计学,如果没有像心理学和社会调查学那么明确地进行区别的话,指的都是由费希尔等生物统计学家在背后支撑着的统计学。
1702629228
1702629229 比如将现在是否有工作作为结果变量,将受教育程度和过去的家庭收入、人种、居住地等社会属性作为解释变量进行回归分析,计量经济学家与社会学领域的统计学家都会作这样的统计。但是,计量经济学家属于统计学家中立场比较特殊的一类人。
1702629230
1702629231 表面上的区别在于,计量经济学家比统计学家更加重视包含交互作用的解释变量,在其选择上会进行更加慎重的讨论。而且,他们不只考虑解释变量与结果变量间的直线关系,还会考虑两者之间的曲线关系。比如将单纯的家庭收入作为解释变量,对生活的满意度作为结果变量进行回归分析时的回归系数,可以看作“年收入增加100万日元的效果对所有人来说基本相同”(图6–11)。
1702629232
1702629233
1702629234
1702629235
1702629236 图6–11 直线的关系性
1702629237
1702629238 另外,通过这张图表我们还可以看出,“年收入从300万日元增加到400万日元所产生的变化,和从900万日元增加到1 000万日元所产生的变化对生活满意度的影响是不同的”。也就是说,家庭收入与生活满意度之间的关系似乎更符合曲线的变化轨迹(图6–12)。在这种推测中,就需要利用“家庭收入的平方”与“log(家庭收入)”作为回归分析的解释变量。
1702629239
1702629240
1702629241
1702629242
1702629243 图6–12 曲线的关系性
1702629244
1702629245 另外,许多统计学家对于二值的结果变量习惯使用逻辑回归,而计量经济学家们却习惯使用多元概率比回归。虽然多元概率比回归比逻辑回归在数理表示上更加清晰,但是多元概率比回归推测出来的回归系数并不像逻辑回归推测出的比值比那样以“大约×倍”的形式表示得一目了然,这也是多元概率比回归的缺点。
1702629246
1702629247 在前面的文章中,我还介绍过统计学家们在因果推论中会使用倾向指数,而计量经济学家们则习惯使用疗效模型和赫克曼选择模型等方法,这是诺贝尔经济学奖获得者詹姆斯·赫克曼在他1974~1979年的一系列论文中所提出的方法。我还没见过任何一个没有经济学知识背景的统计学家使用过上述两种方法。
1702629248
1702629249 统计学与计量经济学本质上的区别
1702629250
1702629251 不过,上述那些内容只不过是表面上的区别,最重要的还是作为其背景的哲学。
1702629252
1702629253 虽然经济学和统计学乍看上去都是“对社会上存在的数字进行分析的学问”,但在某种意义上两者却拥有完全不同的哲学。计量经济学虽然属于经济学中最贴近统计学思考方法的领域,却仍然和统计学之间有着无法填补的鸿沟。
1702629254
1702629255 存在于两者之间的完全相反的哲学,主要围绕着“归纳”和“演绎”为中心组成。
1702629256
1702629257 一般情况下,科学的推论形式大体上可以分为归纳与演绎两类。总体上来说,归纳就是将个别事例集中起来推测出统一规则的方法;演绎则是基于某种事实和假设,通过推理导出结论的方法。
1702629258
1702629259 费希尔的学生C·R·拉奥就这样说过,“随着统计学的发展,可以将归纳推论中的不确定性量化,从而使归纳的推论更加准确,并为我们的思考方式带来巨大的飞跃性的进步”。所谓数据,实际上就是将个别的事例为了更加容易理解而集中起来的结果,因此统计学的目的就是进行归纳的推论。在这种情况下,推测出来的回归模型之类应该就属于“将事例集中起来推测出来的一般规则”。
[ 上一页 ]  [ :1.70262921e+09 ]  [ 下一页 ]