打字猴:1.70262896e+09
1702628960
1702628961 一般来说,搞市场调查、社会调查和流行病学研究的统计学家们都喜欢对自己想要得到答案的问题进行直接提问。他们乐观地认为直接得到的答案能够客观地反映事实,即便并非如此也可以将其看作单纯的误差。
1702628962
1702628963 社会调查和流行病学研究的问卷上提出“你的亲人或朋友中有人吸烟吗?”这样的问题时,就是想知道“被动吸烟的人数占多少比例”,或者“被动吸烟对健康是否有影响”。但是,对于心理统计学家们来说,问题却并不是这么简单。
1702628964
1702628965 对问题的回答有可能被回答者的主观判断所左右,心理统计学家们在这100年来一直对人类的主观情绪进行着反复讨论。
1702628966
1702628967 比如说,“在同样都有朋友吸烟的情况下,有的人会意识不到吸烟者的存在”,还有的人可能对吸烟的行为感到非常厌恶,所以并不将吸烟者看作自己的“亲友”,所以对于心理统计学家们来说,他们会准备很多同种类的问题进行因子分析,然后找出其中的答案究竟对何种因子具有意义。
1702628968
1702628969 在市场调查方面,也有被称为“消费者行为”的领域,这一领域的学者们往往具有心理统计学的知识基础,而且与社会调查学派的市场调查之间还有许多共同的调查方法。
1702628970
1702628971 但是另一方面,在因子分析中假设有多个因子的情况,或者是否允许因子相互之间有关联性等,诸多细节都有可能导致结果产生巨大的区别。为了得到自己考虑的因子结构,而不断重复进行试验的心理统计学家的做法,在流行病学家和生物统计学家们看来,完全是一种自欺欺人的行为。
1702628972
1702628973 就连通径分析也无法判断模型是否合适。假设在7个因子之间进行通径分析,从中取出两个进行组合的话有21(=7×6÷2)个通径,如果每个都有“A→B”、“A←B”、“A↔B”、“A与B之间没有箭头”等4个种类的关系性,那就要对84个通径的模型进行是否准确的验证。但是,心理统计学家却几乎从来不会进行全种类的测试。对他们来说就算数据合适,但是无法在心理学上解释的模型也是毫无意义的。
1702628974
1702628975 基于上述原因,对于问卷调查的项目和分析方法,心理统计学家与其他统计学家之间的意见往往无法达成一致。
1702628976
1702628977 没有针对性的智能测试毫无意义
1702628978
1702628979 不过,在日本广泛应用的智能测试,却并没有经过上述介绍过的那些谨慎的心理统计学的分析。
1702628980
1702628981 比如,在日本比较流行的智能测试方法之一“田中比奈式测验”,原本是阿尔弗莱德·比奈在1905年为了研究与同年龄孩子共同学习时跟不上进度的孩子,而对自己女儿的成长过程进行观察后所得出的测试方法。所以,就算在这个测验中得到较高的分数,也不能说明就是“天才儿童”。
1702628982
1702628983 不管是心理测验还是物理测验,只要原本的定义和测验标准不相符的话都是毫无意义的。就好像如果要找一个“身体好的孩子”,需要根据是究竟准备打篮球还是准备练相扑来选择身材高大的还是身材魁梧的区别一样。
1702628984
1702628985 由此可见,没有针对性的智能测试毫无意义,之所以会出现智能测试被滥用的问题,都是因为大家对智能测试不甚了解或者对其进行了过分解读。只要了解前提和极限,并且能够结合自己的目的进行应用,那么不管是智能测验还是其他的任何测验,都可以找到你真正想要知道的东西。这就是心理统计学赋予你的力量。
1702628986
1702628987 看穿一切数字的统计学 [:1702626757]
1702628988 26 诞生于市场调查现场的数据挖掘
1702628989
1702628990
1702628991
1702628992 在前文中我曾经提到过,统计学由于计算机的出现,其影响力得到了爆炸性的扩大,由此诞生了被称为数据挖掘的研究领域。
1702628993
1702628994 正如对计算机的利用取代了统计学家的手工计算一样,数据挖掘的技术也是伴随着计算机的进步所诞生的。或许就是因为这个缘故,在计算机领域对“数据挖掘”的认知率要远远高于“统计学”。经常会有人向我咨询“我已经导入了最新分析用的数据库,为什么还是无法进行数据挖掘”。不过,没有人向我咨询“我为什么无法进行统计分析”。
1702628995
1702628996 但实际上,当我仔细询问究竟为了什么课题或者出于什么目的进行分析的时候,却发现与“数据挖掘”相比,真正应该使用的却是统计学方法。
1702628997
1702628998 确实,与“回归分析”这样写在统计学教科书上的汉字相比,“Neural Network”这样的英文单词确实显得更加时髦。而且像“根据在人工智能领域的研究,对人类的神经元进行模拟实验”之类的说明,听起来好像是非常了不起的技术。
1702628999
1702629000 不过,如果能够掌握数据挖掘和统计学的思考方法之间的区别和共同点,就可以找到最适合自己的方法。接下来,就让我们对此进行详细的说明。
1702629001
1702629002 数据挖掘的历史
1702629003
1702629004 要说数据挖掘的起源,谁也没有一个准确的答案。“数据挖掘”这个单词本身,在1995年知识发现(KDD,Knowledge Discovery in Database)国际会议上被确定为“在众多数据中找出有用且未知数据的过程”之前,人们对它的解释一直是众说纷纭。
1702629005
1702629006 因此,目前还没有人能够像费希尔被称为“生物统计学之父”那样被人们称为“数据挖掘之父”。
1702629007
1702629008 之所以会出现这种情况,是因为数据挖掘并不是由学者研究出来的方法,而是在市场调查和数据处理的“现场”所诞生的方法。曾经进行数据挖掘的人甚至对统计学一无所知。
1702629009
[ 上一页 ]  [ :1.70262896e+09 ]  [ 下一页 ]