1702629870
[2]1盎司≈28.35克。—编者注
1702629871
1702629872
1702629873
1702629874
1702629876
统计学的世界(第8版) 第1部分 数据的生产
1702629877
1702629878
你和你的朋友不是典型人物。比如,你喜欢听的广播节目可能就和我喜欢的不一样。当然,我和我的朋友也不是典型人物。如果想要知道整个国家(或只是大学生)的状况,我们必须认清一个事实,那就是,整体状况也许和我们自己或我们周围的状况并不相似。所以,我们需要数据。从Arbitron(一家媒体研究机构)得到的资料显示,美国最受欢迎的广播节目是成人当代音乐(2009年秋天,每周的听众总人数达到7200万人)和乡村音乐(每周的听众总人数为6400万人)。如果你喜欢当代流行打击乐(每周的听众总人数为5900万人),而我喜欢各种新闻节目(每周的听众总人数为1500万人),那么我们可能对整个唱片消费群体的音乐品位一无所知。如果我们身处唱片业,或只对通俗文化感兴趣,就必须把自己的喜好放在一边,好好地检视数据。
1702629879
1702629880
你可以到图书馆或者网上找数据,但我们怎么知道这些数据可不可靠呢?好的数据可以被看作像毛衣或数码影音光碟机(DVD机)之类的产品,而草率生产的数据就像草率生产的毛衣或DVD机一样令人沮丧。你买毛衣前一般都会检查一下,如果做工很差,你就不会买。数据也一样,如果质量很糟,你就不该用。本书的第一部分将会告诉你怎样分辨数据的好坏。
1702629881
1702629882
1702629883
1702629884
1702629886
统计学的世界(第8版) 第1章 数据从哪里来
1702629887
1702629888
案例分析
1702629889
1702629890
你可能读了几个月的报纸,或者看了几个月的电视新闻,却没有见过一个代数公式。难怪你会认为代数看上去和日常生活完全无关。但是,你不可能一整天都接触不到统计数据和结果。比如,一则新闻提到在18~24岁年龄段的人中,有70%的人认为从互联网上下载音乐与购买二手音乐光碟或从朋友那里借来转录的做法没有区别。而对于65岁或以上的人来说,持相同观点的人只有36%。一篇更长的文章写道,得到高质量日间看护的低收入家庭的孩子,几年后在学业方面的表现更佳,与其他低收入家庭的孩子相比,未来更有可能考上大学、找到好工作。
1702629891
1702629892
这些数据是从哪里来的呢?为什么我们可以相信这些数据,或者不应该相信这些数据?好的数据是人类智慧劳动的成果,坏的数据则源于懒惰或者不求甚解的行为,只能误导他人。当有人向你抛来一个数字时,你应该问的第一个问题就是:它来自何处?
1702629893
1702629894
2008年美国总统大选期间,有一个全国性的项目叫作“大家去投票”,人们从罐中选择一粒软糖,代表他们支持的总统候选人。在佛罗里达州彭布罗克派恩斯的“咖啡苑”(Coffee Scene),顾客可以在每次买东西时挑选一粒蓝色或者红色的软糖。蓝莓软糖表示投票给民主党总统候选人巴拉克·奥巴马,红色草莓软糖表示投票给共和党总统候选人约翰·麦凯恩。
1702629895
1702629896
全美有34个州的超过100家餐馆参与了这项活动,每周一清点投票结果。截至2008年10月13日,投票总数超过211000张,麦凯恩在这场全国性的软糖投票中获得了53.5%的支持率。2004年美国总统大选期间的软糖投票结果,曾准确预测出小布什将赢得总统大选。约翰·麦凯恩却没有那么幸运,投票结果错误地预测麦凯恩将在2008年的美国总统大选中胜出。
1702629897
1702629898
对于这个投票结果,我们该如何解读呢?在本章的最后,你将了解到,针对这个软糖投票活动产生的数据,如何提出一些基础性问题。对这些提问的回答,将帮助我们评估这个投票数据的优劣,我们将在第2章深入探讨这个问题。
1702629899
1702629900
个体和变量
1702629901
1702629902
统计学是关于数据的科学。我们甚至可以说它是“数据的艺术”,因为只有通过正确的判断乃至好的品位和扎实的数学知识,才能得出好的统计数据。好的判断中的一大部分取决于你应该度量什么,以使得出的数据有助于解释你所关心的问题。我们先从一些与数据相关的基本术语入手。
1702629903
1702629904
个体与变量
1702629905
1702629906
个体是一组数据所描述的对象。个体可以是一群人,也可以是一些动物或者其他物品。变量指的是某一个体的特征,不同个体的变量可以取不同的值。
1702629907
1702629908
举个例子,这是统计学课程结束时,教授手中的成绩数据库中的头几行:
1702629909
1702629910
1702629911
1702629912
1702629913
在这里,个体指的是选修这门课程的学生。除了学生的姓名之外,还有三个变量。第一个变量是这名学生的专业,第二个变量是该名学生所得的分数(总分为500分),第三个变量是该名学生的成绩等级。
1702629914
1702629915
尽管统计学是和数字打交道,但并非所有的变量都要用数字表示。有些变量代表的是“类别”,只需将个体归入不同的组别或种类即可。在这个例子的三个变量中,只有总分数是用数值表示的,专业和等级都是类别变量。统计类别变量时,我们采用的是计数或者百分比的方式。例如,我们可以给出得到等级A的学生的百分比,或者给出主修心理学的学生的百分比。
1702629916
1702629917
选择变量时的错误判断,可能导致在数据上浪费大量时间和金钱却徒劳无功。怎样才能做出好的判断,这可能是个富有争议性的问题。下面的例子展示了在判断应该收集哪些数据时面临的挑战。
1702629918
1702629919
例1 谁在做资源回收?
[
上一页 ]
[ :1.70262987e+09 ]
[
下一页 ]