打字猴:1.704436495e+09
1704436495
1704436496
1704436497
1704436498 图3–1 击球手的老化曲线
1704436499
1704436500 读过詹姆斯的著作的球队都能从“老化曲线”中受益良多。棒球合同规定,球员必须打满6个大联盟赛季方可成为自由球员,到那时已处于其职业生涯的后期了。(在此之前,所在俱乐部享有对他们的绝对支配权,而且他们的要价要低于市场价格。)通常,一个新晋球员会在二十三四岁时加入大联盟,直到30岁时他才可能成为自由球员——那时他的巅峰表现期已过,运动生涯开始黯然失色。球队为这些自由球员支付大量的保险费用,指望他们可以在30岁时复制二十几岁时的辉煌,而事实上球员的技术水平已不复当年,但大棒球联盟合约规定必须支付这笔费用,球队也没有办法。
1704436501
1704436502 詹姆斯的“老化曲线”并非没有缺陷,表现为其走势过于平缓。诚然,一般球员会在27岁达到巅峰状态。但只要是付过会费的人盯着棒球卡背面研究一会儿都会发现,不同球员的老化速度是不一样的。比如,20世纪80年代亚特兰大勇士队的三垒手鲍勃·霍纳获得年度最佳新秀奖时只有20岁,24岁时就入选全明星队了。如果根据当时通用的假设预测,鲍勃进入名人堂就是板上钉钉的事。但30岁时他却因伤停赛了,之后又草率地加入日本大联盟的“养乐多燕子棒球队”,彻底结束了他的顶级职业棒球生涯。再如,来自西雅图水手队的伟大球员埃德加·马丁内斯直到27岁才在大联盟中有了一份稳定的工作,大器晚成的他在30多岁时才迎来了职业生涯的巅峰时期,40岁时击球数还排在联盟的领先位置。
1704436503
1704436504 尽管鲍勃和马丁内斯的例子有些不合常规,但确实很少有球员如那条老化曲线般平缓发展,高峰低谷间断交错的形式反而更为常见。也就是说,真实的老化曲线充满噪声,而且噪声非常大(见图3–2),不会那样平缓。平均值就像“每个家庭拥有1.7个孩子”这样的说法,不过是一个统计学的抽象概念。按加里·赫卡贝的推论来看,也许詹姆斯的老化曲线没能传递出噪声中的某些信号。也许像游击手这样处于对体能要求比较高的位置的球员,其技术水平的衰退速度要比打右外场的球员快。也许那些颇具运动天赋的全能型球员的职业生涯会比那些只有一两个强项的球员要长。
1704436505
1704436506 赫卡贝的系统则假定存在26条明显的老化曲线,每一条都适用于不同类型的球员。如果他的假设是正确的,你就能评判出哪条曲线适合哪个球员,并以此预测出该球员职业生涯的走势。如果一个球员符合鲍勃·霍纳的老化曲线,那就预示着他会少年得志,但衰退期也会早早到来;如果一个球员符合马丁内斯的老化曲线,那就预示着他将大器晚成。
1704436507
1704436508
1704436509
1704436510
1704436511 图3–2 不同击球手的带有噪声的老化曲线
1704436512
1704436513 在赫卡贝的“弗拉迪米尔”预测系统中,每个球员对应着不同的曲线;而在詹姆斯创建的平缓的预测系统中,所有球员都对应着同一条曲线。尽管如此,从赫卡贝发布的一些预测结果看,“弗拉迪米尔”系统的预测准确度比詹姆斯的老化曲线高不了多少。预测准确率不高,在一定程度上是因为赫卡贝设定的26条曲线没有科学依据,只是随意选定了这个数目。这样一来,为球员匹配曲线就成了一个科学和艺术并重的技术活。
1704436514
1704436515 然而,要将棒球队员的技术水平发挥到较高的程度,一个人一定要对自己的身体技巧和精神技能进行多种多样的排列组合才行:肌肉记忆、体能耐力、手眼协调性、击球速度、投球识别力以及失利时强大的意志力,这些因素都要科学合理地运用。如此看来,“弗拉迪米尔”预测系统关于不同老化曲线的概念貌似更符合人类行为固有的复杂性。在创立 PECOTA 预测系统时,我尽量从詹姆斯和赫卡贝的系统中借鉴了一些元素来完善自己的预测系统。
1704436516
1704436517 在1986年的《摘要》中,詹姆斯介绍了“相似分数”的概念。顾名思义,设计者设计了这些分数,用来对任意两名大联盟球员的职业数据的相似性进行评定。这个概念比较简单。评定人员首先将两名球员分为一组,每组赋值1000分,每发现两人之间的一次不同则扣若干分。结果,高相似度的组可得到950分甚至975分,但低相似度组的组员间的差异会迅速增大。
1704436518
1704436519 略懂棒球历史的人都会发现相似分数的方法很得人心,评定人员并没有一门心思地只顾研究球员的统计数据,而是提供了一定的历史背景。例如,佩德罗亚在25岁时的数据与历史上的很多球员相似,比如20世纪70年代统帅明尼苏达双城队的队长、一个伟大的巴拿马人罗德·卡鲁,以及大萧条时期老虎队的明星查利·格林格。
1704436520
1704436521 詹姆斯主要是想用相似分数进行反向检测,比如分析一个球员是否有资格入选名人堂。如果想论证你最喜爱的球员是否够资格入选库佰斯顿球员名册,就可以借用相似分数。若通过观察你会发现已经入选的球员中有9/10的人的数据和他的相似,你就得到了一个非常有力的论据。
1704436522
1704436523 相似分数也可以用于预测吗?假设我们能够确定有100名球员某一个年龄段的数据与佩德罗亚相同年龄段的数据极为相似,那么根据这100名球员的职业生涯的整体表现难道不能预示佩德罗亚的职业生涯走势吗?
1704436524
1704436525 为了验证这个想法,2002年我还在毕马威工作时就开始利用闲暇时间慢慢地推进自己的计划——创立 PECOTA 预测系统的雏形。这一系统是由五花八门、内容丰富的 Excel 电子数据表格构成,而表格正好也是我在毕马威工作时使用的主要工具(所以每次那些老板经过我的座位时,都以为我正在努力为客户建立细致的表格呢)。
1704436526
1704436527 就这样,上班时忙里偷闲每天抽出一两个小时,晚上到家再奋斗几个小时,我最终建成了一个数据库,其中包含10000多个赛季(包含了自第二次世界大战开始后的所有大联盟赛季)以及所有球员的对比演算数据。这一方法充分利用了棒球比赛无与伦比的丰富数据,从某种程度上讲,它比詹姆斯的方法更细致。在对比一组球员时,此法采用最近邻体分析法,另外,考虑的因素外延更广,甚至包括球探经常关心的球员的身高、体重等因素。
1704436528
1704436529 PECOTA 预测系统为不同类型的球员提供了不同的老化曲线,这一点与赫卡贝的系统相似,但 PECOTA 并不局限于26种曲线,相反的,它从棒球庞大的数据库中识别出一组数据相似的球员,综合分析后自然生成了这组老化曲线。如果与佩德罗亚数据相似的球员最后都成了大联盟中的优秀队员,这就预示着他成功的概率也比较高。
1704436530
1704436531 但通常,那些拥有相似数据的球员各自又是一个复杂的混合体,其老化曲线也会在某个时间点开始相互偏离。之前提到,依据詹姆斯的相似分数方法,佩德罗亚的数据先是与格林格和卡鲁相似,后两位球员在其漫长的职业生涯中战绩显赫,入选了名人堂。但此后佩德罗亚的数据又与蒙特利尔博览会队实力平平的二垒手乔斯·维德罗极为相似了。
1704436532
1704436533 对小联盟中的球员而言,这种差异更为明显。2009年,PECOTA 预测系统为亚特兰大勇士队19岁的“明日之星”杰森·海沃德识别出的最相似球员,竟包括从名人堂球星到谋杀犯球员。奇珀·琼斯与海沃德的相似度排名第一,这位名人堂球星、前亚特兰大最伟大的球员之一为俱乐部效力17个赛季,职业生涯里的平局击球率为0.304,外加450次本垒打。而达奈尔·斯坦森是第二个与海沃德相似的球员,他的结局并不好,本来颇具潜力,却在2003年结束了在发展联盟亚利桑那队的球员生涯后,因屡次犯罪而被追捕,后来开着一辆运动型多用途汽车逃亡。
1704436534
1704436535 所有与海沃德相似的球员都是高大的运动全才,在小联盟比赛中展现出高超的技术水平,在选秀中脱颖而出,但是他们的命运却截然不同。而 PECOTA 预测系统的创新点就在于此,它能够告知球员他们可能遇到的各种命运结局,这些结局参考了数据相似的前辈球员,尤其是那些结局最好与最坏的球员,或结局最有可能再次上演的球员。由此可见,若预测对象是人类行为,那结局更是不胜枚举了。
1704436536
1704436537 看到现在,海沃德的命运真可谓跌宕起伏啊。而真实情况是,2009年海沃德荣获年度小联盟“最佳球员”称号,2010年他在自己前30场大联盟比赛中贡献了8个本垒打,完成了自己在勇士队的首秀,还入选了全明星队,这一切都超过了人们的预期。但是,2011年海沃德在大联盟的第二个赛季却不是那么顺利,击球率只有0.227。面对海沃德在2011年赛季的糟糕表现,完善的预测系统仍会找出一个保持乐观的理由:他还是有潜力的,除了平均击球率之外,主要数据仍然保持了先前的水平,而平均击球率本身就比其他数据更容易受到运气因素的影响。
1704436538
1704436539 但是,你想要了解的关于一个球员的一切,这些数据都能够告诉你吗?10年前,这个问题可是棒球界最热的话题。
1704436540
1704436541 球探与数据怪才的矛盾冲突
1704436542
1704436543 只要对《点球成金》稍有了解你就会知道,书中讲述了“统计专员”与“球探”这两个敌对阵营之间的冲突与斗争,他们注重不同的范例,采取不同的方法评估球员的表现。(“统计专员”当然是用数据说话,而球探也有自己的“工具”。)
1704436544
[ 上一页 ]  [ :1.704436495e+09 ]  [ 下一页 ]