打字猴:1.704436553e+09
1704436553 2007~2009年的经济衰退促使球队更频繁地采用数据分析的方法。尽管棒球界算是平稳地度过了经济危机,但仿佛每支球队都突然间变成了“点球成金”的球队,都需要将有限预算的价值发挥到极致。廉价的数据怪才一直都供大于求:从哈佛大学和耶鲁大学毕业的经济与计算机专业的高材生,本可以在投资银行谋一份年薪达40万美元的工作,但他们却更愿意搬到坦帕或克利夫兰,日夜不停地工作,拿到的薪水却只有银行薪酬的1/10。对于球队而言,花4万美元聘用一个数据怪才远比投入4000万美元引进一个自由球员更值得,毕竟这位自由球员的技术水平注定会下滑,很快就会表现平平。
1704436554
1704436555 但这并不意味着数据怪才已经大获全胜了,如果说他们已经证明了自己的价值,那么球探同样做到了这一点。
1704436556
1704436557 系统与球探的对决:球探赢了
1704436558
1704436559 PECOTA 是“投手经验比对与优化测试算法”(Pitcher Empirical Comparison and Optimization Test Algorithm)英语单词首字母的缩写,这个冗长名称的缩略词正好是20世纪80年代堪萨斯城皇家队的内野手比尔·裴克达(Bill Pecota)的名字,那时的他对我钟爱的底特律老虎队而言一直是一个威胁。
1704436560
1704436561 PECOTA 预测系统最初是为预测投手——而非击球手——的表现而设计的。投手的表现极难预测,因此在用 WFG 系统进行过数年实验之后——你肯定能猜出来这个缩略词代表的含义[1]——《棒球规程》最终还是放弃使用它,于是年刊中的预测栏曾一度空白。意识到这是一个商机后,我向赫卡贝推荐了 PECOTA 系统。让我感到有些意外的是,他和《棒球规程》的同事们对这一系统一致认可,他们愿意以股权交换的方式购买 PECOTA 系统,条件是我得再开发一个相似的系统,用于预测击球手的表现。我欣然地接受了这笔交易。于是,第一组 PECOTA 预测结果便发表在2003年冬季的《棒球规程》上。
1704436562
1704436563 2003年赛季结束时我们发现,PECOTA 系统确实比其他商业预测系统的效果要好一些。事实上,2003~2008年这几年,无论在我们自己还是别人的测试中,PECOTA 系统的预测准确度总是与其他系统相当或高于其他系统,同时还推翻了拉斯韦加斯赌场惯用的台词。一些意外的成功使 PECOTA 名声大振,比如,芝加哥白袜队在2005年加冕世界联赛冠军,但2007年赛季 PECOTA 却预测该队只能获得72场胜利,惨淡结束赛程。这一预测必然招致芝加哥媒体和白袜队决策人员的一片骂声。但是,这个预测结果却惊人地准确:白袜队最终以72场胜利、90场失利的成绩结束该赛季。
1704436564
1704436565 然而,在2009年前后,PECOTA 预测系统却被其他系统追上甚至赶超了。正如当年我借鉴詹姆斯和赫卡贝系统的优点一样,其他系统的研发人员也汲取了 PECOTA 系统的长处,并创建出自己的预测系统,而且有些系统非常棒。各个系统都会对大联盟球员的表现进行预测,如果每年都对这些系统的最佳预测结果做个排序,你会发现,那些最棒的预测系统彼此之间的差距不过一两个百分点。
1704436566
1704436567 但我当时之所以创立 PECOTA,还有另外一个目的:对那些像佩德罗亚一样的小联盟球员的表现进行预测,这项任务可能要困难许多。因为当时鲜有预测系统对小联盟进行预测,直到最近才出现类似的系统,所以当时 PECOTA 系统唯一的竞争对手就是球探。
1704436568
1704436569 2006年,我首次公布了 PECOTA 系统预测出的100名最具前景的球员名单,和同时期《美国棒球》刊登的球探所列的名单形成对比。PECOTA 系统依据这些球员入选大联盟后的前6个赛季中为球队做出的贡献对他们进行排名。
1704436570
1704436571 2011年赛季,也是预测结果发布的第6个年头,此时的我终于可以打开“时间胶囊”,看看这些预测是否准确。虽然名单中的球员如今都还相当年轻,但他们中谁是明星球员,谁是替补球员,谁已江郎才尽,已经一目了然。
1704436572
1704436573 在最具发展前景的棒球球员名单中,佩德罗亚排在第4位,这是 PECOTA 系统的成功案例之一。当然,PECOTA 的成功案例可不止这一桩,该系统当年对伊恩·金德尔的职业前景也很看好,而《美国棒球》并没有把他列入名单。事实上,金德尔自2006年以来两次入选全明星队,还成了得克萨斯流浪者队的主攻手之一。PECOTA 系统还看准了麦特·坎普,道奇队的超级明星,2011年麦特·坎普曾十分遗憾地与棒球“三冠王”失之交臂。PECOTA 系统当年的这个判断也比《美国棒球》高明。
1704436574
1704436575 上面几位也许你还有所耳闻,但你听说过乔尔·古兹曼、唐纳德·莫菲,还有约塞米蒂·佩蒂特这些人吗?若非资深棒球迷,很可能根本不知道这些人。但 PECOTA 系统也将他们列入了那份名单。
1704436576
1704436577 《美国棒球》难免会看走眼:球探们对布兰登·伍德、拉斯汀·米利奇以及马克·罗杰斯的职业前景十分看好,但他们此后的表现不尽如人意。球探们还认定红袜队的明星投手乔恩·李斯特、洛杉矶道奇队的游击手特洛伊·图洛维茨基以及巴尔的摩金莺队的外野手尼克·马卡提斯会有不俗表现,但他们在小联盟时一直表现平平,PECOTA 系统并未将其列入名单。
1704436578
1704436579 现在,我们有充足的数据可以对两个预测系统进行统计学分析。具体来说,我们可以查看每份名单上的球员为自己所在的大联盟球队带来的胜场数,这些胜场数以 WARP(超过替补球员的胜场数)的数据形式呈现,这就意味着要收集每一位球员为整场棒球比赛贡献的价值,包括击球、投球及防守。
1704436580
1704436581 PECOTA 系统所列名单里的球员在2011年大联盟赛季贡献的胜场数总计为546场(见图3–3),而《美国棒球》所选球员的贡献更大,胜场数总计为630场。尽管球探们的判断有时会出现失误,但他们的工作还是具有非常大的价值的:他们预测的准确度比单纯靠数据分析进行的预测高出15%。这个差距听起来也许不算大,但带来的收益可不小。每赢得一场胜利,棒球队都愿意向球探支付400万美元。这样算来,在过去的6个赛季中,那些球探预测名单上多出来的84次正确预测,会为他们带来总计达3.36亿美元的收益。
1704436582
1704436583
1704436584
1704436585
1704436586 图3 系统和《美国棒球》列出位最具前景球员年赛季贡献的胜场数
1704436587
1704436588 球探和数据怪才的偏见
1704436589
1704436590 如果 PECOTA 系统的预测结果能比球探们的预测结果更准确,那自然很好,可我并不期待出现这样的结果。就像我在 PECOTA 预测名单公布后不久所写的那样 :
1704436591
1704436592 这次球探对战数据怪才的戏码引发诸多趣闻,但我并不期待 PECOTA 系统给出的排名能与《美国棒球》的排名同样准确。
1704436593
1704436594 预测系统的工作原料是信息。能够同时将球探的推断和统计信息收入囊中,就意味着你拥有更多原料。单纯依靠数据的预测想要打败依靠综合分析的预测,只有一个途径,那就是综合分析的过程中掺杂了过多偏见,若偏见太强,就会削减掉这种分析手段的优势。
1704436595
1704436596 换句话说,那些球探用的是综合分析的方法,他们得到的信息并不局限于统计数据。球探和 PECOTA 系统都会观察球员的平均击球率和防御率,PECOTA 系统毫无主观偏好,也善于从数据中排除部分噪声,并将这些数据排列好。而球探则可以了解到很多信息,这是 PECOTA 系统做不到的。比如说,球探并非只能依据投手三振出局数推断球员的表现,他们还能够拿出雷达测速仪测定投手投出的快速球的速度,或者用秒表测定他的跑垒时间。
1704436597
1704436598 这一类型的信息更接近我们进行棒球比赛结果预测的根本目标。在美国棒球小联盟中,投手即使投出一个无力快速球也可得分,只要投到好球区,或几种投球混合使用,都可以让不少击球手三振出局,因为大多数击球手实力平平,很容易被战胜。但是在美国棒球大联盟中,击球手甚至能将时速将近158公里(98英里)的快速球击出场外,此时投手只能依靠软抛球谋得胜算。结果是,PECOTA 系统很容易被这些伪正数欺骗,但是球探却能够辨别哪些球员具有大联盟水平,哪些球员还需要修炼。
1704436599
1704436600 当然,任何的人为判断都有可能掺杂个人偏见。就像本书前文中提到的那样,对预测持错误态度的人,常以信息过多为借口提出一个不公正的理论,用来描绘世界应该是什么样的,而不是体现客观事实,故而他们获得的信息越多,情况就越糟。
1704436601
1704436602 也许在前“点球成金”时代,球探们带有更多偏见。他们倾向于从美学的角度评判球员,比如球员的球衣合不合身,而不是看这个球员是否具有天赋。若说近些年来位列《美国棒球》预测名单中的那些球员都有不俗表现,那么20世纪90年代,该刊力荐的那些球员的表现就平平了,像托德·范·波佩尔、鲁本·里维拉和奥布莱恩·泰勒等球员的职业前景明显被夸大了。
[ 上一页 ]  [ :1.704436553e+09 ]  [ 下一页 ]