1704436545
2003年,《点球成金》一书出版后,迈克尔·刘易斯的读者们一定不会忽略书中对两个阵营敌对状态的描绘(而这本书本身很可能也加重了两者间的敌意)。同年,我参加了在新奥尔良万豪酒店举行的棒球冬季会议,当时的情形一下把我带回了高中时代。一方是老牌球探,他们就像草地上的老水牛一样悠闲自在,偶尔会坐在酒店吧台旁一边喝着威士忌,一边聊着老掉牙的战时故事,更多的时候是把自己关在宾馆的房间里谈生意。这些人从前都是专业从事棒球运动的,而今多半都已届不惑之年甚至是知天命之年了。他们中很多人以前都是运动员,在球场上为棒球运动奋力打拼,后来逐渐进入领导层负责幕后工作,一路平步青云。另一方则是一群数据怪才:二三十岁的模样,背着电脑包,拿着彩色打印的建议书,不停地在大厅的人群中穿梭,希望可以说服某个投资者为自己提供一个工作岗位。平时这两个阵营的交流并不多,他们都觉得对方自大无知且闭目塞听。
1704436546
1704436547
两方矛盾的根源也许就在于,球探觉得数据怪才威胁到了他们的饭碗。他们认为球探预算正在缩减,不管这是客观事实还是主观感受,他们通常都会以此为依据,说自己的饭碗难保。在一次围绕《点球成金》展开的激烈讨论的圆桌会议上,洛杉矶安那罕天使棒球队的球探总监埃迪·贝克告诉《美国棒球》杂志的记者:“此刻真是剑拔弩张啊。我们的一些老伙计本不该丢掉工作,现在却失业了。也许有财政或是其他因素的影响,但我们都认为其实是一些懂电脑的人抢走了他们的饭碗,对此我感到十分愤怒。”
1704436548
1704436549
我们并不清楚具体有多少支球队削减了球探预算。多伦多蓝鸟队就是其中一支,他们也为此付出了代价,球队在2002~2005年球员选秀的结果都不尽如人意。但缩减预算绝不是当时的球队总经理、比恩的弟子 J·P·里恰尔迪一时兴起的冲动做法,而是由于多伦多蓝鸟队的母公司罗杰斯通信公司正受加元贬值的困扰,不得已而为之。
1704436550
1704436551
《点球成金》已经出版10年了,球探和数据怪才之间的争斗使他们耗尽了力气。2004年,红袜队在时隔86年之后再次捧得世界联赛冠军,成功的原因在于球队既充分尊重了球探的意见,也对已有数据进行了细致分析,两相结合成为两个阵营和平共处的关键所在。2003年时还被界定为“球探”阵营的许多球队,如圣路易斯红雀队,此后也越来越多地运用数据分析的方法,这些球队现已成为最具创新精神的棒球队伍。而那些原本就偏好数据的“怪才”队,如奥克兰竞技队,非但没有削减球探预算,反而增加了相关投入。
1704436552
1704436553
2007~2009年的经济衰退促使球队更频繁地采用数据分析的方法。尽管棒球界算是平稳地度过了经济危机,但仿佛每支球队都突然间变成了“点球成金”的球队,都需要将有限预算的价值发挥到极致。廉价的数据怪才一直都供大于求:从哈佛大学和耶鲁大学毕业的经济与计算机专业的高材生,本可以在投资银行谋一份年薪达40万美元的工作,但他们却更愿意搬到坦帕或克利夫兰,日夜不停地工作,拿到的薪水却只有银行薪酬的1/10。对于球队而言,花4万美元聘用一个数据怪才远比投入4000万美元引进一个自由球员更值得,毕竟这位自由球员的技术水平注定会下滑,很快就会表现平平。
1704436554
1704436555
但这并不意味着数据怪才已经大获全胜了,如果说他们已经证明了自己的价值,那么球探同样做到了这一点。
1704436556
1704436557
系统与球探的对决:球探赢了
1704436558
1704436559
PECOTA 是“投手经验比对与优化测试算法”(Pitcher Empirical Comparison and Optimization Test Algorithm)英语单词首字母的缩写,这个冗长名称的缩略词正好是20世纪80年代堪萨斯城皇家队的内野手比尔·裴克达(Bill Pecota)的名字,那时的他对我钟爱的底特律老虎队而言一直是一个威胁。
1704436560
1704436561
PECOTA 预测系统最初是为预测投手——而非击球手——的表现而设计的。投手的表现极难预测,因此在用 WFG 系统进行过数年实验之后——你肯定能猜出来这个缩略词代表的含义[1]——《棒球规程》最终还是放弃使用它,于是年刊中的预测栏曾一度空白。意识到这是一个商机后,我向赫卡贝推荐了 PECOTA 系统。让我感到有些意外的是,他和《棒球规程》的同事们对这一系统一致认可,他们愿意以股权交换的方式购买 PECOTA 系统,条件是我得再开发一个相似的系统,用于预测击球手的表现。我欣然地接受了这笔交易。于是,第一组 PECOTA 预测结果便发表在2003年冬季的《棒球规程》上。
1704436562
1704436563
2003年赛季结束时我们发现,PECOTA 系统确实比其他商业预测系统的效果要好一些。事实上,2003~2008年这几年,无论在我们自己还是别人的测试中,PECOTA 系统的预测准确度总是与其他系统相当或高于其他系统,同时还推翻了拉斯韦加斯赌场惯用的台词。一些意外的成功使 PECOTA 名声大振,比如,芝加哥白袜队在2005年加冕世界联赛冠军,但2007年赛季 PECOTA 却预测该队只能获得72场胜利,惨淡结束赛程。这一预测必然招致芝加哥媒体和白袜队决策人员的一片骂声。但是,这个预测结果却惊人地准确:白袜队最终以72场胜利、90场失利的成绩结束该赛季。
1704436564
1704436565
然而,在2009年前后,PECOTA 预测系统却被其他系统追上甚至赶超了。正如当年我借鉴詹姆斯和赫卡贝系统的优点一样,其他系统的研发人员也汲取了 PECOTA 系统的长处,并创建出自己的预测系统,而且有些系统非常棒。各个系统都会对大联盟球员的表现进行预测,如果每年都对这些系统的最佳预测结果做个排序,你会发现,那些最棒的预测系统彼此之间的差距不过一两个百分点。
1704436566
1704436567
但我当时之所以创立 PECOTA,还有另外一个目的:对那些像佩德罗亚一样的小联盟球员的表现进行预测,这项任务可能要困难许多。因为当时鲜有预测系统对小联盟进行预测,直到最近才出现类似的系统,所以当时 PECOTA 系统唯一的竞争对手就是球探。
1704436568
1704436569
2006年,我首次公布了 PECOTA 系统预测出的100名最具前景的球员名单,和同时期《美国棒球》刊登的球探所列的名单形成对比。PECOTA 系统依据这些球员入选大联盟后的前6个赛季中为球队做出的贡献对他们进行排名。
1704436570
1704436571
2011年赛季,也是预测结果发布的第6个年头,此时的我终于可以打开“时间胶囊”,看看这些预测是否准确。虽然名单中的球员如今都还相当年轻,但他们中谁是明星球员,谁是替补球员,谁已江郎才尽,已经一目了然。
1704436572
1704436573
在最具发展前景的棒球球员名单中,佩德罗亚排在第4位,这是 PECOTA 系统的成功案例之一。当然,PECOTA 的成功案例可不止这一桩,该系统当年对伊恩·金德尔的职业前景也很看好,而《美国棒球》并没有把他列入名单。事实上,金德尔自2006年以来两次入选全明星队,还成了得克萨斯流浪者队的主攻手之一。PECOTA 系统还看准了麦特·坎普,道奇队的超级明星,2011年麦特·坎普曾十分遗憾地与棒球“三冠王”失之交臂。PECOTA 系统当年的这个判断也比《美国棒球》高明。
1704436574
1704436575
上面几位也许你还有所耳闻,但你听说过乔尔·古兹曼、唐纳德·莫菲,还有约塞米蒂·佩蒂特这些人吗?若非资深棒球迷,很可能根本不知道这些人。但 PECOTA 系统也将他们列入了那份名单。
1704436576
1704436577
《美国棒球》难免会看走眼:球探们对布兰登·伍德、拉斯汀·米利奇以及马克·罗杰斯的职业前景十分看好,但他们此后的表现不尽如人意。球探们还认定红袜队的明星投手乔恩·李斯特、洛杉矶道奇队的游击手特洛伊·图洛维茨基以及巴尔的摩金莺队的外野手尼克·马卡提斯会有不俗表现,但他们在小联盟时一直表现平平,PECOTA 系统并未将其列入名单。
1704436578
1704436579
现在,我们有充足的数据可以对两个预测系统进行统计学分析。具体来说,我们可以查看每份名单上的球员为自己所在的大联盟球队带来的胜场数,这些胜场数以 WARP(超过替补球员的胜场数)的数据形式呈现,这就意味着要收集每一位球员为整场棒球比赛贡献的价值,包括击球、投球及防守。
1704436580
1704436581
PECOTA 系统所列名单里的球员在2011年大联盟赛季贡献的胜场数总计为546场(见图3–3),而《美国棒球》所选球员的贡献更大,胜场数总计为630场。尽管球探们的判断有时会出现失误,但他们的工作还是具有非常大的价值的:他们预测的准确度比单纯靠数据分析进行的预测高出15%。这个差距听起来也许不算大,但带来的收益可不小。每赢得一场胜利,棒球队都愿意向球探支付400万美元。这样算来,在过去的6个赛季中,那些球探预测名单上多出来的84次正确预测,会为他们带来总计达3.36亿美元的收益。
1704436582
1704436583
1704436584
1704436585
1704436586
图3 系统和《美国棒球》列出位最具前景球员年赛季贡献的胜场数
1704436587
1704436588
球探和数据怪才的偏见
1704436589
1704436590
如果 PECOTA 系统的预测结果能比球探们的预测结果更准确,那自然很好,可我并不期待出现这样的结果。就像我在 PECOTA 预测名单公布后不久所写的那样 :
1704436591
1704436592
这次球探对战数据怪才的戏码引发诸多趣闻,但我并不期待 PECOTA 系统给出的排名能与《美国棒球》的排名同样准确。
1704436593
1704436594
预测系统的工作原料是信息。能够同时将球探的推断和统计信息收入囊中,就意味着你拥有更多原料。单纯依靠数据的预测想要打败依靠综合分析的预测,只有一个途径,那就是综合分析的过程中掺杂了过多偏见,若偏见太强,就会削减掉这种分析手段的优势。
[
上一页 ]
[ :1.704436545e+09 ]
[
下一页 ]