打字猴:1.704436434e+09
1704436434
1704436435 佩德罗亚转身走进休息棚,独自坐在那儿。这似乎是一个采访的好时机,我鼓起勇气走上前去。
1704436436
1704436437 “嘿,佩德罗亚,有空吗?”
1704436438
1704436439 他狐疑地盯着我看了几秒钟,然后用一种极尽优越的口吻,一字一句强调道:“不,我没空。我正在努力备战棒–球–大–联–盟–比–赛!”
1704436440
1704436441 于是,尴尬的我只能在球场边转悠,努力在前往记者席看比赛之前重拾自己的尊严。
1704436442
1704436443 第二天,采访许可到期之后,我回到纽约,委派从前的同事(《棒球规程》的资深记者)戴维·劳里拉前去打探,希望他能获得一些有价值的信息。但是,这次佩德罗亚的话仍不多,回答也是尽可能地平淡无奇。他告诉劳里拉:“你知道吗,我根本不在乎数字和统计数据,我只在乎输赢,其他的东西对我来说都无所谓。”
1704436444
1704436445 佩德罗亚曾经偏离政党路线,因此惹了一身麻烦,之后他就学会了用这种说话方式来应对各种提问。比如那次,他称自己的家乡加利福尼亚伍德兰是一个垃圾场,还告诉《波士顿杂志》,“你可以说这句话出自我,事实上也是如此,我从不撒谎。”
1704436446
1704436447 佩德罗亚确实从不说谎。我想,也许正是因为持有这种态度,他才能够承受得起“球探”的质疑,最终成为大联盟中的一员。
1704436448
1704436449 构建棒球比赛的预测系统
1704436450
1704436451 从记事起,我就是一个棒球迷,也是一个棒球数据迷。6岁时,我家乡底特律的老虎队赢得了1984年的世界棒球联赛,作为一个数学小神童,当时我对比赛的各种数字特别着迷。7岁时我第一次买棒球卡片,10岁时第一次读《埃利亚斯棒球分析师》,12岁时有了自己的统计数据。(令人难以置信的是,那个数据竟然预测到默默无闻的红袜队场内球员提姆·尼尔林将成为最佳球员之一。)
1704436452
1704436453 直到2002年,我对棒球和棒球数据的兴趣才达到最高点。迈克尔·刘易斯当时正忙着写《点球成金》,书中记录了奥克兰竞技队及其总经理、统计奇才比利·比恩崛起的故事,该书很快畅销全美。25年前,比尔·詹姆斯出版了《比尔·詹姆斯棒球摘要》(下文简称为《摘要》),开创了棒球数据统计分析时代,随后他被聘为红袜队的顾问。所有这些都让我发现,沉迷棒球数据似乎不再只是一个小小的爱好,它为我寻觅新工作提供了一个新思路。 
1704436454
1704436455 大学毕业之后两年,我一直在芝加哥的毕马威会计师事务所担任转让定价顾问。工作不错,薪水不薄,老板和同事做事专业、待人友善,生活还算安逸。
1704436456
1704436457 平时,我要么指导某公司的马来西亚移动电话分部如何定价,以便降低税金,要么赶早上6点的飞机到圣路易斯为一家煤矿公司的合同估价,但这份工作并不是我想要的充满刺激的工作。当时我24岁,不愿意安于现状,对我而言,这份工作平淡无奇、按部就班、了无生趣,让我觉得生活乏味至极。但这份工作有一个好处,那就是我有很多空闲的时间可用。于是,闲来无事,我就开始创建各式各样的电子表格以记录庞大的棒球统计数据,这后来便成了 PECOTA 预测系统的雏形。
1704436458
1704436459 读大学时,我就开始看年刊《棒球规程》。这本刊物是加里·赫卡贝于1996年创办的。一头红发的赫卡贝热情奔放,嘴不饶人。他先是从早期互联网新闻组中招募了一批写手,后来成了体育运动数据分析行业的领军人物。加里·赫卡贝很早就嗅出了商机:1988年比尔·詹姆斯停止了《摘要》的出版,而那些试图取代《摘要》的出版物不是品质不好,就是在1994~1995年棒球罢赛期间停刊了。于是,他在1996年创办了《棒球规程》刊物。第一本刊物问世时,是由激光打印机一次一本印出来的,还意外漏掉了圣路易斯红雀队的内容,最终《棒球规程》只售出了75本。但之后这本刊物销量逐年倍增,成了热门刊物。
1704436460
1704436461 《棒球规程》是统计怪才的快乐源泉。数据海洋里不仅有大联盟球员的数据,还有小联盟中表现出顶级水平的球员的数据。刊物虽然有时只适合圈内人士传看,但文风犀利,常引用《辛普森一家》或是20世纪80年代情色电影里的隐晦笑话,还常对不受欢迎的联盟经理冷嘲热讽,读来颇为有趣。
1704436462
1704436463 当然,刊物中最重要的内容还是对每位球员下个赛季表现的预测,预测依据的是赫卡贝创建的“弗拉迪米尔”预测系统。这一系统似乎是继詹姆斯开创的棒球预测革命之后的又一个里程碑。
1704436464
1704436465 一个好的棒球预测系统必须可以完成3项基本任务:
1704436466
1704436467 1. 考虑影响球员表现的外在因素。
1704436468
1704436469 2. 区别看待技术和运气因素。
1704436470
1704436471 3. 熟知老化曲线,了解球员的表现是如何随着年龄增长而发生变化的。
1704436472
1704436473 任务1相对简单。在美国主要的运动项目中,棒球很独特,比赛场地没有标准尺寸。道奇体育场如血管般错综复杂,外围是壕沟般的停车场,相比之下,芬威球场则如缩略版的新英格兰网格街道,整齐、舒适,球员在此更容易获得较高的击球率。通过观察球员在主客场的表现,我们就可以用“球场因素”来解释球员所面临的困难的程度。(比如说,在弗莱德·林恩——20世纪70年代红袜队的“最有价值球员”——的职业生涯中,他在芬威球场时击球率达0.374,但在其他体育场击球率只有0.264。)同样的,通过观察从国家联盟转会到美国联盟的那些球员的表现,就能分辨出哪个联盟更好,也能看出一个球员的竞争实力。
1704436474
1704436475 全世界最丰富的统计数据库
1704436476
1704436477 任务2——区别看待技术和运气因素——就不是那么轻松了。在短期内,运气常会主导棒球比赛:即使最好的球队也会输掉1/3的比赛,即使最好的击球手安全上垒的概率也只有2/5。有时候,运气因素甚至会掩盖一个队员的真实技术水平长达一年之久。某一个赛季中,一个击球手的真实击球率为0.275,受运气因素影响,这个球手的击球率有10%的概率出现浮动,时而升至0.300,时而降到0.250。
1704436478
1704436479 设计完善的预测系统能够辨识出那些容易受运气影响的数据,比如,平均击球数就比本垒打数善变。投手的表现也是出了名的不稳定,所以数据整理对预测投手的表现至关重要。若想预测一位投手的输赢,参考他取得的三振出局数以及保送数目,要比翻阅他前一赛季的输赢纪录更有价值,因为从每年的情况来看,前一类数据要更稳定些。
1704436480
1704436481 像所有预测一样,对棒球比赛进行预测是为找出决定输赢的根本原因:将击球手三振出局就能阻止对手安全上垒,从而阻止对手得分,进而阻止他们赢得比赛,所以三振出局数更为关键。然而,预测这回事,越往下探究,就会遇到越多的噪声干扰:投手的输赢纪录受自己发挥的影响,也受制于对手得分的多少,而后者是他无法左右的。西雅图水手队的明星投手菲利克斯·埃尔南德斯在2009年和2010年的投球表现都很不错,但输赢纪录却有很大差距,分别是19∶5和13∶12,因为2010年水手队的击球手水平极差,给了对手很多机会。
1704436482
1704436483 此类事例的出现绝非偶然,只要用心整理数据,就会发现端倪。棒球比赛为我们提供的数据也许是全世界最丰富的:过去的140年里,在大联盟球场上发生的每一件事都被忠实、准确地记录下来,而且每年还有数百位棒球手在很多较大的联盟中打球。另外,尽管棒球是团队运动,却是以高度有序的方式进行的:投球手轮流投球,击球手按序击球,这样每人都有各自的统计数据。复杂的、非线性的统计问题很少出现,因果关系很容易理顺。
[ 上一页 ]  [ :1.704436434e+09 ]  [ 下一页 ]