1700528030
1700528031
发生了什么:哎哟。针对具体领域任务的大词汇量连续语音识别系统直到1996年才出现。到1997年年末和1998年年初,在商界推出了不受领域限制、可以听写文本文件(比如这本书)的大词汇量语音识别系统。11
1700528032
1700528033
·预言:翻译电话所需的三种技术(比如,你接电话的时候使用英语,打电话给你的人用德语)——独立于说话人的(新用户无须接受训练)、连续的、词汇量大的语音识别技术,语言翻译技术,以及语音合成技术,将在20世纪90年代末推出第一代质量上乘的系统。因此,我们可以期待“21世纪最初的几年里,至少会推出主流语言的电话翻译,而且其表现也会让人满意”。
1700528034
1700528035
发生了什么:独立于说话人的高效语音识别技术可以处理连续的语音和大量词汇。自动语言翻译可以迅速把网站上的一种语言翻译成另一种语言,现在可以直接在网页浏览器上使用这一功能。大量语言需要的文本对语音合成器在几年内也将成为现实。这些技术都可以在个人计算机上得到运用。在Lernout & Hauspie公司(于1997年兼并了我的语音识别公司,即库兹韦尔应用智能公司),我们把一台翻译电话的技术展示合并在一起。21世纪的头10年,这一系统有望投入商业领域。12
1700528036
1700528037
与机器在一起的生活:一些重要的事情
1700528038
1700528039
我走上舞台,开始用一台陈旧的竖式钢琴弹奏乐曲。然后遇到了一些“是或否”的问题。前美国小姐贝丝·迈尔森(Bess Myerson)被难住了。但是电影明星亨利·摩根(Henry Morgan)——本期“我有一个秘密”(I’ve Got a Secret)名人专家组中的第二位猜到了我的秘密。我弹奏的乐曲其实是由我本人编写的计算机程序创作的。那一年的晚些时候,约翰逊总统接见了我和另一位高中科学比赛获奖者。
1700528040
1700528041
上大学的时候,我用自己编写的电脑程序做了一笔生意,为高中生和大学配对。当时我们以每小时1 000美元的价格租用了马萨诸塞州唯一一台电脑,这台电脑的磁芯存储器居然有100个字节,我们可以把全国3 000所大学的信息同时储存进去。我们收到了很多孩子的来信,他们都对我们的项目所推荐的大学感到很满意。但是,也有几个家长对我们非常生气,因为系统并没有向他们的孩子推荐哈佛大学,这是我第一次亲身体验计算机对他人生活的影响。后来我把公司卖给了纽约的出版商Harcourt ,Brace & World,转而投身其他创意之中了。
1700528042
1700528043
1974年,可以识别打印字母的计算机程序出现了,即OCR(“光学字符识别”)程序,该程序只能处理一两种专用字体。我于当年成立了“库兹韦尔计算机产品公司”,着手开发第一代可以识别所有打印字体的OCR程序,同年晚些时候便获得了成功。于是,接下来的问题就成了:这个程序有什么用?就像很多智能的计算机软件一样,这个软件也在探寻自己究竟可以解决什么问题。
1700528044
1700528045
一次在飞机上,我碰巧坐在一位盲人旁边,他跟我说,他所经历的唯一不便之处就是无法阅读普通的印刷材料。显然,他在视觉上的不便并没有影响交流或者旅行。因此,我发现了我们一直在寻找的突破口——可以把“万能字体”(任何字体)OCR技术运用到这一方面,帮助盲人克服主要障碍。那时不像今天这样,可以随手找到扫描仪或者文本——语音合成器,所以我们只能亲手创造这些技术。到1975年年底,我们把自己发明的这三种新技术合在一起——万能字体OCR,OCD(电荷耦合设备)平板扫描仪,以及文本——语音合成器,创造了第一台为盲人阅读印刷材料的机器。KRM(“库兹韦尔阅读机”)可以大声朗读普通的书籍、杂志以及其他打印文件,这样盲人就可以阅读任何他想看的东西了。
1700528046
1700528047
1976年1月,我们宣布推出KRM,这个软件也引起了人们的共鸣。所有晚间新闻都在报道这则消息,沃尔特·克朗凯特(Walter Cronkite)用这台机器大声读出了他那具有鲜明特征的新闻结尾:“以上就是今天的全部新闻,1976年1月13日。”
1700528048
1700528049
推出这台机器后不久,我应邀参加了电视节目“今日秀”(Today show),当时我有点紧张,因为我们只有一台能阅读的机器。不出所料,就在该节目全国电视现场直播安排我出场之前的几个小时,那台机器出故障了。我们的首席工程师疯狂地把机器拆了,电子元件和电线的碎片散落了一地。当时要采访我的是弗兰克·菲尔德(Frank Field),他走过来问我是否一切正常。“当然,”我说,“我们只是在做最后的调试。”
1700528050
1700528051
首席工程师又把机器组装到了一起,但还是不能正常工作。最后,他用了修复精密电子设备最古老的方法:搬起机器狠狠朝桌子撞了过去。然后这家伙突然就变好了。顺利完成了接下来的电视首秀。
1700528052
1700528053
歌手史蒂夫·旺达(Stevie Wonder)得知我们上了“今日秀”之后,决定亲自来验证一下这台机器。我们的前台接待员十分怀疑电话另一头的人到底是不是那位著名的传奇歌手,但她还是把电话转给了我。我邀请史蒂夫来试了试阅读机。他恳求我们为他制作一台专属的阅读机,于是,我们在工厂里忙了个底朝天,匆匆为他赶制了第一台产品(我们可不想把“今日秀”上展示的那台机器送给他,因为那台机器上还有几道伤痕)。我们向史蒂夫展示了如何使用这台机器,最后他带着自己的新机器搭计程车离开了。
1700528054
1700528055
随后,我们把扫描功能和万能字体OCR投入了商业用途,比如往数据库中输入数据,或者往新兴的文字处理计算机中输入数据。新的信息服务项目,比如Lexus(一个线上法律调查服务项目)和Nexus(一个新闻服务项目)成立了,它们就是使用“库兹韦尔数据输入机”来扫描和识别书面文件的。
1700528056
1700528057
1978年,努力为企业融资多年之后,我们很幸运地吸引到一家大公司——施乐公司(Xerox)的兴趣和投资。施乐公司的大部分产品都是把电子信息传送到纸张上。他们把库兹韦尔扫描仪及OCR技术视为一座桥梁,将纸张世界通往电子世界的路连接起来。所以,1980年,他们买下了我的公司。时至今日,大家还可以购买到我们最初开发的OCR,经过适当更新后,如今改名为施乐TextBridge,其质量持续在市场中独占鳌头。
1700528058
1700528059
我仍与史蒂夫·旺达保持着联系,1982年,在他位于洛杉矶的新录音室当中,我们有一次会面,他向我悲叹乐器界的发展形势。一方面,原声乐器的世界仍然存在,比如钢琴、小提琴和吉他,这些乐器为大多数音乐家提供了丰富多样的声音选择。虽然从音乐的角度来说比较令人满意,但这些乐器也有一些局限。大多数音乐家只能演奏一两种不同的乐器。即使你会的乐器不止一种,也没法同时演奏两种乐器。大多数乐器一次只能演奏出一个音符,能够塑造声音的方法非常有限。
1700528060
1700528061
另一方面,还有一个电子乐器的世界,电子乐器不存在控制方面的限制。在计算机化的世界里,你可以在音序器上录下一行音乐,然后回放,再用另一个顺序重新录一遍,这样就一行一行地谱写了一首多重乐器的乐谱。你可以分层处理多种声音,修改它们的声音特点,并且可以错时播放,使用各种其他技术。不过有一个问题,在电子世界里,你处理的声音听起来非常弱,就像是一架风琴,或者像是电子处理过的风琴声。
1700528062
1700528063
史蒂夫非常满意,如果我们可以利用非常灵活的计算机控制方法来处理原声乐器的美妙声音,那一定很棒!我仔细考虑了一下,这个想法听上去可行,所以那次会面后促成了“库兹韦尔音乐系统”的构建,并且定下了它的价值。
1700528064
1700528065
有史蒂夫·旺达做音乐顾问,我们便开始着手将两个音乐的世界结合起来。1983年6月,我们展示了“库兹韦尔250”(K250)的工程雏形,并于1984年投入商业生产。K250被视为第一台电子音乐乐器,可以成功地模仿大钢琴以及其他所有管弦乐器的复杂声音。
1700528066
1700528067
我父亲是一位著名的音乐家,我对电子音乐产生兴趣很大程度上是受他的影响。1970年他过世之前曾对我说,他一直相信有一天我可以把对计算机的兴趣和音乐的兴趣结合在一起,因为他能感觉到在这二者之间有一种天然的密切联系。我记得每次我父亲想听听自己创作的某一曲管弦乐时,都得忙着张罗一整支管弦乐队。这就意味着要筹资、油印手写的活页乐谱、挑选和雇用合适的音乐家,安排可以演奏的音乐厅。一切准备就绪之后,他才能第一次听听自己的作品。上帝保佑他千万别不喜欢自己的作品,否则他就得解雇这些音乐家,并花费数天的时间亲手修改这些音乐。如今,音乐家可以在“库兹韦尔音乐系统”或其他合成器上轻而易举地更改自己的作品,就像在文字处理器上更改一个字母一样简单,然后可以立刻试听修改过后的成果。
1700528068
1700528069
1990年,我将“库兹韦尔音乐系统”出售给韩国的英昌钢琴公司,该公司是当时世界上最大的钢琴制造商。时至今日,“库兹韦尔音乐系统”仍然是全球电子乐器领域的领军品牌,在全球45个国家出售。
1700528070
1700528071
1982年,我还创立了“库兹韦尔应用智能公司”,希望创造一个激活声音的文字处理器。这一项技术急需MIPs(计算机速度)和百万字节(即内存),所以,早期的系统限制了用户可以使用的词汇数量。这些早期系统还要求用户在单词之间做出停顿:因此……你……不……得……不……这……样……说……话。我们把这种“离散文字”的语音识别技术与一个医学知识库结合在一起,为医生创造了一种创建医疗报告的系统,医生仅需对着自己的计算机讲话即可。我们的产品叫作Kurzweil VoiceMed[现在叫作“库兹韦尔临床诊断报告者”(Kurzweil Clinical Reporter)],几乎能够引导医生完成整个报告程序。我们还推出了一个通用目的型的听写产品,叫作“库兹韦尔声音”(Kurzweil Voice),用户可以通过对着个人电脑一次说一个单词的方法创建书面文件。这一产品在无法正常使用自己双手的人群中大受欢迎。
1700528072
1700528073
2000年,受惠于摩尔定律,个人电脑的速度已经非常快,可以识别完全连贯的语音,因此我仅需对着我们的最新产品说话就可以完成这本书剩下的部分,这款产品叫作Voice Xpress Plus,每分钟大约可以记录100个单词。当然,我不可能每分钟写100个单词,因为我总是改变主意,但Voice Xpress Plus似乎并不介意。
1700528074
1700528075
我们也把这家公司出售了,卖给了总部位于比利时的大型语音——语言技术公司Lemout & Hauspie (L&H)。1997年,L&H接手公司后不久,我们便安排L&H的听写部门(前身为库兹韦尔应用智能公司)和微软之间进行了一次战略性联盟,因此我们的语音技术很有可能会被运用到微软以后的产品当中。
1700528076
1700528077
L&H也是文本——语音合成器和语言翻译领域的领头羊,因此,现在该公司具有翻译电话所需的所有技术。我在上文提过,现在我们把一个系统的技术展示合并在一起,这样你就可以在接电话时讲英语,打电话的人依然可以讲德语,反之亦然。最终,人们可以给世界上的任何一个人打电话,你说的话可以立刻翻译成主流语言。当然,我们彼此误解的情况还是无法避免。
1700528078
1700528079
另一语音识别系统的应用——也是我们最初的目标,就是为失聪人士设计的听力装置。从本质上来说,这一系统与为盲人设计的阅读机器刚好相反。通过实时识别自然连续的语音,该装置可以让失聪人士读出别人正在说的话,进而克服他们面临的主要障碍。
[
上一页 ]
[ :1.70052803e+09 ]
[
下一页 ]