打字猴:1.70524112e+09
1705241120 这台设备的学名叫“有限状态机”(finite-state)或“马尔可夫模型”(Markov model),不过我们姑且把它称为“字串机”(word-chain device)。这台机器拥有一大批词语列表(或者预设短语),以及一套在各个列表之间进行对应、筛选的操作规则。它的处理器会先在某个列表中选择一个单词,然后在另一个列表中再选择一个单词,依次类推,最终制造出一个句子。如果要理解他人说出的句子,这台机器只能以列表为参照,依次核对句中的每个单词。像弗莱恩这样的讽刺作家经常拿字串系统开涮,把它视为一种可以自动生产赘语冗辞的工具,例如有一种所谓的“社会科学术语生成器”(Social Science Jargon Generator),读者只需依次从以下三栏中各选出一个词,便可组成像归纳性聚合式相互依赖“inductive aggregating interdependence”这样听起来冠冕堂皇的术语。
1705241121
1705241122
1705241123
1705241124
1705241125
1705241126
1705241127
1705241128 最近我见过一台字串机,它可以自动生成书封上的宣传广告,另外还有一台字串机能够替代鲍勃·迪伦(Bob Dylan)编写歌词。
1705241129
1705241130 字串机是最为简单的一种离散组合系统,它可以从一组有限的元素中创建出无限的特定组合。尽管它的表现略显拙劣,但一台字串机可以生成无限数量的符合语法的英文语句,例如,一些最为简单的句式:“A girl eats ice cream”(一个女孩吃着冰激凌)或“The happy dog eats candy”(这只欢快的狗吃着糖果)。
1705241131
1705241132
1705241133
1705241134
1705241135 这种句式包含着无限个句子,因为“happy”上的循环箭头标志着字串机可以任意重复“happy”一词的次数,例如“The happy dog eats ice cream”“The happy happy dog eats ice cream”等,以至于无穷。
1705241136
1705241137 当工程师准备建立一套符合特定顺序的字词组合系统时,他首先想到的必然是字串机。电话查询台的语音录音就是一个很好的例子,它事先录下10个数字的读音,并且每个数字的读音又分作7个音调(位于电话号码首位的数字是一个音调,位于第二位的数字又是一个音调,以此类推)。有了这70个录音,它就可以播报出1 000万个电话号码,再加上3位数的区号所产生的30个录音,一共可以组合成上亿个电话号码(不过在实际生活中,由于各项规定的限制,许多号码并不会被用到,比如说0和1不能作为电话号码的第一位数)。事实上,已经有人付出了极大的努力,希望为英语构建出一套巨大的字串模型。为了使它尽可能地符合现实情况,设计者将各个单词之间的转移情况与它们在英语中的衔接概率进行了匹配,例如“that”一词后面紧跟“is”的概率要大于“indicates”。研究人员通过两种方法建立了一个庞大的“跃迁概率”(transition probability)数据库:一是借助计算机对大量英语文献进行分析;二是向参加试验的志愿者播报一个或一系列单词,然后询问他们第一时间联想到的是哪个单词。一些心理学家表示,人类语言其实就是一个储存在大脑中的巨型字串。这个看法与“刺激-反应”理论不谋而合:一个刺激引发一个反应,在这里,反应就是嘴里说出的某个单词,而当说话者察觉到自己的反应时,这个反应又转变为新的刺激,引发他做出下一个反应,即说出后面的单词。
1705241138
1705241139 但事实上,正如弗莱恩在小说中描写的那样,字串机的工作原理是那么的拙劣可笑,这不能不引起我们的怀疑。如果将我们的语言机制看成一台字串机,那就等于说我们的大脑是如此的盲目无知、缺乏创意,以至于一台简单的机器就可以制造出无穷无尽且足以以假乱真的例句。而弗莱恩的小说之所以显得异常幽默,正是因为我们的语言机制与字串机并非一回事。所有人都相信,人类(包括社会学家和记者在内)并不是真正意义上的字串机,二者之间只不过是有几分相似而已。
1705241140
1705241141 然而,乔姆斯基认为,字串机理论不仅仅是一个值得怀疑的看法,在人类语言机制的问题上,它其实犯了一个根本性的错误。由此,乔姆斯基拉开了现代语法研究的序幕。在他看来,虽然字串机也属于离散组合系统,但它与语言机制有着根本区别。以下是它存在的三个问题,而这三个问题也恰好反映了语言机制的三个特性。
1705241142
1705241143 首先,一个英文句子与一串根据跃迁概率连接起来的英文单词截然不同,例如乔姆斯基的句子“Colorless green ideas sleep furiously”。乔姆斯基杜撰这个句子的目的,不仅是为了表示毫无意义的句子也可以符合语法,他同时还想说明,那些概率极小的字序连接也可以符合语法。在英语文本中,单词“colorless”之后紧跟“green”的概率显然为零。“green”之后紧跟“ideas”的概率也为零,再如“ideas”之后紧跟“sleep”,“sleep”之后紧跟“furiously”等,莫不如此。尽管如此,这一串文字仍然算得上是一个语法精当的英语句子。相反,如果一个人真的只根据跃迁概率来串联字词,他得出的字串恐怕会毫无语法可言。例如,假设你采用的方法是根据前4个单词来推测下一个最可能出现的单词,由此逐字逐词地生成一个字串,其中每个单词的出现都取决于它前面的4个单词,其 结果是:你将看到一堆莫名其妙的英语单词,而非一个英文句子。例如:“House to ask for is to earn our living by working towards a goal for his team in old New-York was a wonderful place wasn’t it even pleasant to talk about and laugh hard when he tells lies he should not tell me the reason why you are is evident.”
1705241144
1705241145 英文语句与英语字串的区别让我们明白了两个道理。第一,在学习语言的时候,人们学习的是如何将字词合理地排列,而不是机械地记住其前后顺序。人们是通过词性(如名词、动词等)的搭配原则来实现这一点的。换言之,我们之所以可以辨认出“colorless green ideas”这个短语,是因为它在形容词和名词的搭配上与“strapless black dresses”(无肩带的黑色裙子)这样的常见短语完全一致。第二,名词、动词和形容词的搭配并不是以首位相接的形式连成一串的,在句子的构建过程中,存在着一个整体蓝图或者框架,为每个单词设定了具体的安放位置。
1705241146
1705241147 如果字串机拥有足够的智慧,它或许可以解决这些问题。但乔姆斯基已经明确地驳斥了将人类语言视为字串的观点。他证明说,即使从理论上说,某些英语句型也无法由字串机来完成,无论这台字串机的功能有多强大,也无论它是否完全以概率表为准则。例如下面这两个句子:
1705241148
1705241149 Either the girl eats ice cream, or the girl eats candy.
1705241150
1705241151 这个女孩要么吃冰激凌,要么吃糖果。
1705241152
1705241153 If the girl eats ice cream, then the boy eats hot dogs.
1705241154
1705241155 如果这个女孩吃冰激凌,这个男孩就吃热狗。
1705241156
1705241157 乍看之下,这两个句子似乎很容易分解:
1705241158
1705241159
1705241160
1705241161
1705241162 但字串机对此束手无策。在一个句子中,“Either”之后必须连接以“or”引起的分句,没有人会说“Either the girl eats ice cream, then the girl eats candy”。同样,“if”之后跟随的是“then”,没有人说“If the girl eats ice cream, or the girl likes candy”。但是,要满足句中早先出现的单词与稍后出现的单词之间的对应关系,字串机必须在逐字炮制句子的同时记住早先出现过的单词。而这就是问题所在:字串机是一个“健忘者”,它只能记住自己刚刚选取的单词列表,而无法记住之前的内容。当字串机运行到“or”或者“then”列表时,它根本记不清句子的开头到底是“if”还是“either”。当然,我们可以从制高点的位置居高临下地鸟瞰整个“路线图”,记住这台字串机在第一个岔口上所选择的道路;但对于在列表之间匍匐前进的字串机而言,要记住自己之前走过的道路却是不可能的事情。
1705241163
1705241164 或许你认为这只是一个很简单的问题,我们只须对字串机进行重新设计,让它可以记住自己先前选择的内容,例如,这台字串机能够将单词“either”和“or”以及它们中间可能出现的字序组合成一个大序列,再将“then”和“if”以及它们中间的字序组合成另一个大序列,然后再进行第三个序列的生成。例如:
1705241165
1705241166
1705241167
1705241168
1705241169 然而,这一解决方案存在非常明显的问题:它产生出三个相同的“子网”(subnetwork)。显然在现实语境中,无论人们在“either”和“or”之间插入什么内容,它们都同样可以插入“if”和“then”之间,也可以插入“or”或“then”之后。但是,人类的这种能力乃是出自大脑语言机制的自然设计,而并非依赖于某位设计者精心编写的三组相同的指令集(或者貌似更加合理的是,儿童在学习该句的句式时必须分三次进行,先是“if”和“then”之间的序列,然后是“either”和“or”之间的序列,最后是“then”和“or”之后的序列)。
[ 上一页 ]  [ :1.70524112e+09 ]  [ 下一页 ]