1706580383
1706580384
1706580385
或许,就像印度河砝码体现的那样,印度河文明为不同的目的采取了不同的数值系统(例如记数和称重不同)。至少有一位研究者——即邦塔——认为,各种与短线组合同时出现的“鱼”符号用来计数;据他的观点,“鱼”符号代表了计量系统中的数量。
1706580386
1706580387
帕尔波拉的评论很好地总结了目前围绕数值系统的种种不确定:
1706580388
1706580389
1706580390
1706580391
1706580392
看起来,“重复出现的长竖线代表数字”这种情况只出现在早期铭文中(哈拉帕的计数板)。在成熟期字符中,较小的数字(个位数)完全由短线表示(短线成一排或两排),长线条则有其他含义。如下事实可以推导出这个结论:特定象形符号(特别是、和)前会出现数量不同的短线,但除非在早期文本中,否则长线的数量并没有出现这种情况(至少并不明显)。另外,晚期铭文中,并非所有短线组合代表的数字都能在长线组合中找到对应,长线组合出现得更少,且多以几个固定的序列出现。[20]
1706580393
1706580394
很明显,数值系统还需要进行进一步的研究,就像研究美索不达米亚的计数板一样,这也是所有人的共识。但是,印度河铭文基本不可能是账本,因此不太可能对计数的问题做出直接回答。马哈德万和帕尔波拉都在各自的符号列表中为长短线组合保留了不同的符号编号。
1706580395
1706580396
现在,我们终于要讨论单词分隔符和印度河文本如何断词的问题了。最有说服力的方法之一是,首先选定一个长文本,然后在语料库中搜索构成这个长文本的短序列。比如左边这个例子,在这个七字符的印文中,前两个字符与后面的字符间很可能有一个词界(word boundary)。
1706580397
1706580398
1706580399
1706580400
1706580401
做出这个判断的依据是,我们发现另外两枚印痕,其上的字符组合起来能够形成上面那枚印痕上的字符序列:
1706580402
1706580403
1706580404
1706580405
1706580406
在引入第四枚印文后,我们甚至可以推断出,这个七字符的文本——或许是个短语而非单词——还有第二个词界。第四枚印文包含七字符文本中的最后三个符号:
1706580407
1706580408
1706580409
1706580410
1706580411
在某些铭文中,单短线或双短线一眼看上去像是单词分隔符,上面的七字符印文就是一例。比对下面两组共五个铭文,这个解释看上去十分可靠:
1706580412
1706580413
1706580414
1706580415
1706580416
但当铭文中单短线和双短线彼此紧挨着出现时,这个理论就面临挑战:
1706580417
1706580418
1706580419
1706580420
1706580421
而且,单/双短线最常紧随着铭文的第一个字符出现,这个位置对于单词分隔符来说相当奇怪;它们也会出现在铭文末尾,而这恰恰是最不需要单词分隔符的地方。同时,正如帕尔波拉所说,“如果这个符号真的是单词分隔符,那就很难解释,为什么它们在这么有限的文本空间里出现得这么频繁”。[21]例如:
1706580422
1706580423
1706580424
1706580425
1706580426
它们在语料库中出现得并不规律,而单词分隔符应当是规律出现的。
1706580427
1706580428
拆分文本的另一个比较可信的方法,就是利用“字符对频率”,统计每两个字符的组合在整个语料库中出现的次数。如果字符对频率高,说明这两个字符之间关联密切,因此这个字符对有可能是一个单词的一部分;而低字符对频率则说明两个字符间关系较弱,或许二者间存在词界。那么,对于一个六字符的印度河文本“ABCDEF”,例如下面这个马哈德万拆分的文本,我们计算相邻两个字符出现的频次,得到数值为AB83次,BC17次,CD1次,DE40次,EF93次:
1706580429
1706580430
1706580431
1706580432
[
上一页 ]
[ :1.706580383e+09 ]
[
下一页 ]