打字猴:1.701017096e+09
1701017096
1701017097
1701017098
1701017099
1701017100 ▲ 图6.3.1 古墓文物按瓷器6用.3.1具数和陶俑数的分布图
1701017101
1701017102
1701017103
1701017104
1701017105 ▲ 图6.3.2 古墓文物第一次聚类图
1701017106
1701017107
1701017108
1701017109
1701017110 ▲ 图6.3.3 古墓文物第二次聚类图
1701017111
1701017112
1701017113
1701017114
1701017115 数学文化教程 [:1701013749]
1701017116 数学文化教程 第四节 《红楼梦》的作者是谁?数据分析的应用
1701017117
1701017118 关于中国古典名著《红楼梦》一书的作者,研究者颇多,意见也各异。但自胡适于1921年发表《红楼梦考证》后,断言“前80回为曹雪芹所著,后40回则为高鹗续成”的意见逐渐被广泛接受。这种意见对不对呢?数理语言学似乎可以帮一点忙。
1701017119
1701017120 用数学方法判断一部文学作品的作者,在国外早有先例。当年,苏联肖洛霍夫是否创作了《静静的顿河》,也曾经闹得满城风雨。最后据说是用了统计方法,才确认了肖洛霍夫的作者地位。
1701017121
1701017122 1987年,复旦大学数学系的数理统计专家李贤平教授,发表《〈红楼梦〉成书新说》的论文(见《复旦学报》社科版,1987年第五期)。作者用现代数学方法,以电子计算机为工具,对《红楼梦》的语言作了统计分析,获得了大量的新发现。他的做法是:
1701017123
1701017124 (1)将120回看做一个整体,不再先验地分前80回和后40回。以平等对待的客观态度,用统计数据来下判断。
1701017125
1701017126 (2)从统计语言学的角度建立识别特征。主要用47个虚字的出现频率,有时也用到句长分布。47个虚字是
1701017127
1701017128 ① 13个文言虚字:之,其,或,亦,方,于,即,皆,因,仍,故,尚,乃。
1701017129
1701017130 ② 9个句尾虚字:呀,吗,咧,罢咧,啊,罢,罢了,么,呢。
1701017131
1701017132 ③ 13个常用白话虚字:了,的,着,一,不,把,让,向,往,是,在,别,好。
1701017133
1701017134 ④ 10个表示转折、程度、比较等意思的虚字:可,便,就,但,越,再,更,比,很,偏。
1701017135
1701017136 ⑤ 后缀词2种:儿(用于名词),儿(用于副词和形容词)。
1701017137
1701017138 (3)用各种统计方法(主成分分析、典型相关分析、多维尺度法、广义线性模型、类x2距离、相关分析),探索各回的写作风格接近度,并用三种层次聚类方法对各回目进行分类。
1701017139
1701017140 李贤平的研究使用了陈大康先生用两年半时间精心统计而得到的字频数据。这是一项十分基础的工作。以上47个虚字的出现频率,乃是统计分析的出发点。
1701017141
1701017142 然后,李贤平使用美国威斯康星大学麦迪逊分校的计算机进行统计分析,获得约300张的图表。图6.4.1是根据统计结果画出的x2距离多维点云的正视图。图中的号码表示回目,从1到120。每个点(回目)的位置由该回文字的47个虚字的频率所决定,各点之间的距离就是x2距离。
1701017143
1701017144 由图可以看出各回目之间的关系。如果从左下角到右上角画一对角线,则除了67回,1—80回在对角线之上,后40回在对角线之下。这一现象和过去红学家的判断是一样的。说明前80回和后40回是两种手笔。这个貌似平凡的结论,反衬了数学方法的有效性,也说明这47个虚字是有区别能力的。图中的这120个点能够区分开前80回和后40回,反映了《红楼梦》的特征,不是偶然地碰上的。要凑得这么好,其概率是一万亿亿亿亿分之一,事实上不可能发生。但是,更为重要的是,有许多特征过去红学家们从来没有注意到。比如,
1701017145
[ 上一页 ]  [ :1.701017096e+09 ]  [ 下一页 ]