1701017090
1701017091
1701017092
1701017093
(2)以两个类中点的最短距离作为两个类的类间的距离。可计算得目前两个类间的最短距离为。此处4号墓与G2中的11号墓距离为,因而4号墓与G2的距离为。同样,10号墓与G3的距离、20号墓与G5的距离都是。把距离不大于的类归为一类,则得到新的类,如图6.3.3中实线所圈的集合。
1701017094
1701017095
(3)仍以两个类中点的最短距离作为两类之间的距离,则现在两个类间的最小距离为2,将类的距离不大于2的类合并成新类。在图6.3.3中新的类用虚线围成。现在,除去16、21这两点外,所有的点全在这4个类中。
1701017096
1701017097
1701017098
1701017099
1701017100
▲ 图6.3.1 古墓文物按瓷器6用.3.1具数和陶俑数的分布图
1701017101
1701017102
1701017103
1701017104
1701017105
▲ 图6.3.2 古墓文物第一次聚类图
1701017106
1701017107
1701017108
1701017109
1701017110
▲ 图6.3.3 古墓文物第二次聚类图
1701017111
1701017112
1701017113
1701017114
1701017116
数学文化教程 第四节 《红楼梦》的作者是谁?数据分析的应用
1701017117
1701017118
关于中国古典名著《红楼梦》一书的作者,研究者颇多,意见也各异。但自胡适于1921年发表《红楼梦考证》后,断言“前80回为曹雪芹所著,后40回则为高鹗续成”的意见逐渐被广泛接受。这种意见对不对呢?数理语言学似乎可以帮一点忙。
1701017119
1701017120
用数学方法判断一部文学作品的作者,在国外早有先例。当年,苏联肖洛霍夫是否创作了《静静的顿河》,也曾经闹得满城风雨。最后据说是用了统计方法,才确认了肖洛霍夫的作者地位。
1701017121
1701017122
1987年,复旦大学数学系的数理统计专家李贤平教授,发表《〈红楼梦〉成书新说》的论文(见《复旦学报》社科版,1987年第五期)。作者用现代数学方法,以电子计算机为工具,对《红楼梦》的语言作了统计分析,获得了大量的新发现。他的做法是:
1701017123
1701017124
(1)将120回看做一个整体,不再先验地分前80回和后40回。以平等对待的客观态度,用统计数据来下判断。
1701017125
1701017126
(2)从统计语言学的角度建立识别特征。主要用47个虚字的出现频率,有时也用到句长分布。47个虚字是
1701017127
1701017128
① 13个文言虚字:之,其,或,亦,方,于,即,皆,因,仍,故,尚,乃。
1701017129
1701017130
② 9个句尾虚字:呀,吗,咧,罢咧,啊,罢,罢了,么,呢。
1701017131
1701017132
③ 13个常用白话虚字:了,的,着,一,不,把,让,向,往,是,在,别,好。
1701017133
1701017134
④ 10个表示转折、程度、比较等意思的虚字:可,便,就,但,越,再,更,比,很,偏。
1701017135
1701017136
⑤ 后缀词2种:儿(用于名词),儿(用于副词和形容词)。
1701017137
1701017138
(3)用各种统计方法(主成分分析、典型相关分析、多维尺度法、广义线性模型、类x2距离、相关分析),探索各回的写作风格接近度,并用三种层次聚类方法对各回目进行分类。
1701017139
[
上一页 ]
[ :1.70101709e+09 ]
[
下一页 ]