打字猴:1.701009349e+09
1701009349
1701009350 汉语中构造缩略语的规律很诡异,目前也没有一个定论。初次听到这个问题,几乎每个人都会做出这样的猜想:缩略语都是选用各个成分中最核心的字,比如“安全检查”缩成“安检”,“人民警察”缩成“民警”等等。不过,反例也是有的,“邮政编码”就被缩成了“邮编”,但“码”无疑是更能概括“编码”一词的。当然,这几个缩略语已经逐渐成词,可以加进词库了,但新近出现的或者临时构造的缩略语该怎么办,还真是个大问题。
1701009351
1701009352 说到新词,网络新词的大量出现才是分词系统真正的敌人。这些新词汇的来源千奇百怪,几乎没有固定的产生机制。要想实现对网络文章的自动分词,目前来看是相当困难的。革命尚未成功,分词算法还有很大的进步空间。
1701009353
1701009354 我和数学有约:趣味数学及算法解析 [:1701004247]
1701009355 7.7.1 基于词典的机械匹配的分词方法
1701009356
1701009357 基于词典的机械匹配的分词方法的思想是,事先建立词库,让它按照一定的策略,将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到该字符串,则识别出一个词。按照扫描方向的不同,串匹配分词的方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,又可以分为最大匹配和最小匹配。
1701009358
1701009359 按这种分类方法,可以产生正向最大匹配、逆向最大匹配,甚至是将他们结合起来形成双向匹配。由于汉字是单字成词的,所以很少使用最小匹配法。一般来说,逆向匹配的切分精度略高于正向匹配,这可能和汉语习惯将词的重心放在后面的缘故。
1701009360
1701009361 可见,这里的“机械”是因为该算法仅仅依靠分词词表进行匹配分词。
1701009362
1701009363 机械匹配算法简洁、易于实现。其中,最大匹配法体现了长词优先的原则,在实际工程中应用最为广泛。机械匹配算法实现比较简单,但其局限也是很明显的:
1701009364
1701009365 (1)效率和准确性受到词库容量的约束;
1701009366
1701009367 (2)机械匹配算法采用简单机械的分词策略,不涉及语法和语义知识,所以对于歧义切分无法有效地克服,切分精度不高。
1701009368
1701009369 虽然专家们采用了不少方法来改善机械匹配的性能,但是从整体效果上来看,单纯采用机械匹配式进行分词难以满足中文信息处理中对汉语分词的要求。在机械匹配分词的基础上,利用各种语言信息进行歧义校正是削弱机械式切分局限性的一种重要手段。
1701009370
1701009371 我和数学有约:趣味数学及算法解析 [:1701004248]
1701009372 7.7.2 正向减字最大匹配法
1701009373
1701009374 正向减字最大匹配法的基本思想是:对于每一个汉字串s,先从正向取出最大字符串长度(max Length)的字,拿这几个字到字典中查找,如果字典中有此字,则说明该字串是一个词,放入该T的分词表中,并从s中切除这几个字,然后继续此操作;如果在字典中找不到,说明这个字串不是一个词,将字串最右边的那个字删除,继续与字典比较,直到该字串为一个词或者是单独一个字时结束。
1701009375
1701009376 我和数学有约:趣味数学及算法解析 [:1701004249]
1701009377 7.7.3 逆向减字最大匹配法
1701009378
1701009379 与正向减字最大匹配法相比,逆向减字最大匹配法就是从逆向开始遍历。过程与正向减字最大匹配法基本相同,可以对文本和字典先做些处理,把他们都倒过来排列,然后使用正向减字最大匹法。
1701009380
1701009381 我和数学有约:趣味数学及算法解析 [:1701004250]
1701009382 7.7.4 基于统计的分词方法
1701009383
1701009384 该类算法的主要思想是:词是稳定的汉字的组合,在上下文中汉字与汉字相邻共现的概率能够较好地反映成词的可信度,因此对语料中相邻共现的汉字的组合频度进行统计,计算他们的统计信息并作为分词的依据。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此与字相邻共现得频率或概率能够较好地反映成词的可行度。可以对预料中相邻共现的各个字的组合的频率进行统计,计算它们的互现信息。
1701009385
1701009386
1701009387 计算汉字X和X的互现信息公式为:。
1701009388
1701009389 其中,P(X,Y)是汉字X和Y的相邻共现概率,P(X)、P(Y)分别是X和Y在语料中出现的频率。互现信息体现了汉字之间结合的关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。
1701009390
1701009391 基于统计模型的自动分词算法的优点在于:
1701009392
1701009393 (1)该类算法所需的一切数据均由机器自动获得,无须人工介入;
1701009394
1701009395 (2)能够有效地自动排除歧义,能够识别未登录词,解决了机械匹配分词算法的局限。
1701009396
1701009397 但是由于该类算法不使用分词词表,所以对常用词的识别敏感度较低,时空开销较大,并且会抽出一些共现频度高但并不是词的常用词组,例如,“这一”、“之一”、“有的”、“我的”和“许多的”等。实际应用的统计分词系统都要使用一部基本的分词词典进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
1701009398
[ 上一页 ]  [ :1.701009349e+09 ]  [ 下一页 ]