打字猴:1.701009371e+09
1701009371 我和数学有约:趣味数学及算法解析 [:1701004248]
1701009372 7.7.2 正向减字最大匹配法
1701009373
1701009374 正向减字最大匹配法的基本思想是:对于每一个汉字串s,先从正向取出最大字符串长度(max Length)的字,拿这几个字到字典中查找,如果字典中有此字,则说明该字串是一个词,放入该T的分词表中,并从s中切除这几个字,然后继续此操作;如果在字典中找不到,说明这个字串不是一个词,将字串最右边的那个字删除,继续与字典比较,直到该字串为一个词或者是单独一个字时结束。
1701009375
1701009376 我和数学有约:趣味数学及算法解析 [:1701004249]
1701009377 7.7.3 逆向减字最大匹配法
1701009378
1701009379 与正向减字最大匹配法相比,逆向减字最大匹配法就是从逆向开始遍历。过程与正向减字最大匹配法基本相同,可以对文本和字典先做些处理,把他们都倒过来排列,然后使用正向减字最大匹法。
1701009380
1701009381 我和数学有约:趣味数学及算法解析 [:1701004250]
1701009382 7.7.4 基于统计的分词方法
1701009383
1701009384 该类算法的主要思想是:词是稳定的汉字的组合,在上下文中汉字与汉字相邻共现的概率能够较好地反映成词的可信度,因此对语料中相邻共现的汉字的组合频度进行统计,计算他们的统计信息并作为分词的依据。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此与字相邻共现得频率或概率能够较好地反映成词的可行度。可以对预料中相邻共现的各个字的组合的频率进行统计,计算它们的互现信息。
1701009385
1701009386
1701009387 计算汉字X和X的互现信息公式为:。
1701009388
1701009389 其中,P(X,Y)是汉字X和Y的相邻共现概率,P(X)、P(Y)分别是X和Y在语料中出现的频率。互现信息体现了汉字之间结合的关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。
1701009390
1701009391 基于统计模型的自动分词算法的优点在于:
1701009392
1701009393 (1)该类算法所需的一切数据均由机器自动获得,无须人工介入;
1701009394
1701009395 (2)能够有效地自动排除歧义,能够识别未登录词,解决了机械匹配分词算法的局限。
1701009396
1701009397 但是由于该类算法不使用分词词表,所以对常用词的识别敏感度较低,时空开销较大,并且会抽出一些共现频度高但并不是词的常用词组,例如,“这一”、“之一”、“有的”、“我的”和“许多的”等。实际应用的统计分词系统都要使用一部基本的分词词典进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
1701009398
1701009399 我和数学有约:趣味数学及算法解析 [:1701004251]
1701009400 7.7.5 基于人工智能的分词方法
1701009401
1701009402 应用人工智能中的神经网络和专家系统来进行中文自动分词,以实现智能化的中文自动分词系统是近年来中文自动分词领域中的一个研究热点。该类算法的分词过程是对人脑思维方式的模拟,试图用数字模型来逼近人们对语言认识的过程。
1701009403
1701009404 我和数学有约:趣味数学及算法解析 [:1701004252]
1701009405 7.7.6 神经网络分词算法
1701009406
1701009407 该类分词算法是以模拟人脑运行,分布处理和建立数值计算模型工作的。它将分词知识的隐式方法存入神经网内部,通过自学习和训练修改内部权值以达到正确的分词结果。
1701009408
1701009409 神经网络分词法的关键在于知识库权重链表的组织和网络推理机制的建立。算法的分词过程是一个生成分词动态网的过程。
1701009410
1701009411 该过程是分步进行的:首先以确定的待处理语句的汉字串为基础,来确定网络处理单元;然后,根据链接权重表激活输入输出单元之间的链接,该过程可以采用某种激活方式取一个汉字作为关键字确定其链接表不断匹配。
1701009412
1701009413 神经网络分词法具有自学习自组织功能,可以进行并行、非线性处理并且反应迅速对外界变化敏感;但是目前的基于神经网络的分词算法存在着网络模型表达复杂学习算法收敛速度较慢,训练时间长,并且对已有的知识维护更新困难等不足。
1701009414
1701009415 我和数学有约:趣味数学及算法解析 [:1701004253]
1701009416 7.7.7 专家系统分词算法
1701009417
1701009418 专家系统分词算法从模拟人脑功能出发,构造推理网络,将分词过程看作是知识推理的过程。该方法将分词所需要的语法语义以及句法知识从系统的结构和功能上分离出来,将知识的表示、知识库的逻辑结构与维护作为首要考虑的问题。
1701009419
1701009420 专家系统分词算法是一种统一的分词算法,不仅使整个分词处理过程简明,也使整个系统的运行效率得到提高。并可利用深层知识来处理歧义字段,其切分精度据称可达语法级。其缺点是不能从经验中学习,当知识库庞大时难以维护,进行多歧义字段切分时耗时较长,同时对于外界的信息变化反应缓慢。
[ 上一页 ]  [ :1.701009371e+09 ]  [ 下一页 ]