【Python自然语言处理】规则分词中正向、反向、双向最大匹配法的讲解及实战(超详细 附源码)

news2024/9/21 12:44:52

需要源码和字典集请点赞关注收藏后评论区留言私信~~~

一、规则分词

规则分词核心内容是建立人工专家词典库,通过将语句切分出的单词串与专家词典库中的所有词语进行逐一匹配,匹配成功则进行对象词语切分,否则通过增加或者减少一个字继续比较,直到剩下一个单字终止匹配操作。

按照匹配算法和查找方向,可以分为正向最大匹配法、逆向最大匹配法与双向匹配法三种方法。

二、正向最大匹配法

正向最大匹配(Maximum Match Method :MMM) 算法操作方向为从左至右,无法匹配时删除最右边字符,其主要步骤:

(1)确定专家词典中所有词汇的最长词语的长度N;

(2)选取处理对象字符串从左至右的前N个字符,以此为匹配字段查找专家词典,如果刚好找到字符个数和字符内容都一致的词语,则匹配操作成功,按照该匹配字段对对象字符串进行切分;

(3)若词典中无法找到完全一致的词,则匹配操作失败,此时将匹配宇段中的最右边一个字符删除;

(4)对剩下的字符串重新进行匹配处理,如此循环操作直到所有字符匹配成功或者剩余字符串的长度为零为止。若匹配宇段长度为1,表示该单字符无法再切分。  

下面是基于正向最大匹配算法的实例

匹配对象字符串:中国当代大学生的实践创新能力已经取得了巨大的进步

专家字典库:{中国,当代,吗,大学生,创新,能力,进步,已经,取得,实践,发展,的,了,巨大,明显}

匹配结果如下

可见从左到右完美的匹配出了原字符串内容

 部分代码如下

# 正向最大匹配算法
class Maximum_Match(object):
    # 初始化操作,获取专家词典文件所在路径
    def __init__(self, directory):
        # 初始化专家词典最长词语长度
        self.max_length =  0
        # 创建一个空元素集,存放切分结果
        self.out = set()
        # 打开包含专家词典内容的文件
        with open(directory, 'r', encoding='utf8') as c:
            # 按行顺序读入专家词典内容
            for word in c:
                #移除字符串头尾空格
                word = word.strip()
                # 保存去除两端空格符后的专家字典词语
                self.out.add(word)
                # 根据切分结果更新专家词典最长词语长度
                if len(word) > self.max_length:
                    self.max_length = len(word)
     #切分函数,传入需要切分的对象字符串               
    def tokenization(self, content,result = []):
        #获得专家词典最长词语长度N
        N = self.max_length
        #获得切分对象字符串总长度
        content_length = len(content)
  ):]
             #获取新对象字符串的新长度
            content_length = len(content)
        return result
#主处理函数
if __name__ == '__main__':
    #设置对象字符串
    content = "中国当代大学生的实践创新能力已经取得了巨大的进步"
    #获取专家字典内容和位置
    t = Maximum_Match('./database.utf8')
    #调用切分函数输出结果
    print(t.tokenization(content))

三、逆向最大匹配法

逆向最大匹配(Reverse Match Method :RMM) 算法基本原理与正向最大匹配算法大致相同,但操作方向相反,主要步骤包括:

(1)确定专家词典中所有词汇的最长词语的长度N;

(2)选取处理对象字符串从右至左的后N个字符,以此为匹配字段查找专家词典,如果刚好找到字符个数和字符内容都一致的词语,则匹配操作成功,按照该匹配字段对对象字符串进行切分;

(3)若词典中无法找到完全一致的词,则匹配操作失败,此时将匹配宇段中的最左边一个字符删除;

(4)对剩下的字符串重新进行匹配处理,如此循环操作直到所有字符匹配成功或者剩余字符串的长度为零为止。若匹配宇段长度为1,表示该单字符无法再切分。

字符串和专家字典库同上 此处不再赘述

测试效果如下

 部分代码如下

# 逆向最大匹配算法
class Reverse_Match(object):
    # 初始化操作,获取专家词典文件所在路径
    def __init__(self, directory):
        # 初始化专家词典最长词语长度
        self.max_length =  0
        # 创建一个空元素集,存放切分结果
        self.out = set()
        # 打开包含专家词典内容的文件
        with open(directory, 'r', encoding='utf8') as c:
            # 按行顺序读入专家词典内容
            for word in c:
                #移除字符串头尾空格
                word = word.strip()
                # 保存去除两端空格符后的专家字典词语
                self.out.add(word)
                # 根据切分结果更新专家词典最长词语长度
                if len(word) > self.max_length:
                    self.max_length = len(word)
     #切分函数,传入需要切分的对象字符串               
    def tokenization(self, content,result = []):
        #获得专家词典最长词语长度N
        N = self.max_length
        #获得切分对象字符串总长度
        content_length = len(content)
        while content_length > 0:
            #从右至左切分对象字符串的最后N个字符
    ntent)
        return result
#主处理函数
if __name__ == '__main__':
    #设置对象字符串
    content = "中国当代大学生的实践创新能力已经取得了巨大的进步"
    #获取专家字典内容和位置
    t = Reverse_Match('./database.utf8')
    #调用切分函数输出结果
    print(t.tokenization(content))

三、双向最大匹配法

双向最大匹配法(BMM)将正向匹配法得到的分词结果和逆向匹配法得到的结果进行对比操作,根据最大匹配原则,选取切分后词数最少的匹配作为结果

创作不易 觉得有帮助请点赞关注收藏~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/60286.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文件或者文件夹的忽略

文件或者文件夹的忽略 编辑项目的时候,将一些临时文件或者插件可以忽略上传到项目库中去。 追踪中的文件,不能被忽略。 首先的创建.gitignore文件,并且该文件需要放到项目的根目录下 接着,打开.gitignore文件 windows中 open d…

软件测试——分类

测试分类 一、按照测试对象划分 1、界面 界面测试UI测试 (1)测试软件界面元素完整性,正确性,一致性 (2)软件界面排版布局合理、字体、颜色 (3)测试界面的自适应性,界面…

1549_AURIX_TC275_SCU系统中的CCU模块

全部学习汇总: GreyZhang/g_TC275: happy hacking for TC275! (github.com) 从这一份笔记开始看一下SCU系统,其实这个是一个功能组合,其中的一个小模块又叫做SCU。因此,在名称上可能会有一点点绕。近段时间看相关的资料比较多&…

数据结构与算法—数组栈和链表栈

数据结构与算法—数组栈和链表栈 🌈一览众山小数据结构与算法—数组栈和链表栈栈介绍栈图解栈实现数组实现栈实现思路实现代码单链表实现栈实现思路(图解)实现代码栈总结栈力扣栈介绍 栈,存储货物或供旅客住宿的地方,可引申为仓库、中转站,所以引入到计算…

Java—泛型、内部类、多继承

文章目录泛型1.泛型是什么,使用泛型的好处2.泛型中的限定通配符和非限定通配符3.泛型擦除内部类多继承多继承使用:———————————————————————————泛型 1.泛型是什么,使用泛型的好处 ​ 泛型就是把类型参数化&…

骰子游戏-第11届蓝桥杯Scratch选拔赛真题精选

[导读]:超平老师计划推出Scratch蓝桥杯真题解析100讲,这是超平老师解读Scratch蓝桥真题系列的第94讲。 蓝桥杯选拔赛每一届都要举行4~5次,和省赛、国赛相比,题目要简单不少,再加上篇幅有限,因此我精挑细选…

Python源码剖析1-整数对象PyIntObject

1、PyIntObject 对象 [intobject.h] typedef struct {PyObject_HEADlong ob_ival; } PyIntObjectPyIntObject是一个不可变(immutable)对象。Python内部也大量的使用整数对象,我们在自己的代码中也会有大量的创建销毁整型对象的操作&#xff…

霍夫曼树:霍夫曼编码(Huffman Tree:Huffman Coding)

预计阅读时间:10分钟 一、简介 霍夫曼树常处理符号编写工作。根据整组数据中符号出现的频率高低,决定如何给符号编码。如果符号出现的频率越高,则给符号的码越短,相反符号的号码越长。 相关术语 路径:从书中一个节点…

Docker安装可视化管理器Portainer

Docker安装可视化管理器Portainer Portainer 提供状态显示面板、应用模板快速部署、容器镜像网络数据卷的基本操作(包括上传下载镜像,创建容器等操作)、事件日志显示、容器控制台操作、Swarm 集群和服务等集中管理和操作、登录用户管理和控制…

Linux/Windows Redis的下载与安装

Redis简介 参考视频教程: https://www.bilibili.com/video/BV13a411q753?p143 Redis下载与安装 Windows版 下载地址: https://github.com/microsoftarchive/redis/releases Linux版下载地址: https://download.redis.io/releases/ 1. Window版本 1.1 redis下载 官网下载…

用ACL实现防火墙功能

目录 实验目的: 实验所需软硬件 实验步骤: 1、按以下拓扑接好线路。 2、配置好设备的IP地址和静态路由,使得所有设备可以互通。(配置截图) PC2 PC0 Router0 Router1​编辑 Server 3、测试各PC/服务器互联状…

基于KubeSphere图形编辑面板构建微服务项目的DevOps 系统

文章目录相关文章部署过程准备工作创建 DevOps 项目创建凭证创建流水线编辑流水线JAVA后端微服务拉取源码构建源码构建镜像推送镜像部署项目VUE前端拉取源码构建源码构建镜像推送镜像部署项目运行流水线查看流水线详情完整流水线脚本微服务后端VUE前端参考相关文章 kubernetes…

Grafana+Prometheus打造运维监控系统(一)-安装篇

1. Prometheus、Grafana介绍 Prometheus是一个开源的系统监控和报警系统,Grafana 是一个开源的监控数据分析和可视化套件,利用GrafanaPrometheus组合,打造运维日常的各种指标监控以及数据可视化。 2. Prometheus 2.1 下载 访问&#xff1…

专利-分析方法总结

目录 一、专利分析的意义 二、专利分析的方法: 2.1、行业专利信息分析 2.1.1、专利技术发展趋势分析 2.1.2、专利区域分布分析 2.1.3、专利相关人分析 2.1.4、专利技术主题分析 2.1.5、技术发展路线分析 2.1.6、专利技术功效分析 2.1.7、专利运营分析 3.…

node环境的搭建

一、node的安装(可以去文末直接安装nvm管理器,就不用配置了) 1 下载 | Node.js,也可以下载以往版本,window是以msi结尾的文件 2 安装,直接一直安装就行,如果有之前安装的版本,先进行卸载,然后再进行安装 3 安装完成后查看版本号 node -vnp…

Linux下文件目录权限管理chmod, chown, chgrp,umask命令使用总结

在Linux系统下常用的文件目录权限管理命令有chmod, chown, chgrp,umask,一直以来都在用,但是没有太注意它们的区别,今天就在这篇文章做个总结。 目录 1. chmod 2. chown 3. chgrp 4. umask 1. chmod 作用:修改某个目录或文件…

C语言实现学生管理系统(顺序表版)

前言 设计知识 使用语言:C语言 数据结构类型:顺序表 内容导图 效果展示 内容目录前言设计知识内容导图效果展示静态管理系统菜单的实现选择功能实现静态开辟空间实现增删功能增加功能实现删除功能实现实现查找功能实现修改功能实现排序功能动态管理系…

rollup打包工具快速入门

0.开始 教学视频出处 https://www.bilibili.com/video/BV1w84y1z77V?p3&spm_id_frompageDriver&vd_source0f7f337dd5a99bb975b88a48ae1b3711 日期:2022/12/3 rollup目前版本: "rollup": "^3.5.1"1.rollup概述 官网 http…

N32G45之串口+DMA数据收发

N32G45之串口DMA数据收发 1.串口简介   通用同步异步收发器(USART)提供了一种灵活的方法与使用工业标准NRZ异步串行数据格式的外部设备之间进行全双工数据交换。 USART利用分数波特率发生器提供宽范围的波特率选择。它支持同步单向通信和半双工单线通信,也支持LI…

【云原生】nacos权限制认证

鉴权 服务端如何开启鉴权 非Docker环境 按照官方文档配置启动,默认是不需要登录的,这样会导致配置中心对外直接暴露。而启用鉴权之后,需要在使用用户名和密码登录之后,才能正常使用nacos。 开启鉴权之前,application.properti…