智能语义识别电影机器人的rasa实现

news2024/11/25 7:10:29

文章目录

  • 0.前言
  • 1.项目整体框架
  • 2.rasa训练数据结构
  • 4.rasa启动命令及用到的API

0.前言

最近做了一个智能电影机器人的项目,我主要负责用户语义意图识别,用的框架是rasa,对应的版本为 3.6.15,对应的安装命令为:

pip3 install rasa==3.6.15 # 安装这个时候可能需要科学上网
pip3 install 'rasa[jieba]'
pip3 install 'rasa[transformers]'
pip3 install 'rasa[FallbackClassifier]'
pip3 install 'rasa[nlu]'

1.项目整体框架

在这里插入图片描述
用户客户端通过语音说出他想看的电影,然后通过语音转文字模块,将文字传送给rasa,rasa识别出用户的意图和相应的关键字,通过rasa的api给到java端,(java这里其实充当是rasa里面的action这个操作,其实可以用python实现。)java端通过意图和关键字在es里面查询相应的索引,这里用es做媒资库的原因,是es的模糊搜索能力比关系型数据库强,最后将搜索到的媒资供用户选择进行播放。

2.rasa训练数据结构

由两部分数据组成,意图训练数据和相应的关键词查找数据,这里没有采用相应的关键词穷举放入意图训练数据进行训练,这里的意图训练数据只是训练的语料模版,然后实际使用的时候用户说话里面的实体由另一份关键词查找数据进行填充,这里用的是rasa的RegexEntityExtractor组件。现在举例这些两份数据,如何发挥作用的。

这是一份查询视频的意图训练数据,当用户说“我要看电影赌侠”的时候,这里rasa识别到的意图(intent)为query_video,这里的两个实体(entity)为contentType和title,分别识别为电影和赌侠

version: "3.1"
nlu:
- intent: query_video
examples: |
  - 我要看[电影](contentType)[赌侠](title)
  - 播放看[电影](contentType)[赌侠](title)
  - 我想看[电影](contentType)[赌侠](title)

由两部分数据组成,意图训练数据和相应的关键词查找数据,这里没有采用相应的关键词穷举放入意图训练数据进行训练,这里的意图训练数据只是训练的语料模版,然后实际使用的时候用户说话里面的实体由另一份关键词查找数据进行填充,这里用的是rasa的RegexEntityExtractor组件。现在举例这些两份数据,如何发挥作用的。

这是一份查询视频的意图训练数据,当用户说“我要看电影赌侠”的时候,这里rasa识别到的意图(intent)为query_video,这里的两个实体(entity)为contentType和title,分别识别为电影和赌侠

version: "3.1"
nlu:
- intent: query_video
examples: |
  - 我要看[电影](contentType)[赌侠](title)
  - 播放看[电影](contentType)[赌侠](title)
  - 我想看[电影](contentType)[赌侠](title)

在这里插入图片描述如果用户说“我想看电影速度与激情”,这个数据可能不在我们的训练的意图数据中,但是rasa识别了意图为query_video,这里的两个实体(entity)为contentType为电影,title通过正则匹配为速度与激情,关键词数据的样式为

version: "3.1"
nlu:
- lookup: title
examples: |
  - 速度与激情8
  - 石头娃
  - 中甲精华
  - 畲族彩带传承人
  - 最美奋斗者
  - 唤醒巨人

在这里插入图片描述
3.rasa训练配置如下

pipeline:
name: JiebaTokenizer
name: LanguageModelFeaturizer
model_name: "bert"
model_weights: "bert-base-chinese"
name: "RegexEntityExtractor"
use_word_boundaries: False
use_lookup_tables: True
use_regexes: True
name: "DIETClassifier"
epochs: 100
tensorboard_log_directory: ./log
learning_rate: 0.001
name: "ResponseSelector"
name: "EntitySynonymMapper"
name: FallbackClassifier
threshold: 0.9
ambiguity_threshold: 0.01

policies:
name: MemoizationPolicy
max_history: 1
name: TEDPolicy
max_history: 1
epochs: 10
name: RulePolicy
max_history: 1

4.rasa启动命令及用到的API

rasa run --enable-api --cors "*" --port 5506
post http://127.0.0.1:5506/conversations/usertest88/messages
{"sender":"user","text":"我想看电影速度与激情"}

如需源码,请关注微信公众号:造轮子的坦克,回复w,获取个人微信,然后私发给您。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1690626.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Oracle 证书的重要性

随着信息技术的飞速发展,数据库管理已成为企业运营中不可或缺的一部分。Oracle作为全球领先的数据库管理系统提供商,其Oracle Certified Professional(OCP)认证已成为数据库管理员和开发人员追求的专业认证之一。本文将深入探讨Or…

LeetCode450删除二叉搜索树中的节点

题目描述 给定一个二叉搜索树的根节点 root 和一个值 key,删除二叉搜索树中的 key 对应的节点,并保证二叉搜索树的性质不变。返回二叉搜索树(有可能被更新)的根节点的引用。一般来说,删除节点可分为两个步骤&#xff1…

算法题1:电路开关(HW)

实验室对一个设备进行通断测试,实验员可以操控开关进行通断,有两种情况: ps,图没记下来,凭印象画了类似的 初始时,3个开关的状态均为断开;现给定实验员操控记录的数组 records ,records[i] = [time, switchId],表示在时刻 time 更改了开关 switchId 的状态。 开关 s…

数据结构~~二叉树-堆

目录 一、基本概念 树的概念 二叉树-堆的概念 二、堆的结构 三、堆排序 向上调整建堆 向下调整建堆 四、TOP-K 五、完整代码 六、总结 一、基本概念 树的概念 树是一种非线性的数据结构,它是由n(n>0)个有限结点组成一个具有层次关…

探索Python编程乐趣:制作气泡反弹小游戏

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、引言:Python编程的轻松入门 二、游戏实现原理:气泡反弹的逻辑 …

DFSBFS、827. 最大人工岛、leetcode

DFS(深度优先搜索)与BFS(广度优先搜索)作为图论中的两大主流方法,在图相关题目解题中应用较多。 题目链接及描述 827. 最大人工岛 - 力扣(LeetCode) 做这道题目时,自己想的是首先遍…

IDEA中一些常见操作【持续更新】

文章目录 前言善用debugidea中debug按钮不显示自动定位文件【始终选择打开的文件】idea注释不顶格【不在行首】快速定位类的位置【找文件非常快】创建文件添加作者及时间信息快速跳转到文件顶端 底端 前言 因为这些操作偶尔操作一次,不用刻意记忆,有个印…

基于多源数据的微服务系统失败测试用例诊断

简介 本文介绍由南开大学、华为云及清华大学共同合作的论文:基于多源数据的微服务系统失败测试用例诊断。该论文已被FSE 2024(The ACM International Conference on the Foundations of Software Engineering) 会议录用,论文标题为: Fault D…

MVCC相关

文章目录 前情要点基于什么引擎并发事务产生的问题不可重复读和幻读区别Next-Key Lock的示例解决并发事务采用的隔离级别当前读(Current Read)快照读(Snapshot Read)参考 MVCC定义表里面的隐藏字段由db_roll_ptr串成的版本链ReadView可见性算法mvcc的可见性算法为什么要以提交的…

【哈希映射 字符串 乘法原理】2227. 加密解密字符串

本文涉及知识点 哈希映射 字符串 乘法原理 LeetCode 2227. 加密解密字符串 给你一个字符数组 keys ,由若干 互不相同 的字符组成。还有一个字符串数组 values ,内含若干长度为 2 的字符串。另给你一个字符串数组 dictionary ,包含解密后所…

2024年收集搜索引擎蜘蛛大全以及浏览器模拟蜘蛛方法

对于做SEOer来说经常和搜索引擎蜘蛛打交道,下面整理收集了最全的搜索引擎蜘蛛大全。供有需要的朋友使用,建议收藏。 搜索引擎蜘蛛大全 "TencentTraveler", "Baiduspider", "BaiduGame", "bingbot",//必应蜘蛛…

深入浅出递归算法

文章目录 递归思想递归的题目1.汉诺塔问题问题分析代码展示 2.合并两个有序链表问题分析代码展示 3.反转链表问题分析代码展示 4.两两交换 链表中的节点问题分析代码展示 总结 递归思想 递归就是将一个很大的问题拆分成子问题,然后再将子问题继续拆分,拆…

安全设计 | Microsoft 威胁建模工具Threat Modeling Tool安装及使用详解(文末附样例)

1. 概览 微软威胁建模工具(Threat Modeling Tool)是 Microsoft 安全开发生命周期 (SDL,Security Develop LifeCycle) 的核心要素。 当潜在安全问题处于无需花费过多成本即可相对容易解决的阶段,软件架构师可以使用威胁建模工具提…

C语言 | Leetcode C语言题解之第109题有序链表转换二叉搜索树

题目: 题解: int getLength(struct ListNode* head) {int ret 0;while (head ! NULL) {ret, head head->next;}return ret; }struct TreeNode* buildTree(struct ListNode** head, int left, int right) {if (left > right) {return NULL;}int …

力扣刷题---409. 最长回文串【简单】

题目描述 给定一个包含大写字母和小写字母的字符串 s ,返回 通过这些字母构造成的 最长的回文串 。 在构造过程中,请注意 区分大小写 。比如 “Aa” 不能当做一个回文字符串。 示例 1: 输入:s “abccccdd” 输出:7 解释: 我们可以构造的最长的回文串…

分享:大数据风险检测报告,哪里查询比较好?

随着大数据技术的发展,逐渐被运用到各个领域,基于大数据技术的个人风险检测也就是我们常说的大数据报告在金融环境中运用的十分普遍,那大数据风险检测报告哪里查询比较好呢?本文就为大家简单介绍一下。 大数据风险检测报告查询能查到什么? …

Leetcode刷题笔记3

18. 四数之和 18. 四数之和 - 力扣(LeetCode) 给你一个由 n 个整数组成的数组 nums ,和一个目标值 target 。请你找出并返回满足下述全部条件且不重复的四元组 [nums[a], nums[b], nums[c], nums[d]] (若两个四元组元素一一对应&…

骨位深间距小模具镶件如何走水路?3D打印让一切简单

在模具制造领域,骨位深且间距小的模具镶件由于结构复杂,传统加工方法难以制造出符合要求的冷却水路,导致模具在注塑过程中容易产生热量积聚,进而引发烫伤、缩孔等不良。然而,随着3D打印技术的飞速发展,这些…

爬虫逆向实例小记——某数据知识管理网站-DES-ECB模式

aHR0cHM6Ly9rZC5uc2ZjLmNuL2ZpbmFsUHJvamVjdEluaXQ 注意:本文是逆向部分比较少,主要为了流程走通,限于代码搬运工。 第一步:分析页面 此网站经过请求响应,可以看出响应内容为加密内容。 第二步:判断加密类型 在XHR …

【Linux】从零开始认识进程间通信 —— 管道

送给大家一句话: 人要成长,必有原因,背后的努力与积累一定数倍于普通人。所以,关键还在于自己。 – 杨绛 从零开始认识进程间通信 1 为什么要进程间通信2 进程如何通信3 进程通信的常见方式4 管道4.1 什么是管道4.2 管道通信的系…