Chatterbot 打造游戏AI客服机器人

news2025/4/8 21:56:28
  • 准备工具

1、开发语言:Python3

2、数据库:MongoDB

3、开源框架:Chatterbot  

4、依赖类库:

  1. pip3 install chatterbot
  2. pip3 install spacy
  3. # 需要手动编译安装 en_core_web_sm(使用2.1版本)
  4. pip3 install jieba
  5. pip3 install colorama
  6. pip3 install pymongo 

  • Chatterbot 介绍

About ChatterBot — ChatterBot 1.0.8 documentation 简单来说就是一个对话机器人框架

1、预处理器

对输入的文本作预处理,比如去掉一些不必要的空格

2、逻辑适配器

1)最佳匹配适配器

使用函数将输入语句与已知语句进行比较。一旦找到与输入语句最接近的匹配,它就使用另一个函数来选择该语句的一个已知响应。

2)时间适配器

询问关于当前时间的问题的语句

User: What time is it?

Bot: The current time is 4:45PM.

3)数学适配器

检查给定的语句,以查看它是否包含可以计算的数学表达式。如果存在,则返回包含结果的响应。这个适配器能够处理字和数字运算符的任意组合。

User: What is four plus four?

Bot: (4 + 4) = 8

4)特定响应适配器

如果聊天机器人接收到的输入与为此适配器指定的输入文本匹配,则将返回指定的响应。

如果出现低置信度,则直接返回具体的文本

比如输入人工客服,返回特定的响应:

  1. >>> 人工客服
  2. Robot (1) : 
  3. 您好,正在转接人工客服,请稍后。

3、存储适配器

简单来说,存储适配器提供了一个接口,允许ChatterBot连接到不同的存储技术,不指定默认使用 SQLite 数据库存储聊天记录,会在执行程序的目录生成一个db.sqlite3文件

推荐是使用mongoDB作为存储适配器

还可以使用mysql:

4、过滤器

可以通过过滤器过滤一些非法的输入语句

5、比较算法

可以自定义一个比较算法,最后返回一个0-1之间的得分值

三、Chattbot算法与文本相似度

1、Chatterbot使用的算法

在对话生成方面,ChatterBot 使用了一种基于深度学习的序列到序列模型来生成回答。具体来说,它使用了一种叫做 LSTM(长短时记忆)的神经网络模型,将对话历史和用户输入转化为一个序列,然后根据先前的对话历史来预测下一个可能的回复。

2、文本相似度计算

将问句表示成一个高维向量,因为一段自然语言文本可能包含很多不同的词汇,每个词汇都对应一个维度。

假设我们有以下两句话:

可以请问你多大了吗?

你今年几岁了?

我们已经将它们表示为以下向量:

v1 = [1, 1, 0, 0, 1, 0, 0, 1, 0]

v2 = [0, 1, 1, 1, 1, 0, 0, 1, 0]

可以通过如下公式计算这两个向量的余弦相似度:

cos_sim(v1, v2) = (v1 • v2) / (||v1|| * ||v2||)

 

其中,“•”表示两个向量的点积,表示对应元素相乘之和。而“||v||”表示一个向量的模,即该向量的所有元素平方和的非负平方根。

按照上述公式计算得到两个向量的余弦相似度为 0.5,这说明这两句话在意义上比较相似。当用户输入一句与 v1 向量比较相似的话时,ChatterBot 可以将回答设置为“我的年龄是……”。

余弦相似度的取值范围是 [-1, 1],其中 1 表示两个向量完全相同,-1 表示两个向量方向完全相反,0 表示两个向量互相垂直。

四、利用chatterbot打造AI客服问答机器人

1)准备语料库

第一行为Question,第二行为answer。它支持json,txt,yml各种格式文件,以txt为例子:

比如有以下的一段对话:

Q:我不知道如何安装游戏。

A:您可以在我们的网站上找到安装说明,或者尝试卸载并重新安装游戏。

Q:我忘记了我的游戏账号密码。

A:请尝试通过我们的密码恢复选项重置您的密码。

存为txt格式直接就是:

我不知道如何安装游戏。

您可以在我们的网站上找到安装说明,或者尝试卸载并重新安装游戏。

我忘记了我的游戏账号密码。

请尝试通过我们的密码恢复选项重置您的密码。

这里记录为 corpus.txt 待会用到

2)利用jieba分词工具进行分词

# -*- coding: utf-8 -*-
import jieba

file_path = "corpus.txt"  # 将 your_file_path.txt 替换成您的文件路径
with open(file_path, "r", encoding="utf-8") as f:
  lines = f.readlines()

new_lines = []
for line in lines:
    if line.strip():  # 判断是否为空行
        new_lines.append(line)

text = ''.join(new_lines)

word_list = jieba.cut(text)  # 进行分词
result = " ".join(word_list)  # 将分词结果合并为字符串,以空格隔开

file_path = 'corpus_cut.txt'  # 将 your_file_path.txt 替换成您的文件路径
with open(file_path, mode='a', encoding='utf-8') as f:
    # 写入数据
    f.write(result+'\n')

官网文档并没有推荐使用jieba分词进行拟合度的优化,为什么要用jieba进行中文分词?

这也是我自己探索出来的,之前没用分词工具的时候,发现拟合度很差,后面猜测是框架的计算对中文不准确,对中文的分词效果很差,导致计算出来的词向量其实是误差很大的。中文没有像英文一样的明显的单词边界,因此需要使用专门的中文分词工具将中文文本分成有意义的词语,这样计算出来的词向量才是比较精准的。

Jieba 分词工具利用了统计算法和规则引擎的结合,通过分析中文文本中每个汉字与周围汉字的关系,来确定最可能的分词结果。这样可以大大提高分词的准确性,从而更好地反映出中文句子的含义。

3)训练数据

# -*- coding: utf-8 -*-
from chatterbot import ChatBot
from chatterbot.trainers import ListTrainer
import chatterbot.comparisons as comparisons
import chatterbot.response_selection as response_selection
import logging

logging.basicConfig(level=logging.INFO)

chatbot = ChatBot("Ron", logic_adapters=[
        {
            'import_path': 'chatterbot.logic.BestMatch',
            "statement_comparison_function": comparisons.LevenshteinDistance,
            "response_selection_method": response_selection.get_first_response,
            'default_response': 'I am sorry, but I do not understand.',
            'maximum_similarity_threshold': 0.90
        },
        {
            'import_path': 'chatterbot.logic.SpecificResponseAdapter',
            'input_text': '人工客服',
            'output_text': 'Ok, here is a link: http://chatterbot.rtfd.org'
        }
    ],
    storage_adapter='chatterbot.storage.MongoDatabaseAdapter',
    database_uri='mongodb://127.0.0.1:xxxx/chatbot'
    )


# 打开并读取 TXT 文件内容
with open('corpus_cut.txt', 'r', encoding='utf-8') as file:
    conversation = file.readlines()

# 创建训练器实例并迭代训练
trainer = ListTrainer(chatbot)
trainer.train(conversation)

ChatterBot 提供了多种存储适配器(Storage Adapter),可以将训练好的模型数据保存到不同的存储介质中,如文本文件、SQLite 数据库、MongoDB 数据库、Redis 队列等。其中,最常用的存储适配器是 JSON 文件和 SQLite 数据库。

如果你使用 SQLite 存储适配器,那么训练好的模型数据就会被保存在 SQLite 数据库文件中;如果你使用 JSON 存储适配器,那么训练好的模型数据就会被保存在 JSON 文件中。在每次启动机器人时,ChatterBot 会自动从指定的存储介质中加载模型数据。

4)通过命令行进行测试

注意要把输入的问句进行分词,然后丢给模型去匹配才能更精准

# -*- coding: utf-8 -*-
from chatterbot import ChatBot
import chatterbot.comparisons as comparisons
import chatterbot.response_selection as response_selection

import jieba
import time
import colorama
from colorama import Fore,Style
import logging

logging.basicConfig(level=logging.INFO)

colorama.init()  # 初始化 colorama,必须先执行

chatbot = ChatBot("Ron", logic_adapters=[
        {
            'import_path': 'chatterbot.logic.BestMatch',
            "statement_comparison_function": comparisons.LevenshteinDistance,
            "response_selection_method": response_selection.get_first_response,
            'default_response': '无法识别您的问题,可以联系人工客服,请输入"人工客服"四个字',
            'maximum_similarity_threshold': 0.9
        },
        {
            'import_path': 'chatterbot.logic.SpecificResponseAdapter',
            'input_text': '人工客服',
            'output_text': '您好,正在转接人工客服,请稍后。'
        },
        {
            'import_path': 'chatterbot.logic.SpecificResponseAdapter',
            'input_text': '你好',
            'output_text': '你好,我是智能问答机器人,能问有什么可以帮到你?'
        }
    ],
    storage_adapter='chatterbot.storage.MongoDatabaseAdapter',
    database_uri='mongodb://127.0.0.1:27017/chatbot',
)


# 轮询对话
while True:
    try:
        # 等待用户输入
        user_input = input('>>> ')

        if user_input:
            if user_input != '人工客服':

                # 获取 chatbot 响应
                word_list = jieba.cut(user_input)  # 进行分词
                result = " ".join(word_list)  # 将分词结果合并为字符串,以空格隔开
            else:
                result = user_input
            
            bot_response = chatbot.get_response(result)

            score = bot_response.confidence


            resp = bot_response.text
            resp = resp.replace(" ", "")


            print(Style.BRIGHT + Fore.BLUE + "Robot " + "("+str(score)+ ") : "+ Fore.RESET+ Style.RESET_ALL)


            for i in range(len(resp)):
                print(Fore.YELLOW + resp[:i+1]+ Fore.RESET, end='\r')
                time.sleep(0.1)

            print()  # 输出换行符以保证控制台输出完整
        

        
    except (KeyboardInterrupt, EOFError, SystemExit):
        break

5) 启动mongoDB并查看相关的数据

use chatbot
show collections
db.statements.find()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/665866.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Web网页制作期末复习(3)——HTML5新增标签、CSS简介、CSS的引入方式、选择器、字体属性、背景属性、表格属性、关系选择器

目录 HTML5新增标签 CSS简介 CSS概念 CSS的作用 语法 CSS的引入方式 内联样式(行内样式) 内部样式 外部样式(推荐) 选择器 全局选择器 元素选择器 类选择器 ID选择器 合并选择器 选择器的优先级 字体属性 …

python多线程----------主线程,子线程,任务讲解----拿下就是胜利

这一篇博客主要介绍给分不清楚主线程.子线程的小可爱们 在之前的一篇博客中我简单的介绍了并发,并行 并发:是在时段的完成多个任务 ,但是每个时间点只有一个任务运行 而多线程就是这一个原理 非守护线程 代码: from threading import Thread import requests from seleni…

规则引擎调研及初步使用 | 京东云技术团队

一、产生的背景 生产过程中,线上的业务规则内嵌在系统的各处代码中,每次策略的调整都需要更新线上系统,进行从需求->设计->编码->测试->上线这种长周期的流程,满足不了业务规则的快速变化以及低成本的更新试错迭代。…

亚马逊关于儿童餐椅/增高椅/折叠椅和非折叠椅/凳政策

检测认证很迷茫?关注老李直通关!大家好我是李老师。近期碰到很多卖家在吐槽儿童椅子类型的检测,甚至某些卖家要做2-3个标准,确实有点夸张,下面是我为大家整理的关于各类儿童椅子认证的标准,希望可以帮到大家…

游泳戴的耳机推荐,列举感受水下快乐的游泳耳机

​游泳是个真心好玩的活动,对一般人来说简直是大杀器!它不仅对身体没有太大伤害,还能锻炼到身体的大部分肌肉,对心肺也超级有帮助。不过,问题来了: 之前很少见到有人戴耳机游泳,主要是担心进水…

论文笔记:Toolformer:可以教会自己使用工具的语言模型

Toolformer:可以教会自己使用工具的语言模型 摘要Introduction现有大模型的局限处理办法本文的idea Approach样例化API调用执行API调用筛选API调用模型微调 实验局限 论文地址点这里 摘要 语言模型(LMs)呈现了令人深刻的仅使用少量的范例或…

Spring Boot 容器的生命周期

Spring Boot 容器的生命周期 在使用 Spring Boot 进行开发时,我们经常需要对 Spring 容器的生命周期进行了解和掌握。本文将介绍 Spring Boot 容器的生命周期,包括容器的创建、初始化、销毁等过程,并提供相应的代码示例。 Spring Boot 容器的…

C++基础(3)——类和对象(1)

前言 本文主要介绍了C中类和对象的基本知识 4.1.1:封装 写一个Circle类,然后分别在栈上和堆上创建两个圆对象,对象包含属性和行为,调用求周长的成员函数,并打印出结果。 4.1.2:封装-访问权限 public成员…

Server - 配置安装 Git LFS | BWM-NG | Tmux | BOS 等命令

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/131302104 构建实验Docker: nvidia-docker run -it --name git-lfs-[your name] --nethost -p [port]:[port] -v [nfs path…

基于spring cloud技术栈构建的一款源码级jvs低代码平台,值得收藏

开发团队在日常的项目开发过程中 ,会遇到各种各样单点需求。 确保应用程序能够满足特定的业务需求并与现有系统和服务进行有效集成,那么是团队选择对应技术栈或者整体开发工具的核心考量: 核心关注的点: 1、技术栈的选择&#…

vue3-实战-11-管理后台-权限管理之角色管理模块

目录 1-角色列表 1.1-原型需求分析 1.2-接口封装和数据类型定义 1.3-请求服务器端获取列表页面数据 1.4-组件页面动态渲染数据 2-角色新增和编辑 2.1-需求原型分析 2.2-页面结构以及功能实现 3-角色的删除 4-分配权限 4.1-原型需求分析 4.2-获取服务器数据渲染数据…

五、Producer源码解读

Producer源码解读 在 Kafka 中, 我们把产生消息的一方称为 Producer 即 生产者, 它是 Kafka 的核心组件之一, 也是消息的来源所在。它的主要功能是将客户端的请求打包封装发送到 kafka 集群的某个 Topic 的某个分区上。那么这些生产者产生的消息是怎么传到 Kafka 服务端的呢&a…

二维码带参数跳转小程序页面,小程序获取参数。

功能介绍 普通链接二维码,是指开发者使用工具对网页链接进行编码后生成的二维码。 线下商户可不需更换线下二维码,在小程序后台完成配置后,即可在用户扫描普通链接二维码时打开小程序,使用小程序的功能。 对于普通链接二维码&a…

5.4.2 网络地址转换NAT

5.4.2 网络地址转换NAT 我们知道为了缓解IPv4地址紧缺的问题,相继出现了一系列缓解地址耗尽的解决方案,比如通过子网划分(5.2.8 子网编址)实现网络地址在多个物理网络之间的复用,通过无分类编址(5.2.9 无分…

纳斯达克大屏宣传品牌的价值何在?媒介易解析背后的优势!

在当今竞争激烈的商业环境中,企业需要不断寻找创新的方式来宣传和推广品牌。而纳斯达克大屏作为全球最具规模和影响力的数字广告媒体之一,其庞大的电子屏幕成为企业宣传品牌和增加曝光度的理想平台。为什么企业选择在纳斯达克大屏宣传品牌?一…

SpringBoot中接收POST参数的几种方式

今天在做一个vue前后端分离项目的过程中,踩了一个坑,记录一下 前端如下: 用户名字段:username 密码字段:password 提交后,发现后端怎么也收不到参数,总结如下: 常见的接收post参…

【云计算 | Azure】微软 Azure 基础解析(九)Azure 标识、身份管理、Azure AD 的功能与用途

本系列博文还在更新中,收录在专栏:「Azure探秘:构建云计算世界」 专栏中。 本系列文章列表如下: 【Azure】微软 Azure 基础解析(三)云计算运营中的 CapEx 与 OpEx,如何区分 CapEx 与 OpEx 【A…

12. WebGPU 矩阵数学

在最近的 3 篇文章中,介绍了如何平移、旋转和缩放顶点位置。平移、旋转和缩放都被认为是一种变换。这些变换中的每一个都需要对着色器进行修改,并且 3 个转换中的每一个都依赖于顺序。 在之前的示例中,先缩放,然后旋转&#xff0…

第十章 STM32+ESP8266接入机智云 实现小型IOT智能家居项目

前言 最近有不少小伙伴私信留言,想要我推出一章能够通过APP进行远程控制并获取传感器信息的实验教程。说实话在嵌入式毕设里边,这算是中等偏上水平的了。刚好我也有兴趣写写。全篇4700多字,我写的很详细,按着文章一步一步操作即可…

arm64架构的linux中断分析(二)

文章目录 3. GICv3中断控制器3.1 GICv3中断控制器设备树3.2 GICv3中断控制器驱动 3. GICv3中断控制器 gic在soc中的位置如下: GICv3(Generic Interrupt Controller Version 3)是一种基于ARM Cortex-A架构的中断控制器,它提供了…