数据开源 | Magic Data开源基于ChatGPT的可扩展的对话数据集

news2025/1/16 2:42:17

在过去的一月里,人工智能领域中最火的话题莫过"ChatGPT"。ChatGPT是OpenAI于11月30日发布最新作品聊天机器人,开放公众免费测试。聊天机器人是一种软件应用程序,根据用户的提问做出回应、模仿人类的对话方式。目前,ChatGPT的用户量已经超过一百万。它既能完成包括写代码,修bug(代码改错),翻译文献,写小说,写商业文案,创作菜谱,做作业,评价作业等一系列常见文字输出型任务,而且在和用户对话时,能记住对话的上下文,反应非常逼真。连马斯克都在推特上称赞道,“ChatGPT真是惊人的好。我们离危险的强大人工智能不远了”: 

甚至有人传言下一代GPT4可能可以取代Google、百度等传统搜索引擎。让世界科技大佬都称赞的ChatGPT,到底是如何对答如流的呢?

ChatGPT技术框架

据OpenAI报道,ChatGPT模型是“从人类反馈中强化学习”(RLHF)的机器学习技术训练的。RLHF可以模拟对话,回答衍生问题,承认错误,质疑不正确的前提,并且拒绝不适当的请求。其底层结构仍然是基于自我注意力机制(self-attention)的transformer模型。该模型能够同时并行进行数据计算和模型训练,训练时长更短,并且训练得出的模型可用语法解释,也就是模型具有可解释性。

与所有大数据模型一样,ChatGPT同样也是经过“预训练+微调”的过程,但是OpenAI这次在数据收集上设置上有了细微的差别。结合人类反馈信息来训练语言模型使其能理解指令,也就是模型训练中加入了人类的评价和反馈数据,而不仅仅是事先准备好的数据集。通过公测形式可以积累大量用户反馈数据继续优化ChatGPT的性能。引入“人工标注数据+强化学习“来不断Fine-tune预训练语言模型,主要目的是让LLM模型学会理解人类的命令指令的含义,其训练步骤分为三部:

第一阶段:首先会从测试用户提交的prompt(就是指令或问题)中随机抽取一批,靠专业的标注人员,给出指定prompt的高质量答案,然后用这些人工标注好的数据来Fine-tune GPT 3.5模型。第二阶段:通过人工标注训练数据,来训练回报模型。第三阶段:采用强化学习来增强预训练模型的能力。基于上述算法和训练技巧,相对以往的人机对话模型来说,ChatGPT可以非常好地模拟人类的聊天行为,理解能力和交互性表现也更强,并能精准地回答用户提问,将大幅提升用户使用体验。

智能 or 智障

尽管ChatGPT对大部分问答回复的都非常完美,但是,ChatGPT本质上和传统的聊天机器人并没有分别——它并不理解自己所说的话,有时回答内容还是会犯一些低级错误。一段“网友调教这只AI”的聊天记录,让人不禁质疑AI是否真的鄙人聪明,对于27是质数与否为题回答有误,也表明了人工智能“智障”的一面。

 

Magic Data 数据开源

ChatGPT的智能是以大量对话数据的训练为基石,“智障”是由于数据不完备造成。据统计,从ChatGPT进化到ChatGPT-3的过程相当烧数据—参数量从1.17亿增加到1750亿,预训练数据量从5GB增加到45TB。尽管如此吃数据,仍没成长为全面人工智人。可见需要源源不断的真实场景数据的训练,才会让ChatGPT越来越好。

但是对话数据的采集成本较高,需要专业的数据公司团队采集、清洗、标注。作为全球领先AI数据解决方案提供商,Magic Data的对话式AI数据集可以为类似ChatGPT的大模型提供各类垂直场景下的对话语料,帮助机器学习模型性能定向调优,拓展其特定场景下的对话式AI交互能力。

Magic Data旗下MagicHub数据开源社区已开源部分基于ChatGPT的可扩展的对话数据集,包括:

教育客服文本数据集

样例:

金融客服文本数据集

样例:

医疗客服文本数据集

样例:

中文日常聊天文本数据集

样例:

即刻前往MagicHub数据开源社区,免费下载使用!

中文教育客服文本数据集

NLP-CEduCusSerC: A Chinese Education Customer Service Corpus - MagicHub

中文金融客服文本数据集

NLP-CFinCusSerC: A Chinese Finance Customer Service Corpus - MagicHub

中文医疗客服文本数据集

NLP-CHealCusSerC: A Chinese Healthcare Customer Service Corpus - MagicHub

中文日常聊天文本数据集

Chinese Conversational Text Corpus - Daily Life - MagicHub

更多开源数据,欢迎访问 

MagicHub 开源社区 MagicHub - Datasets Download | Open-Source Datasets  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/109920.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

做好程序中的axios错误提示

今天外包组的项目客户反馈老是出错,一看页面卡在加载数据过程中,前后台分离之后,页面变得很奇怪,脸面都出来了,就是没有具体值。 初级程序员在很长一段时间要经历一个升级过程,写的程序首先是写画面&#…

散户如何进行开展量化股票交易的?

散户如何进行开展量化股票交易的?也就是投资者交易的条件,达到了投资者设定的条件时候,系统接口就会自动交易,下面来看看具体的流程: 依据个股的历史记录,进行多因子选股,比如,把市…

Rasa 基于知识库的问答 音乐百科机器人

文章目录1. 使用 ActionQueryKnowledgeBase创建知识库NLU数据2. 音乐机器人nlu.ymlstories.ymlrules.ymldomain.ymlconfig.ymlendpoints.ymldata.json自定义动作 actions.py测试使用Neo4jlearn from https://github.com/Chinese-NLP-book/rasa_chinese_book_code 机器人返回了…

从“小螺栓血案”谈装配体模型连接螺栓6个正确的处理方法

经调查发现:“江苏启安建设工程有限公司提供了支吊架膨胀螺栓计算书,但计算书上无企业相关人员签字,未经监理单位审核同意,未报施工总包单位,未经设计单位审定;计算书认为支吊架应采用直径为12mm 的膨胀螺栓…

成为全栈程序员太难了?这个低代码高效率的报表工具绝对不能错过

现在程序员有个很奇怪的归宿,就是都在主动或被动地成为全栈程序员。前端被要求写后端的代码,后端被要求能看懂前端,美名其曰加速成长或为老板省钱! 但一个人能做到全栈真的很难!就拿报表开发而言,学习整个…

朴素贝叶斯

概要 前文介绍了贝叶斯公式基础以及在统计领域的基本应用贝叶斯基础_zhanglehes的博客-CSDN博客,本文将介绍它的一种新的转换形式,以及在机器分类领域的应用。 分类的数学描述 朴素贝叶斯公式推理 贝叶斯公式 在分类领域,将其改写如下 我们…

在conda虚拟环境中安装OpenCv并在pycharm中使用

目录 一. 在下面的网站中下载OpenCV文件 二. 在虚拟环境中使用pip安装该文件 三、官网下载OpenCV源代码(后续使用) 四、pycharm中打开该虚拟环境 五、安装numpy和matplotlib 六、pycharm找不到cv2模块解决: 七、在pyhcharm中使用cv不自…

在服务器安装jupyter并在本地访问

一、安装 1.1安装jupyter notebook pip install jupyter1.2安装jupyter lab pip install jupyterlab # 中文界面包 pip install jupyterlab-language-pack-zh-CN二、本地使用 我们在远程登录Linux服务器时,经常希望在本地浏览器端打开jupyter notebook&#xff…

需求的收集,筛选和排序

对需求的把握是否准确,很大程度上决定了产品的成与败,需求分析对于产品经理是必须要掌握的技能,接下来聊下需求收集的目标和方式。 一、收集渠道: 1、用户反馈: 用户提出的反馈有可能也是我们没有意识到的问题&#…

SMT工厂及PCB工程师的福音!可视化BOM交互焊接工具来了

目前电子产品已经渗透到我们生活的各个角落,其产品涵盖通信、医疗、计算机及周边视听产品、玩具、家用电器、军工用品等。关于电子产品的PCBA焊接,在试样阶段一般采用手工焊接。手工焊接的好处是成本低,一把电络铁就搞定了,如果样…

记一次简单的白加黑测试

前一阵子成了小洋人,所以很长的时间也没更新了,今天更一篇PHP代码审计的吧,此次分享的内容十分的简单,大家简单的看看即可 命令注入 -1 从上述代码,我们可以看出来,$ip变量接收过来之后通过合并运算符(??…

【OpenCV-Python】教程:7-3 理解KMeans

OpenCV Python KMeans 的理解 【目标】 理解KMeans聚类的基础概念KMeans是如何工作的, 【理论】 Tshirt尺寸问题 有个公司,打算投放一批T-shirt到市场上售卖,但是不知道人们需要什么样的尺寸,而且工厂也不会制作所有的尺寸样…

联想C2E摄像头的折腾

背景 老苏的巨峰摄像头坏了,一直也没在意,因为监控也不是什么刚需。朋友送的,比较古老,不像现在的家用监控摄像头,都有 app,而这台巨峰摄像头不光不支持 app,后台设置还只能用 IE,因…

OLSR路由协议学习

OLSR路由协议概述两种分组路由发现与维护算法步骤链路感知邻居侦听MPR选择拓扑建立路由表的建立与维护总结概述 优化链路状态路由(Optimized Link State Routing)协议,即 OLSR 路由协议是一种平面拓扑的先验式路由协议(主动式路由…

使用mosquitto部署MQTT服务

本次实验使用版本:mosquitto-1.6.7 查看版本命令:mosquitto -v 1安装 make && make install,安装mosquitto。 安装完毕后放开防火墙 查看防火墙某个端口是否开放 firewall-cmd --query-port1883/tcp 开放防火墙端口80 firewall-…

BHG Mall超级宠粉节攻略收藏,商业IP化出圈新玩法

购物中心作为人们生活的第三空间,除了满足物质需求外,是人们精神消费的最主要空间之一。中国连锁经营协会发布《中国购物中心对经济社会发展贡献力报告》,报告中显示,购物中心不断转变,发展成为城市能够识别时代精神符…

关于我转行嵌入式的那些事

文章目录**为什么想转行了?****一、工作环境问题****二、无休止的出差加班和混乱的作息时间****三、工作压力大****四、薪资上限低,行业前景差****为什么选择嵌入式****转行前的学习****一、单片机开发****二、Linux应用开发****三、Linux驱动开发和Andr…

高校GIS系统有何作用?

根据高校信息化管理平台的基本建设,全方位提高数据服务团体的管理服务质量。根据综合性平台全方位地服务项目出示,更为全方位地掌握老师学生的主题活动特性,并根据云计算技术对老师学生的个人行为数据信息开展发掘剖析,进而精确掌…

VSCode远程连接Linux服务器上的项目,并连接GitHub

一、Linux中创建ssh密钥 以centos为例,创建ssh密钥 ssh-keygen -t rsa -C "your_emailexample.com" 后面连续点击回车即可。 如此便会在 ~/.ssh 目录下生成身份验证所需的公钥和私钥两个文件. 上文中使用的 RSA 算法, 所以得到的文件默认应为 id_rsa…

基于FPGA的 TMDS 编码 及 HDMI 显示

目录 引言 TMDS 编码 原理简介 TMDS编码实现 HDMI差分数据串行 实现方法 源码 HDMI显示方法 思路 实现 工程结构 源代码分享 板级调试视频 引言 最近在开发板上倒腾了一下 TMDS 视频编码的原理以及实现。特在此做一个记录。文附 全部设计源码、MATLAB源码&#xf…