MagicThoughts|让ChatGPT变得更智能的Finetuned数据集

news2024/11/30 3:49:22

近两个月,ChatGPT无疑都是AI领域最炙手可热的话题。而它的成功,也引发了行业内外对于对话式AI、LLM模型商业化应用可能性的思考。

诚然,尽管就目前来看ChatGPT对大部分问答都能基本做到“对答如流”。但是,ChatGPT本质上依旧是预训练模型驱动的产物,模型的成熟度、完善度对它回答的准确度有着很大的影响。

近日,Magic Data就ChatGPT在搜索查询、多轮对话、专业问询、价值判断、语义理解方面的交互体验进行了测评:

  • 当被提问“最近买哪只股票会涨停”“感冒了有什么用药建议”这类涉及专业性的问题时,ChatGPT给出了普适性的回复。而针对专业、特定情形下的问题,ChatGPT会提示寻求专家建议。

  • 当被提问到价值判断型的问题,例如“李白和杜甫谁的成就更高”,ChatGPT给出的答复比较中立,没有偏向其中任何一方。

  • 对于带有错别字的提问“我彩票中将(奖)了,会有很多人找我借前(钱)吗”,ChatGPT也能够准确“理解”语义并给出相应回复。

  • 对于搜索查询类的问题“做语音识别,有哪些开源数据集”,ChatGPT目前给出有限数量的回复,同时只能给出信息型回复,无法给出最终结果或获取方式。

  • 对于基于前序对话的问题,ChatGPT能够将当前问题于前序对话内容关联,实现多轮对话。

可以看出,虽然ChatGPT目前在消费级应用阶段的回答数量和专业性上仍有提升空间,但人们对于ChatGPT能力的挖掘热情,并不只局限于消费级。商家用它做表格,品牌用它写文案,甚至后汽车市场供应商用它做汽车整备方案...

这么看,ChatGPT改变的不只是人机交互的方式,更诱发了用户人机交互的意愿和热情,而这一现象,正是对话式AI的机会,不难想象,接下来对话式AI场景的边界将被不断延展。

但与此同时需要思考的是,现有的ChatGPT,除了稳定性有待提高、内容准确度有待提升外,想要做到垂直领域商业应用的“定制化”,还是一件很难的事。除了数据量大、处理环境复杂、垂直领域数据难以获取外,还拥有着不小的数据合规复杂性

此时,如Magic Data这类公司便能提供相应助力。作为全球领先的多模态AI数据解决方案提供商,Magic Data拥有14万+小时的优质对话式数据,能够为LLM模型训练提供基于模拟真实垂类场景下的对话语料,拓展模型在各垂直场景下的对话式交互能力。同时,由Magic Data独创的多模态数据标注平台Annotator®也可以为用户反馈等数据的人工标注流程降本增效,帮助模型性能迭代升级,助力各类企业在对话式AI场景下的商用转化。

Magic Data官网拥有各类domain-related finetuned数据集,共计20余类。其中两类示例如下:

中文对话音频数据集-衣食住行主题

https://www.magicdatatech.cn/datasets/asr/mdt-asr-aa04-mandarin-chinese-conversational-speech-corpus-daily-life-1640747801

中文对话音频数据集-教育医疗主题

https://www.magicdatatech.cn/datasets/asr/mdt-asr-aa12-mandarin-chinese-conversational-speech-corpus-education-and-healthcare-1640758020

同时,Magic Data已开源多个基于ChatGPT的可扩展对话数据集,欢迎前往MagicHub 开源社区 https://magichub.com/ 查看。数据集示例如下:

中文教育客服文本数据集

https://magichub.com/datasets/chinese-customer-service-scenario-text-corpus-education/

中文金融客服文本数据集

https://magichub.com/datasets/chinese-customer-service-scenario-text-corpus-finance/

中文医疗客服文本数据集

https://magichub.com/datasets/chinese-customer-service-scenario-text-corpus-healthcare/

中文日常聊天文本数据集

https://magichub.com/datasets/chinese-conversational-text-corpus-daily-life/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/344546.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Flutter Modul集成到IOS项目

Flutter Modul集成到IOS项目中1. 创建一个Flutter Modul2.在既有应用中集成Flutter Modul2.1 Flutter的构建模式选择2.1.1 debug模式2.1.2 Release模式2.1.3 Podfile 模式2.2 Cocoapods管理依赖库集成方式2.3 直接在Xcode中集成framework2.4 Local Network Privacy Permissions…

采用 spring 配置文件管理Bean

文章目录采用 spring 配置文件管理Bean一、安装配置Maven二、Spring 框架1、Spring 官网三、Spring 容器演示-采用Spring配置文件管理Bean1、创建Manev项目2、添加Spring依赖3、创建杀龙骑士类4、创建勇敢骑士类5、采用传统方式让勇敢骑士完成杀龙任务6、采用Spring 容器让勇敢…

创建Ubuntu虚拟机与Windows共享的文件夹

目录 1、Windows创建一个共享文件夹 2、在虚拟机的设置中选择Windows下的共享文件夹 3、在Ubuntu中查看共享文件夹 1、Windows创建一个共享文件夹 该共享文件夹可以被Windows和Ubuntu访问,需要注意的是,Ubuntu在共享目录下的一些操作会受到限制&…

图解经典电路之OCL差分功放-三极管分立器件电路分析

下面从简到繁,从框架到细节的顺序讲解电路。即先讲框架,然后逐渐添加电路细节,所以大家跟上思路。 1、第一步,尽可能的抽象这个电路,等效如下: 图二 OCL等效电路 整个OCL电路,可以等效为一个大功率的运放,加上几个电阻电容构成了一个同向放大器,就是这么简单。 为了便…

Linux常用命令---系统常用命令

Linux系统常用命令场景一: 查看当前系统内核版本相关信息场景二: sosreport 命令场景三: 如何定位并确定命令?场景四:查看当前系统运行负载怎场景五: 查看当前系统的内存可用情况场景六:查看网卡…

【DOTA】目标检测数据集介绍与使用

every blog every motto: You can do more than you think. https://blog.csdn.net/weixin_39190382?typeblog 0. 前言 DOTA 数据集简单介绍 1. 正文 1.1 简介 数据集包含来自不同的传感器和平台的航拍图。每张图像的像素尺寸在 800 800 到 20,000 20,000 之间&#xf…

如何编写接口测试用例?

接口测试用例如何编写?下面简单给大家讲解一下。 接口测试用例是目前软件开发中不可或缺的一个重要部分,因此编写接口测试用例同样重要。 接口测试用例的作用非常明显,它能够帮助我们了解产品正在考验、调整它如何表现在特定情境之下、产品是…

2023金三银四,测试人还能找到好工作吗?

按照往年的惯例,春节后复工的 3 月、4 月是人员跳槽最频繁的时候,俗称“金三银四”。然而,市场大环境的影响,很多行业感受到了一丝寒冷的气息。我们以为受影响比较轻的互联网行业,头上也充满乌云,所谓互联网…

2023年浙江交安安全员考试题库及答案

百分百题库提供交安安全员考试试题、交安安全员考试真题、交安安全员证考试题库等,提供在线做题刷题,在线模拟考试,助你考试轻松过关。 50.根据《建设工程安全生产管理条例》第65条规定,施工单位有下列()行…

JavaScript高级程序设计读书分享之3章——3.5操作符

JavaScript高级程序设计(第4版)读书分享笔记记录 适用于刚入门前端的同志 目录 操作符 一元操作符 递增/递减操作符 一元加和减 布尔操作符 逻辑非 逻辑与 逻辑或 乘性操作符 乘法操作符 除法操作符 取模操作符 加性操作符 加法操作符 减法操作符 关系操作符 相等操…

使用python将EXCEL表格中数据转存到数据库

使用Python将excel表格中数据转存到数据库 1. 思路: 1) 使用python读取excel表格中数据 2)根据数据生成sql语句 3)批量运行sql语句 2. 代码: import pandas as pddef readExcel(path, excel_file):return pd.read_e…

低代码开发平台|制造管理-质检管理搭建指南

1、简介1.1、案例简介本文将介绍,如何搭建制造管理-质检管理。1.2、应用场景质检分别包括来料质检、过程质检、成品质检,来料质检在采购物料入库后会自动发起来料质检的流程,质检合格才可提交结束流程;过程检是在生产过程中的质检…

小程序-滑块+iconfont下载本地使用

效果 <view style"padding: 5px;"><movable-area style"width: 100%;height: 100%;"><movable-view direction"all" style"width: 50px;height: 50px;background-color: green"> </movable-view></movable…

推荐一些不常见的搜索引擎

5.雅虎网来自 Yahoo.com 的屏幕截图&#xff0c;2023 年 2 月截至 2022 年 1 月&#xff0c;Yahoo.com&#xff08;Verizon Media&#xff09;的搜索市场份额为 11.2%。雅虎的优势在于多元化&#xff0c;除搜索外还提供电子邮件、新闻、金融等服务。二十多年来&#xff0c;雅虎…

MyBatis 之一(概念、创建项目、操作模式、交互流程)

1. MyBatis 是什么MyBatis 是一款优秀的持久层框架MyBatis 也是一个 ORM &#xff08;Object Relational Mapping&#xff09;框架&#xff0c;即对象关系映射它支持自定义 SQL、存储过程以及高级映射MyBatis 去除了几乎所有的 JDBC 代码以及设置参数和获取结果集的工作MyBatis…

SpringAOP笔记【JavaEE】

SpringAOP 一、AOP理解 AOP是一种思想&#xff0c;SpringAOP是一个框架&#xff0c;提供了一种对AOP思想的实现&#xff0c;他们的关系就像MVC和SpringMVC、IOC与DI类似。 AOP为Aspect Oriented Programming的缩写&#xff0c;意为&#xff1a;面向切面编程&#xff0c;通过预…

CHAPTER 1 Zabbix介绍及安装

Zabbix介绍及安装1.1 Zabbix监控1 为什么要监控1.1 网站可用性2 监控什么东西2.1 监控范畴3 怎么来监控3.1 远程管理服务器3.2 监控硬件3.3 查看cpu相关3.4 内存3.5 磁盘3.6 监控网络4 监控工具总览5 zabbix介绍5.1 zabbix的组成5.2 zabbix监控范畴1.2 安装zabbix1 环境检查2 安…

磁疗为什么“没效果”?原来真相是这样!

很多人磁疗之后&#xff0c; 总爱迫不及待问一个问题&#xff1a; “这个多长时间见效啊&#xff1f;” …… 还有些人几天没有效果&#xff0c; 就果断下结论&#xff1a; “这东西没用&#xff01;” …… 有不少人错误地把磁疗等同于“药品”一样看待&#xff0c;总觉得…

RPA+保险后台部门擦出不一样“火花” | RPA案例

在保险行业中&#xff0c;后台业务线主要是为前台和中台等提供支持&#xff0c;提供公司整体运营服务&#xff0c;包括财务、信息、人力、综合办等。相对于中前台部门&#xff0c;后台部门离核心价值链更远一些&#xff0c;更偏支持部门&#xff0c;其中某些岗位与业务相关度强…

金三银四面试必看,复盘字节测试开发面试:一次测试负责人岗位面试总结

最近面试了某企业的测试负责人岗位&#xff0c;历经四面&#xff0c;收获蛮多的。 这篇文章&#xff0c;我想聊聊这次面试过程中的一些经历&#xff0c;以及些许经验和教训。 岗位要求 岗位名称&#xff1a;测试负责人 岗位要求&#xff1a;1、扎实的技术以及丰富的技术项目…