真·人工智障!“弱智贴吧”竟被用来训练大模型

news2024/10/7 8:25:45

        离了个大谱,弱智吧登上正经AI论文,还成了最好的中文训练数据?中国科学院、北京大学、中国科学技术大学、滑铁卢大学以及01.ai等十家知名机构联合推出了一款专注于中文的高质量指令调优数据集——COIG-CQIA。

图片

    

    在大型语言模型的研究领域,英文数据长期以来一直是训练这些模型的主要资源。然而,由于中英文在语法结构、文化背景以及表达习惯上的显著差异,简单地将英文数据集翻译成中文并不能取得理想的效果。为了解决高质量中文数据集匮乏的问题,研究者们开发了COIG-CQIA数据集。

COIG-CQIA数据集广泛搜集了中文互联网上的内容,包括论坛、网站、百度贴吧、以及其他问答社区等,确保了数据的丰富性和多样性。研究人员利用这个数据集对Yi-6B和Yi-34B这两个中文大型语言模型进行了指令调优,随后在BELLE-EVAL这一评估平台上测试了这些模型的性能。

    令人惊讶的是,在对比不同来源的数据质量时,原本被认为内容质量较低的“弱智贴吧”在数据质量上竟然显著超越了知乎、豆瓣、是否等知名知识社区。这一发现颠覆了人们对不同平台内容质量的传统认知,也提醒我们,有时候所谓的“低端”或“俗气”的内容也可能蕴含着未被充分挖掘的价值。

弱智吧

        一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:

图片

弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下贴吧中中网友炸开了锅,更有之怀疑自我:

图片

数据质量

    下面我们具体来看看弱智吧的数据如何能够立足于ai界,看看这300万的“病友”如何交流

图片

  • 内裤翻过来穿,是不是代表世界都在内裤之中

  • 智商很弱叫弱智,那智商很牛是不是叫牛智呢?

  • 明明是我们走向死亡的道路,却被叫做人生

  • 一个半小时,是不是三个半小时?

  • 梦里什么都有,穷人为什么不把现实当做梦来活?

  • 如果猪肾虚,那它的腰子还补吗?

图片

当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。

图片

COIG-CQIA数据集介绍 

    在通识百科方面,研究人员从中文互联网上广泛收集了涵盖自然科学、人文社科等多个领域的概念解释和指导性文章。这些数据源包括了知名的中文百科网站,如百度百科和维基百科等。通过解析HTML并设计多种提示模板,研究人员将原始数据转化为高质量的指令-输出对。这样的处理方式使得数据更加贴合真实场景,有助于提高人工智能系统的理解和应用能力。

在社交媒体和论坛数据方面,研究人员从知乎、小红书、豆瓣、是否等热门中文社区精心挑选了高质量的问答和长文本内容。针对这些社区的特点,研究人员分别采取了筛选高赞回答、评分过滤、人工审核等方式,以确保所保留的数据具有高质量且符合真实场景。

    此外,研究人员还从其他种类的数据源中收集了STEM(科学、技术、工程和数学)领域的数据,以及人文领域的数据。这些数据源包括问答社区、内容创作平台、考试题库等。通过综合多个领域的数据,研究人员能够为人工智能系统提供更全面的知识背景和应用场景。

图片

专业知识部分的采集工作涉及了金融、电子、医学、农业等专业垂直网站。研究人员从这些网站中提取了结构化数据,并按照人工设计的提示模板构造出专业性指令-输出对。这样的处理方式使得数据更加贴合专业领域的真实场景,有助于提高人工智能系统在特定领域的理解和应用能力。

此外,研究人员还将国内中学生、研究生的历年入学考试真题纳入了数据集中。这些真题涵盖了各个学科领域,能够显著提升模型的逻辑推理和知识综合能力。通过将这些真题纳入数据集,人工智能系统可以更好地理解和应对各种学科领域的知识和问题。

在完成数据收集和分类整理后,研究人员对每一类数据进行深度清洗、重构和人工审查,以确保数据质量、多样性和对真实人机交互的贴合度

包括格式规范、答案审查、无关内容删除等。最终,精心构建了一个包含48,375条指令-输出对的高质量中文指令微调数据集

图片

    为了测试数据集性能,用COIG-CQIA对Yi系列、Qwen-72B等国内知名模型进行了微调,结果显示,COIG-CQIA比现有开源中文数据集对大模型的帮助更好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1583260.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

力矩,转矩,扭矩的理解——SunTorque智能扭矩系统

智能扭矩系统-智能拧紧系统-扭矩自动控制系统-SunTorque 力矩、转矩和扭矩是力学中常用的概念,它们描述了力的转动效果。虽然这三个词经常被互换使用,但它们之间实际上存在细微的差别。本文将从力学的基本原理出发,深入剖析这三个概念的含义…

Linux(centos7)部署spark

Spark部署模式主要有4种:Local模式(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、Spark On Yarn模式(使用YARN作为集群管理器)和Spark On Mesos模式(使用Mesos作为集…

生鲜蔬果配送小程序开发攻略

随着互联网的快速发展,电商行业也在不断壮大。生鲜蔬果作为日常生活必需品,在线销售的需求也在不断增加。为了满足这一需求,开发一款生鲜蔬果配送小程序成为了必要的事情。下面就给大家介绍开发这款小程序的攻略。 1. 确定开发需求 首先&…

计算机组成结构—外部存储器

目录 一、磁盘存储器 1. 磁表面存储器和磁记录原理 2. 硬磁盘的分类和基本结构 (1)硬磁盘存储器的分类 (2)硬磁盘存储器的组成 3. 磁盘的工作原理 (1)磁盘存储区域 (2)磁盘地…

Canal--->准备MySql主数据库---->安装canal

一、安装主数据库 1.在服务器新建文件夹 mysql/data,新建文件 mysql/conf.d/my.cnf 其中my.cnf 内容如下 [mysqld] log_timestampsSYSTEM default-time-zone8:00 server-id1 log-binmysql-bin binlog-do-db mall # 要监听的库 binlog_formatROW2.启动数据库 do…

xss.pwnfunction-Ugandan Knuckles

这个是把<>过滤掉了所以只能用js的事件 ?weya"onfocus"alert(1337)" autofocus"

什么是redis? 如何在SpringBoot中集成和操作redis?

喜欢就点击上方关注我们吧&#xff01; 本篇将带你快速了解什么是redis&#xff0c;以及学会如何在SpringBoot工程下集成和操作redis数据库。 一、概述 1、定义 Redis是一个基于内存的key-value 结构数据库。 1&#xff09;特点&#xff1a; 1、基于内存存储&#xff0c;读写性…

顺序表讲解

一.数据结构 在学习顺序表之前&#xff0c;我们先需要了解什么是数据结构。 1.什么是数据结构呢&#xff1f; 数据结构是由“数据”和结构两词组合而来。 什么是数据呢&#xff1f; 你的游戏账号&#xff0c;身份信息&#xff0c;网页里的信息&#xff08;文字&#xff0c…

体验Docker快速部署微信机器人

找到一个 Docker 部署微信机器人的镜像&#xff0c;简单测试一下。 1 使用 Docker 部署 1.1 拉取最新镜像 docker pull dannicool/docker-wechatbot-webhook1.2 Docker 部署 docker run -d --name wxBotWebhook -p 3001:3001 \ -v ~/wxBot_logs:/app/log \ dannicool/docker…

『VUE』11. 操作数组的方法(详细图文注释)

目录 vue中操作数组的方法会修改原数组的 会进行渲染更新不修改原数组的 不会进行渲染更新 push自动渲染concat 赋值渲染总结 欢迎关注 『VUE』 专栏&#xff0c;持续更新中 欢迎关注 『VUE』 专栏&#xff0c;持续更新中 vue中操作数组的方法 vue中数组数据呈现在网页,只检测…

【数据结构】-- 单链表 vs 双向链表

&#x1f308; 个人主页&#xff1a;白子寰 &#x1f525; 分类专栏&#xff1a;python从入门到精通&#xff0c;魔法指针&#xff0c;进阶C&#xff0c;C语言&#xff0c;C语言题集&#xff0c;C语言实现游戏&#x1f448; 希望得到您的订阅和支持~ &#x1f4a1; 坚持创作博文…

珠海华发实业股份有限公司副总毛冰清莅临天府锋巢直播产业基地考察调研

3月19日&#xff0c;珠海华发实业股份有限公司副总毛冰清拜访天府锋巢直播产业基地&#xff08;以下简称天府锋巢&#xff09;&#xff0c;由产业招商总负责人姜国东进行接待。 基地建设情况 姜国东负责人介绍到&#xff0c;天府锋巢是由德商产投携手无锋科技于兴隆湖落地的成都…

从误差分解看Few-shot的核心问题

FSL训练过程一般都是最小化经验误差ERM。 同时&#xff0c;由于现实任务的实际数据分布 是未知的&#xff0c;因此无法找到一个最优的参数组合 &#xff0c;能最小化期望损失&#xff08;最小值多少也是未知的&#xff09;&#xff0c;我们能做的实际上是尽可能的去找一个参数…

基于SpringBoot + Vue实现的在线答疑系统设计与实现+毕业论文+答辩PPT

介绍 学生角色&#xff1a; 1.注册、登录功能&#xff1a;学生可以通过系统完成注册和登录操作&#xff0c;进入学生专属界面。 2.个人信息修改功能&#xff1a;学生可以查看和修改自己的个人信息&#xff0c;包括姓名、联系方式等。 3.问题发布功能&#xff1a;学生可以在线发…

功能测试如何到自动化测试,看这篇就够了。

&#x1f345; 视频学习&#xff1a;文末有免费的配套视频可观看 &#x1f345; 关注公众号&#xff1a;互联网杂货铺&#xff0c;回复1 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;薪资嘎嘎涨 本帖不仅给大家介绍自动化测试&#xff0c;更会提供大…

MySQL-10. 存储引擎、视图、mysql管理

10.1 存储引擎 存储引擎说白了就是如何存储数据、如何为存储的数据建立索引和如何更新、查询数据等技术的实现方法。因为在关系数据库中数据的存储是以表的形式存储的&#xff0c;所以存储引擎也可以称为表类型&#xff08;即存储和操作此表的类型&#xff09;。 存储引擎(Stor…

使用MobaXterm/winTerm之类的工具连接虚拟机时报错Permission denied或者Access denied的解决办法

一、虚拟机设置&#xff1a; 1.将点击【编辑】---> 【虚拟网络编辑器】 2.添加VMnet6 1&#xff09;点击【DHCP设置】--->添加网络--->选中【仅主机模式】【将主机虚拟适配器连接到此网络】 2&#xff09;子网ip写“192.168.66.0” 3&#xff09;点击右下角【应用…

前端实现打开新标签页后,再次定位到该标签页

需求 A 页面中点击按钮可以打开新的标签页 B 并且向 B 页面发送消息数据。 当新的标签页 B 未关闭且符合同源策略时&#xff0c;再次点击按钮&#xff0c;可以自动跳转到标签页 B 并且发生消息数据。 B.html <script>window.onmessage evt > {console.log(evt.d…

xss跨站脚本攻击笔记

1 XSS跨站脚本攻击 1.1 xss跨站脚本攻击介绍 跨站脚本攻击英文全称为(Cross site Script)缩写为CSS&#xff0c;但是为了和层叠样式表(CascadingStyle Sheet)CSS区分开来&#xff0c;所以在安全领域跨站脚本攻击叫做XSS 1.2 xss跨战脚本攻击分类 第一种类型:反射型XSS 反射…

14.java openCV4.x 入门-Core之图像融合

专栏简介 &#x1f492;个人主页 &#x1f4f0;专栏目录 点击上方查看更多内容 &#x1f4d6;心灵鸡汤&#x1f4d6;我们唯一拥有的就是今天&#xff0c;唯一能把握的也是今天建议把本文当作笔记来看&#xff0c;据说专栏目录里面有相应视频&#x1f92b; &#x1f9ed;文…