【整理】难得的中文开源数据集

news2024/11/25 23:21:49

        搞大模型训练,最重要的就是高质量的数据集。

        得数据者得天下。全球最大的AI开源社区Huggingface上,已经有5万多的开源数据集了,其中涉及中文的数据集只有区区可怜的151个。中国的AI产业要迎头赶上,中文的数据集是最大的短板之一。

       上海人工智能实验室搞了一个OpenDataLab,上面发布了5000+的中文的开源数据集,可以随意下载下来,用来训练自己的AI大模型的,真的是功德无量啊。

        最近OpenDataLab自己发布一份非常齐全的用来做大模型预训练的中英文语料库,叫做:「书生·万卷」,取意于:读书破万卷之意

        搞大模型训练,最重要的就是高质量的数据集。所以得数据者得天下。全球最大的AI开源社区Huggingface上,已经有5万多的开源数据集了,其中涉及中文的数据集只有区区可怜的151个。中国的AI产业要迎头赶上,中文的数据集是最大的短板之一。

        上海人工智能实验室搞了一个OpenDataLab,上面发布了5000+的中文的开源数据集,可以随意下载下来,用来训练自己的AI大模型的,真的是功德无量啊。

        近OpenDataLab自己发布一份非常齐全的用来做大模型预训练的中英文语料库,叫做:「书生·万卷」,取意于:读书破万卷之意

        书生·万卷这个语料库,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。既然包含了文本、图像和视频数据,所以完全可以拿过来训练多模态的大模型了。

图片

        其中的文本数据集,来源于网页、维基百科、专业书籍、教材和考试题,超过5亿个文档。中文和英文大约各占一半。

图片

        其中的图像数据集,主要来源于网页、维基百科等,大约2220万个文档。

图片

视频数据不多,主要来自央视和上海卫视的电视节目,大约1000+个视频。这个视频数据说实话不太行:一方面是数据太少,另一方面视频的来源过于单一,所以价值不太大。

但不管怎么说,这都是我看到的第一个包含了多模态的开源数据集,总的容量也超过了2TB了。对于国内的很多想搞开源的大模型,或者想基于LLaMA 2预训练中文大模型来说,这个数据集也算是弥足珍贵了。毕竟,高质量的中文数据集实在太稀缺了,要自己从头来积累数据集,都是一个旷日持久的事情。

另外,OpenDataLab上还是有不少好的数据的,特别是「医疗」领域,颇有一些不错的数据集,真是是一个宝库。

图片

最后还是希望中文的高质量开源数据集多多益善,中国的AI社区发展越来越好。

书生·万卷这个语料库,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。既然包含了文本、图像和视频数据,所以完全可以拿过来训练多模态的大模型了。

图片

其中的文本数据集,来源于网页、维基百科、专业书籍、教材和考试题,超过5亿个文档。中文和英文大约各占一半。

图片

        其中的图像数据集,主要来源于网页、维基百科等,大约2220万个文档。

图片

        视频数据不多,主要来自央视和上海卫视的电视节目,大约1000+个视频。这个视频数据说实话不太行:一方面是数据太少,另一方面视频的来源过于单一,所以价值不太大。

        但不管怎么说,这都是我看到的第一个包含了多模态的开源数据集,总的容量也超过了2TB了。对于国内的很多想搞开源的大模型,或者想基于LLaMA 2预训练中文大模型来说,这个数据集也算是弥足珍贵了。毕竟,高质量的中文数据集实在太稀缺了,要自己从头来积累数据集,都是一个旷日持久的事情。

        另外,OpenDataLab上还是有不少好的数据的,特别是「医疗」领域,颇有一些不错的数据集,真是是一个宝库。

图片

        最后还是希望中文的高质量开源数据集多多益善,中国的AI社区发展越来越好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1020275.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IOTE2023物联网展最新快讯|央企入驻,找物联网平台这一家就够了

IOTE 2023第20届国际物联网展深圳站即将于9月20-22日在深圳国际会展中心(宝安)启幕!航天科技控股集团股份有限公司旗下AIRIOT物联网平台亮相【工业物联网展区9B31-1展位】。 AIRIOT物联网平台定位于通用型物联网技术框架产品,以软…

oracle创建数据库以及用户,并导入dmp格式数据

oracle创建数据库以及用户,并导入dmp格式数据 安装可参考之前的文章https://blog.csdn.net/qq_43421954/article/details/132717546?spm1001.2014.3001.5501 首先创建表空间(也就是其他数据库所谓的数据库) 使用的是navicat,连接配置可以参…

python 异常

1.捕获异常 2.密码爆破 3.

Feign远程调用丢失请求头

前言 我们在写服务端项目的时候,总会限制对某些资源的访问,最常见的就是要求用户先登录才能访问资源,当用户登录后就会将此次会话信息保存进session,同时返回给浏览器指定的cookie键值,下次浏览器再次访问&#xff0c…

【虚拟现实】2023年VR技术的10个应用行业

1.医疗保健 现代医疗保健的培训方式离不开VR虚拟现实。。由于医疗行业的特殊性,不允许拿大量的病人来练手,但医疗又非常注重实践,一些新手医生就缺乏锻炼的机会,而VR虚拟现实技术很好的解决了这一问题。医生可以在高清晰、低延时…

【C++】搜索二叉树底层实现

目录 一,概念 二,实现分析 1. 插入 (1.)非递归版本 (2.)递归版本 2. 打印搜索二叉树 3.查找函数 (1.)非递归版本 (2.)递归版本 4. 删除函数&#x…

【Linux-Day13-生产者消费者模型】

生产者消费者模型 生产者消费者问题概述 生产者/消费者问题,也被称作有限缓冲问题。可以描述为:两个或者更多的线程共享同一个缓冲 区,其中一个或多个线程作为“生产者”会不断地向缓冲区中添加数据,另一个或者多个线程作为“消…

基于CNN-LSTM的时序预测MATLAB实战

一、算法原理 1.1 CNN原理 卷积神经网络具有局部连接、权值共享和空间相关等特性。卷积神经网络结构包含卷积层、激活层和池化层。 (a)二维卷积层将滑动卷积滤波器应用于输入。该层通过沿输入垂直和水平方向 移动滤波器对输入进行卷积,并计…

阿里云无影电脑:免费体验无影云电脑3个月

阿里云无影云电脑免费领取流程,免费无影云电脑配置为4核8G,可以免费使用3个月,阿里云百科分享阿里云无影云电脑(云桌面)免费申请入口、申请流程及免费使用限制条件说明: 目录 阿里云无影云电脑免费申请入…

汉威科技亮相上海传感器展并发表主题演讲,智能传感器大有可为

9月15日,第8届中国(上海)国际传感器技术与应用展览会圆满落幕,该展会吸引了逾400家传感领域国内外的企业、100余家专业传感应用单位、500余位传感大咖共同参与,展会观众达30000人。作为全球三大传感器展之一的盛会&…

2023年最热门的编程语言:前进的趋势和机会

2023年最热门的编程语言:前进的趋势和机会 2023年最热门的编程语言:前进的趋势和机会摘要引言1. 编程语言的热门趋势1.1 新兴编程语言的崛起1.2 编程语言的可持续性发展1.3 跨平台编程语言的兴起1.4 人工智能和机器学习编程语言的需求 2. 编程语言职业机…

Informatica使用操作流程--存储过程调用、序列生成器 使用案例5

映射 [创建]连接工作流 --创建工作流W_EMP_DEPT_COUNT,连接任务S_EMP_DEPT_COUNT,ctrls保存 --右击工作流-->通过任务启动工作流 存储数据的地方查验数据

00后卷王的软件测试面试秘籍(含文档)

前言 前段时间去面试了一个公司,成功拿到了offer,薪资也从12k涨到了20k,对于工作都还没两年的我来说,还是比较满意的,毕竟一些工作3、4年的可能还没我高。 我可能就是大家说的卷王,感觉自己年轻&#xff…

MybatisMybatisPlus 操作 jsonb 格式数据

最近有用到postgresql&#xff0c;里面的一个特色数据类型便是jsonb&#xff0c;和json差不多&#xff0c;但是查询比较快&#xff0c;关于概念&#xff0c;这里就提一句&#xff0c;不赘述。 我们先来看下用mybatisplus&#xff0c;首先是查询数据。 依赖&#xff1a; <d…

基于springboot车辆充电桩管理系统springboot000

大家好✌&#xff01;我是CZ淡陌。一名专注以理论为基础实战为主的技术博主&#xff0c;将再这里为大家分享优质的实战项目&#xff0c;本人在Java毕业设计领域有多年的经验&#xff0c;陆续会更新更多优质的Java实战项目&#xff0c;希望你能有所收获&#xff0c;少走一些弯路…

【百问百答】可靠性基础知识第八期

1、什么是加速度频谱密度值(ASD) ? 表示随机信号的各个频率分量所包的加速度方均值在频域上是如何分布的。通常用ASD表示。 2、什么是功率频谱密度值(PSD) ? 表示随机信号的各个频率分量所包的功率在频域上是怎样分布的。通常用PSD表示&#xff0c;单位&#xff1a;g2/Hz。 0…

如何快速从 ETL 到 ELT?火山引擎 ByteHouse 做了这三件事

更多技术交流、求职机会&#xff0c;欢迎关注字节跳动数据平台微信公众号&#xff0c;回复【1】进入官方交流群 前言 当涉及到企业分析场景时&#xff0c;所使用的数据通常源自多样的业务数据&#xff0c;这些数据系统大多采用以行为主的存储结构&#xff0c;比如支付交易记录…

02Spring框架的特点以及jar包下载

Spring框架 Spring简介 Spring是由Rod Johnson创建的一个实现了IoC思想的开源框架, Spring最初的出现是为了解决EJB臃肿的设计以及难以测试等问题 Spring是为了解决企业应用开发的复杂性而创建的,从简单性、可测试性和松耦合的角度而言任何Java应用都可以从Spring中受益 Sp…

2023-驾驶舱数据指标体系建设

一、什么是领导驾驶舱&#xff1f; 领导驾驶舱&#xff0c;它以驾驶舱的形式&#xff0c;通过各种图表形象的展示企业运行的关键指标&#xff08;KPI&#xff09;&#xff0c;直观的监测企业运营情况&#xff0c;并可以对异常关键指标预警和挖掘分析。以根据管理和业务的需要&a…

期权合约到期日强平了还要扣手续费嘛?

国内目前的50ETF期权交易是会收取平仓的手续费的&#xff0c;期权手续费是双向收费&#xff0c;开仓收取一次、平仓收取一次。国内不同券商和期权分仓平台的手续费标准不同&#xff0c;下文介绍期权合约到期日强平了还要扣手续费嘛&#xff1f;本文来自&#xff1a;期权酱 一、…