年度巨献 | OpenCSG开源最大中文合成数据集Chinese Cosmopedia

news2025/1/20 1:49:15

01

背景

近年来,生成式语言模型(GLM)的飞速发展正在重塑人工智能领域,尤其是在自然语言处理、内容创作和智能客服等领域展现出巨大潜力。然而,大多数领先的语言模型主要依赖于英文数据集进行训练,中文数据资源在规模和多样性方面相对不足,限制了中文生成式模型的实际应用表现。为应对这一挑战,OpenCSG算法团队启动了 Chinese Cosmopedia 项目,对标Huggingface Cosmopedia,旨在构建一个专为中文语言模型设计的大规模合成数据集,推动中文大模型的性能提升和广泛应用。

Chinese Cosmopedia 项目通过整合中文互联网中的多种数据来源和内容类型,构建了涵盖约1500万条数据和600亿个token的庞大数据集。该数据集包括了多种文体和风格,如大学教科书、中学教科书、幼儿故事、技术教程和普通故事等,内容广泛涉及学术、教育、技术等多个领域。这些多样化的数据能够满足不同应用场景的需求,帮助训练更加智能和精准的中文生成式语言模型。

OpenCSG团队在数据生成过程中,通过种子数据和prompt设计来控制数据的主题和风格,确保数据的多样性和高质量。例如,种子数据来源于各类中文百科、知识问答和技术博客等,而prompt则用于生成具有不同受众和风格的内容,从学术教科书到儿童故事,内容广泛且具有针对性。团队还利用先进的生成技术,确保生成数据具备连贯性和深度。

通过推出 Chinese Cosmopedia,OpenCSG团队致力于提升中文语言模型在多种任务中的表现,使得中文模型在准确性、生成能力和实际应用中的表现更加优越。该项目不仅将帮助研究人员和开发者加速中文大模型的训练和应用,也将为企业和行业提供丰富的工具和数据支持。Chinese Cosmopedia 的成功实施将成为中文AI技术发展中的一个重要里程碑,推动人工智能技术的普及和民主化,让更多人和企业能够享受到AI带来的创新和效益。

图片


02 

Cosmopedia数据集介绍

Cosmopedia 是 Hugging Face 社区开发的一个庞大的开放合成数据集,旨在支持大语言模型(LLM)的预训练。该数据集包含超过 3000 万个文件,总共约 250 亿个 tokens,是迄今为止最大规模的公开合成数据集之一。Cosmopedia 的主要目的是生成用于模型训练的多样化、高质量数据,以复现类似于微软的 Phi-1.5 模型的训练数据。

图片

内容覆盖面广泛

Cosmopedia 涵盖多种文本类型,包括合成教科书、博客文章、故事以及类似 WikiHow 的教程文章。这些内容从不同的来源获取和加工,既包括精选的教育资源,如 斯坦福课程、可汗学院、OpenStax 和 WikiHow。这些资源涵盖了许多有价值的主题可供 LLM 学习。

Cosmopedia 中 80% 以上的提示数据来自网络,经过复杂的聚类算法,确保生成数据的多样性和质量。这些数据广泛覆盖多个主题,从教育、科学到日常生活,几乎涵盖了人类知识的方方面面。

生成方法与挑战

Cosmopedia 的生成过程中,使用了 Mixtral-8x7B-Instruct-v0.1 模型。提示生成是该项目的核心部分,为了确保生成的内容在不同主题和受众间保持多样性,开发团队设计了数百万条不同的 prompts,调整了生成文本的风格和目标受众。这些提示不仅包括学术教科书式的生成任务,还包括为少年儿童、研究人员等不同受众定制的内容。

图片

数据集链接:https://huggingface.co/datasets/HuggingFaceTB/cosmopedia


03 

Chinese Cosmopedia 数据集

数据集简介

Chinese Cosmopedia数据集共包含1500万条数据,约60B个token,构建合成数据集的两个核心要素是种子数据和prompt。种子数据决定了生成内容的主题,prompt则决定了数据的风格(如教科书、故事、教程或幼儿读物)。数据来源丰富多样,涵盖了中文维基百科、百度百科、知乎问答和技术博客等平台,确保内容的广泛性和权威性。生成的数据形式多样,涵盖大学教科书、中学教科书、幼儿故事、普通故事和WikiHow风格教程等多种不同风格。通过对每条种子数据生成多种不同风格的内容,数据集不仅适用于学术研究,还广泛应用于教育、娱乐和技术领域。

图片

下载地址:

huggingface社区:https://huggingface.co/datasets/opencsg/chinese-cosmopedia

数据来源与种类

Chinese Cosmopedia的数据来源丰富,涵盖了多种中文内容平台和知识库,包括:

  • 中文维基百科:提供了大量精确、权威的知识性文章。

  • 百度百科:作为国内最具影响力的百科平台之一,百度百科为数据集提供了广泛的中文知识资源。

  • 知乎问答:从互动式问答平台中提取的内容,涵盖了多个领域的讨论与见解。

  • 技术博客:来自技术社区的文章,涵盖了从编程到人工智能等多个技术方向的深入讨论。

这些种子数据构成了Chinese Cosmopedia数据集的核心内容来源,确保了不同领域知识的覆盖。

数据形式与风格

Chinese Cosmopedia数据集特别注重生成内容的风格与形式,涵盖了从学术到日常应用的多种文本类型,主要包括以下几类:

  • 大学教科书:内容结构严谨,深入探讨各类大学学科的核心概念。

  • 中学教科书:适合中学生的教学内容,简洁易懂,注重基本知识的传达。

  • 幼儿故事:面向5岁儿童,语言简洁易懂,帮助幼儿理解世界和人际关系。

  • 普通故事:通过引人入胜的情节和人物对话,展开对某一概念的生动描述。

  • WikiHow风格教程:详细的步骤指导,帮助用户完成特定任务。

每种文体都根据不同的应用场景和目标读者群体,进行了精细化的风格调整。通过这种设计,Cosmopedia不仅适用于学术研究,还能广泛应用于教育、娱乐、技术等领域。

统计

种子数据来源:{'blog': 2111009, 'baike': 10939121, 'wiki': 173671, 'knowledge QA': 2291547}

图片

数据形式:{'preschool story': 1637760, 'normal story': 3332288, 'middle school textbook': 4677397, 'college textbook': 3127902, 'wikihow': 2740001}

图片

数据生成与模型

Chinese Cosmopedia的数据生成基于OpenCSG团队自主开发的OpenCSG-Wukong-Enterprise-Long模型。该模型通过强大的长文本生成能力,确保了生成数据的连贯性和内容深度。在数据生成过程中,OpenCSG团队为每种文体和内容类型设计了专门的prompt(提示词),以确保数据生成的风格与内容准确匹配。例如,对于教科书类型的内容,prompt会引导模型生成严谨且具有深度的学术文本,而对于故事类内容,则引导模型创造生动、引人入胜的情节。

我们用于生成各种格式的数据的prompt如下

大学教科书

 

这是一段来自网页的摘录:“{}”。请编写一个针对大学生的足够详细的教科书课程单元,该单元与给定的摘录中的某个概念或多个概念相关。不需要包含摘录中的所有内容,只需要发掘其中适合作为教科书内容的部分。你可以自由补充其他相关知识。不能仅仅列出概念,而是要深入发展和详细探讨每个概念,因为我们优先考虑深入理解主题内容,而不是广度。要求:1. 严谨性:确保对概念/章节的深入覆盖。2. 吸引性:用学术、专业且引人入胜的语气撰写,以吸引兴趣。3. 应用:融入具体的实践例子,例如微积分中要给出公式、严格证明,历史中要给出关键日期和人物,计算机操作中要给出代码。4.不需要给出参考文献。内容中不应包含广告或涉及隐私的信息。请记住,要针对大学生制作内容,他们可能拥有一些基础知识,但不是该领域的专家。内容应该详细且发人深省。请立即开始撰写教科书,不要使用图片,不要输出除了教科书以外的内容。

中学教科书

 

网页摘录:“{}”。创建一个与上述网页摘录中的某个概念相关的具有教育意义的内容,针对中学生,尽量长而详细。你可以自由补充其他相关知识。不能仅仅列出概念,而是要深入发展和详细探讨每个概念,因为我们优先考虑深入理解主题内容,而不是广度,不需要包含摘录中的所有内容。不应该使用像微积分这样的复杂大学级主题,因为这些通常不是中学的内容。如果主题是关于这些的,寻找一个更简单的科学替代内容来解释,并使用日常例子。例如,如果主题是“线性代数”,你可能会讨论如何通过将物体排列成行和列来解决谜题。避免使用技术术语和LaTeX,只讨论中学级别的主题。内容中不应包含广告或涉及隐私的信息。请直接开始撰写教育内容,不要输出除了教育内容以外的内容。

普通故事

 

写一个与以下文本片段相关的引人入胜的故事:“{}”。故事不需要提及片段中的所有内容,只需使用它来获得灵感并发挥创意!可以加入其它知识。故事应包括:1.小众概念或兴趣:深入研究特定的概念、爱好、兴趣或幽默情况 2.意想不到的情节转折或引人入胜的冲突,引入具有挑战性的情况或困境。3.对话:故事必须至少包含一个有意义的对话,以揭示人物深度、推进情节或揭开谜团的关键部分4.反思和洞察:以具有教育意义的新理解、启示的结论结束。5.故事中的人物应使用中国式的名字。请勿包含广告或涉及隐私的信息。请马上开始讲故事,不要输出除了故事以外的内容。

幼儿故事

 

网页摘录:“{}”创建一个与上述网页摘录中的某个概念相关的具有教育意义的儿童故事,重点针对对世界和人际交往零知识的5岁儿童。故事不需要提及片段中的所有内容,只需使用它来获得灵感并发挥创意。故事应该使用简单的术语。你可以补充额外的知识来帮助理解。使用易于理解的示例,并将 5 岁儿童可能提出的问题及其答案纳入故事中。故事应涵盖日常行为和常见物品的使用。不应该使用像微积分这样的复杂大学级主题,因为这些通常不是幼儿能理解的内容。如果主题是关于这些的,寻找一个更简单的科学替代内容来解释,并使用日常例子。例如,如果主题是“线性代数”,你可能会讨论如何通过将物体排列成行和列来解决谜题。请直接开始撰写故事,不要输出除了故事以外的内容。

wikihow教程

 

网页摘录:“{}”。以 WikiHow 的风格写一篇长而非常详细的教程,教程与此网页摘录有相关性。教程中需要包括对每个步骤的深入解释以及它如何帮助实现预期结果。你可以自由补充其他相关知识。确保清晰性和实用性,让读者能够轻松遵循教程完成任务。内容中不应包含广告或涉及隐私的信息。不要使用图像。请直接开始撰写教程。

我们诚邀对这一领域感兴趣的开发者和研究者关注和联系社区,共同推动技术的进步。敬请期待数据集的开源发布!


作者及单位

原文作者:俞一炅、戴紫赟、Tom Pei      

单位:OpenCSG LLM  Research Team    

图片

欢迎加入OpenCSG开源社区

OpenCSG作为一家大模型开源社区,基于线上线下一体的CSGHub平台上开源了丰富的训练数据资产、模型资产可以供广大的爱好者免费获取。其中OpenCSG的 Open是开源开放;C 代表 Converged resources,整合和充分利用的混合异构资源优势,算力降本增效;S 代表 Software Refinement,重新定义软件的交付方式,通过大模型驱动软件开发,人力降本增效;G 代表 Generative LM,大众化、普惠化和民主化的可商用的开源生成式大模型。OpenCSG的愿景是让每个行业、每个公司、每个人都拥有自己的模型。我们坚持开源开放的原则,将OpenCSG的大模型软件栈开源到社区。欢迎使用、反馈和参与共建,欢迎关注和Star⭐️

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2153820.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python:给1个整数,你怎么判断是否等于2的幂次方?

最近在csdn上刷到一个比较简单的题目,题目要求不使用循环和递归来实现检查1个整数是否等于2的幂次方,题目如下: 题目的答案如下: def isPowerofTwo(n):z bin(n)[2:]print(bin(n))if z[0] ! 1:return Falsefor i in z[1:]:if i !…

NXP官方或正点原子mfgtool下载系统报错initialize the library falied error code:29

这是因为mfgtool版本或者源文件被破坏了,你可以重新下载一个被改过的mfgtool程序,我就是去原子官网重新在linux包里找了新的更迭过的mfgtool

VMware虚拟机因磁盘空间不足黑屏无法登录

在虚拟机里存储了一些文件之后,再打开发现进不去了,只有光标一直在左上角,登录的框都是黑的,具体如下: 明明知道登录框的存在却怎么也触碰不到它T_T ,先说解决方法: 产生这个问题的原因是因为磁…

yolov5/8/9模型在COCO分割数据集上的应用【代码+数据集+python环境+GUI系统】

yolov5/8/9模型在COCO分割数据集上的应用【代码数据集python环境GUI系统】 yolov5/8/9模型在COCO分割数据集上的应用【代码数据集python环境GUI系统】 1.COCO数据集介绍 COCO数据集,全称为Microsoft Common Objects in Context,是微软于2014年出资标注的…

多态与绑定例题

答案: B D C 知识点: 多态是相同方法不同的表现,分为重写和重载 重写体现在父类与子类不同表现,主要表现为子类重现父类的方法 重载体现在同一个类中的不同表现 绑定分为动态绑定和静态绑定 动态绑定是在运行时 静态绑定是…

动态规划算法:09.路径问题_最小路径和_C++

目录 题目链接:LCR 099. 最小路径和 - 力扣(LeetCode) 一、题目解析 题目: 解析: 二、算法原理 1、状态表示 2、状态转移方程 3、初始化 dp表初始化: 特殊位置初始化: 4、填表顺序 5、返回值 …

【HTTP】认识 URL 和 URL encode

文章目录 认识 URLURL 基本格式**带层次的文件路径****查询字符串****片段标识符** URL encode 认识 URL 计算机中非常重要的概念,并不仅仅是在 HTTP 中使用。用来描述一个网络资源所处的位置,全称“唯一资源定位符” URI 是“唯一资源标识符“严格的说…

超越极限!Qwen2.5 助力多领域智能应用

前沿科技速递🚀 近日,Qwen2.5 系列重磅发布,成为开源语言模型领域的又一里程碑。作为一款全新的通用语言模型,Qwen2.5 在支持自然语言处理的基础上,还在编程、数学等领域进行了专项优化。Qwen2.5 模型支持长文本生成&a…

黑群晖安装教程

黑群晖(一种非官方的群晖NAS系统安装方式)的安装教程相对复杂,但按照以下步骤操作,可以顺利完成安装。请注意,由于黑群晖涉及非官方操作,安装过程中可能遇到各种不确定因素,建议具备一定的计算机…

十四、运算放大电路

运算放大电路 1、理想运算放大器的概念。运放的输入端虚拟短路、虚拟断路之间的区别; 2、反相输入方式的运放电路的主要用途,以及输入电压与输出电压信号的相位 3、同相输入方式下的增益表达式(输入阻抗、输出阻抗)

英语<数词>

1.基数 one two three 整数 1 2 3 小数 1.1 2.2 3.2 分数 分子用基数,分母用序数 例子 1/3 one third 分子>1 2/3 two thirds 百分数 2.序数 first second

【软考】传输层协议TCP与UDP

目录 1. TCP1.1 说明1.2 三次握手 2. UDP3. 例题3.1 例题1 1. TCP 1.1 说明 1.TCP(Transmission Control Protocol,传输控制协议)是整个 TCP/IP 协议族中最重要的协议之一。2.它在IP提供的不可靠数据服务的基础上为应用程序提供了一个可靠的、面向连接的、全双工的…

[UTCTF2020]sstv

用goldwave和010editor打开均未发现线索, 网上搜索sstv,豆包回答如下: 慢扫描电视(Slow Scan Television,简称 SSTV)是一种通过无线电传输和接收静态图像的技术。 一、工作原理 SSTV 通过将图像逐行扫描并…

十九、石英晶体振荡电路

石英晶体振荡电路 1、石英晶体的特点、等效电路、特性曲线; 2、石英晶体振动器的特点, 3、石英晶体振动器的振荡频率

Vision Transformer (ViT)、Swin Transformer 和 Focal Transformer

1. Vision Transformer (ViT) Vision Transformer详解-CSDN博客https://blog.csdn.net/qq_37541097/article/details/118242600?ops_request_misc%257B%2522request%255Fid%2522%253A%2522F8BBAFBF-A4A1-4D38-9C0F-9A43B56AF6DB%2522%252C%2522scm%2522%253A%252220140713.13…

互联网全景消息(5)之RocketMq快速入门(下)

一、RocketMQ的存储设计 1.1 Domain Model 1.1.1 Message Message是RocketMQ消息引擎中的主体。messageId是全局唯一的。MessageKey是业务系统(生产者)生成的,所以如果要结合业务,可以使用MessageKey作为业务系统的唯一索引。 1.1.2 Topic subTopics==Message Queue,其实…

机器学习——Stacking

Stacking: 方法:训练多个模型(可以是强模型),然后将这些模型的预测结果作为新的特征,输入到下一层新的模型(可以是多个)中进行训练,从而得到最终的预测结果。 代表:Stacking本身并没…

跨游戏引擎的H5渲染解决方案(腾讯)

本文是腾讯的一篇H5 跨引擎解决方案的精炼。 介绍 本文通过实现基于精简版的HTML5(HyperText Mark Language 5)来屏蔽不同引擎,平台底层的差异。 好处: 采用H5的开发方式,可以将开发和运营分离,运营部门自…

新峰商城之订单(一):确认页面开发

新峰商城订单从生成到处理结束,主要以下几个流程: (1)提交订单(商城用户发起) (2)订单入库(后台逻辑) (3)支付订单(商城…

人生小满胜万全

大家好,这里是大话硬件。 最近大家都在讨论房贷利率的问题,昨天晚上看到很多群里在发要降息的小道消息,但是今天早上看到央行发了通告不降息。 下午又在群里看到这个买房对比的截图。对于没买房的人来说,肯定在想,还好当时没有买啊。对于买了房的人来说,可能有些人也在想…