开源 150 T 数据(2023年之前所有数据)

news2024/11/17 17:27:08

开源 150 T 数据(2023年之前所有数据)

    • 开源 150 T 数据
      • 生成大规模、高质量训练数据集 = 生成巨量数据 + 数据清洗和过滤 + 混合数据源 + 多级别训练和模型评估 + 探索新的训练策略
      • 多级别训练和模型评估
      • 探索新的训练策略
    • 万卡 H100 集群训练

开源 150 T 数据

论文:https://arxiv.org/pdf/2406.11794

数据:https://arxiv.org/pdf/2406.11794

Llama 2 可能只有 GPT3.5 的 70%,甚至更低。

Llama 3 数据量从 2T 增加到 15T,智能直逼 GPT4。

在不改变模型架构的情况下,将数据量从2万亿(2T)增加到15万亿(15T),就能大力出奇迹。

作者从 CommonCrawl 收集了 150T 数据。

  • CommonCrawl是一个基于Python的开源爬虫工具,用于收集全球范围内的网站数据,并将其上传到Common Crawl基金会的数据仓库中。
  • 该组织成立于2007年,是一个非营利性组织,旨在为研究人员提供大规模、开放的网络数据提取、转换和分析服务。

在这篇文章中,介绍了一个通过DCLM (DataComp for Language Models) 生成大规模、高质量训练数据集的过程,并解释了如何利用这些数据来训练下一代大型语言模型。

生成大规模、高质量训练数据集 = 生成巨量数据 + 数据清洗和过滤 + 混合数据源 + 多级别训练和模型评估 + 探索新的训练策略

  • 数据提取:首先从Common Crawl使用resiliparse工具重新提取文本。
  • 启发式清洗:使用RefinedWeb的方法进行数据清洗,包括移除URL、英文过滤、页面长度过滤、重复内容过滤等。
  • 去重:应用Bloom过滤器去除重复内容,此外还有传统的去重方法。
  • 模型基过滤:利用FastText模型进行质量过滤,以进一步提高数据的质量。
  1. 子解法1:生成巨量数据

    • 特征:需要大量高质量数据来训练下一代语言模型。
    • 之所以用此子解法,是因为更多的数据可以提供更复杂的语言模式,有助于模型更好地泛化和理解复杂的语言结构。
    • 例子:从Common Crawl中提取了240万亿的数据,形成了DCLM-POOL,这为构建高质量语言模型提供了基础。
  2. 子解法2:数据清洗和过滤

    • 特征:大量数据中包含噪声和冗余信息。
    • 之所以用此子解法,是因为清洗和过滤可以提高数据的质量,从而使训练出的模型更准确和有效。
    • 例子:使用各种基于模型的过滤技术(例如fastText和PageRank过滤)来筛选出最有价值的数据。
  3. 子解法3:混合数据源

    • 特征:不同的数据源提供了不同领域的知识和信息。
    • 之所以用此子解法,是因为结合多个高质量的数据源可以进一步丰富训练数据集,增强模型的多样性和鲁棒性。
    • 例子:将Common Crawl数据与专门的领域数据(如数学和编程相关的数据集)混合,以增强模型在这些特定任务上的表现。
  4. 子解法4:多级别训练和模型评估

    • 特征:不同的训练阶段可能需要不同的数据处理和模型参数调整。
    • 之所以用此子解法,是因为通过分阶段训练和评估,可以更细致地调优模型,逐步提升其性能。
    • 例子:先使用基础数据训练模型,然后通过指令微调和高级任务评估来细化和验证模型性能。
  5. 子解法5:探索新的训练策略

    • 特征:现有的训练策略可能无法充分利用大规模数据的潜力。
    • 之所以用此子解法,是因为探索新的训练方法可以帮助更有效地利用巨量数据,发掘数据的潜在价值。
    • 例子:采用持续预训练方法和模型汤策略,通过在多种数据分布上训练不同阶段的模型并将它们结合,以提升模型的整体性能和适应性。

多级别训练和模型评估,以及探索新的训练策略,是大规模语言模型开发中的关键环节。下面详细解释这些策略的实施和优势:

多级别训练和模型评估

多级别训练指的是在不同的训练阶段使用不同的数据处理、模型架构调整和超参数设置,以逐步优化模型的性能。

这种分阶段的方法允许研究人员细致地监控和调整模型在各个训练阶段的表现,从而更精确地针对特定任务或数据类型进行优化。

  1. 初级阶段:通常开始于一个基础的模型训练设置,使用大量未经过严格筛选的数据。这个阶段的目的是让模型获得足够的“世界知识”,建立起基本的语言理解能力。

  2. 中级阶段:随后,可能会引入更精细的数据筛选和清洗,以去除噪声和不相关的信息,专注于提高模型在特定任务(如问答、摘要等)上的表现。此阶段可能会开始尝试不同的模型架构或超参数,以找到最佳的训练配置。

  3. 高级阶段:在模型已经表现出较好的基本性能后,进行高级优化,如指令调优(instruction tuning),这通常涉及在特定指令或任务上训练模型以优化其响应。此阶段也可能包括模型的细微调整,如调整学习率的衰减策略或优化器的选择。

  4. 评估:在每个阶段结束时,通过一系列预定义的下游任务来评估模型的性能。这些任务可以是通用的语言理解测试,也可以是特定的应用场景测试,以此来量化模型的泛化能力和特定能力。

探索新的训练策略

为了更有效地利用可用的大规模数据,并提高模型的训练效率和最终性能,探索新的训练策略至关重要。

这包括但不限于:

  1. 持续预训练:即在模型已经训练到一定阶段后,继续在相同或修改后的数据分布上进行训练。这种方法可以帮助模型更好地适应其训练数据,进一步提高性能,尤其是在处理长文本或复杂问题时。

  2. 模型汤(Model Souping):这是一种集成学习技术,通过合并在不同数据子集或不同设置下训练的多个模型来提高整体性能。这种方法能够整合各个模型的优点,减少任何单一模型的偏差。

  3. 多任务学习:通过同时训练模型以执行多种语言处理任务,可以提高模型的泛化能力。这种策略利用了不同任务之间的共通性,有助于模型在一个任务上学到的知识迁移到其他任务上。

  4. 元学习和快速适应:研究如何使模型使用较少的数据或训练步骤快速适应新任务。这包括开发能够在接收到新指令时迅速调整其行为的模型。

通过实施这些多级别的训练和评估策略,并不断探索和实施新的训练技术,可以显著提升语言模型的性能和效率。这些策略不仅提升了模型的能力,也优化了训练过程,使得模型能够更好地适应多变的应用需求。

万卡 H100 集群训练

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1867977.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

B+树与索引解析

文章目录 B树与索引简介几个关键点应用案例场景描述索引创建查询操作更新操作并发处理 Python代码示例 B树与索引简介 B树是一种在计算机科学中广泛使用的自平衡的树数据结构,它能保持数据排序,并且搜索、插入和删除操作的时间复杂度都是O(log n)。B树被…

【Docker项目实战篇】Docker部署PDF多功能工具Stirling-PDF

【Docker项目实战篇】Docker部署PDF多功能工具Stirling-PDF 前言一、Stirling-PDF介绍1.1 Stirling-PDF简介1.2 Stirling-PDF功能 二、本次实践规划2.1 本地环境规划2.2 本次实践介绍 三、本地环境检查3.1 检查Docker服务状态3.2 检查Docker版本3.3 检查docker compose 版本 四…

【AI原理解析】—朴素贝叶斯原理

朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理与特征条件独立假设的分类方法。这种分类方法简单、高效,并且在很多实际场景中都有良好的表现。 1. 贝叶斯定理 贝叶斯定理是关于条件概率的定理,它描述了两个条件概率之间的关系。…

shell (三)shell脚本

SHELL脚本 编程语言的分类 解释型语言:shell,Python,需要解析器 编译型语言:C语言,C,需要编译器 shell脚本 操作系统的结构 shell(贝壳) 应用层 app,代码 应用层需要通…

【项目实训】后端逻辑完善

经测试,我们决定前端可以同时选择多个类型的岗位进行查询,以显示相应的公司岗位信息 于是,修改后端函数的逻辑: 后端 首先,因为要对checkList中的job_name进行模糊匹配查询,于是使用以下代码&#xff1a…

C++之STL(九)

1、函数对象 什么适合推荐使用函数对象? 需要状态的函数调用: 需要状态的函数调用: 函数对象可以包含成员变量,可以在多次调用中保持状态。这在某些算法中非常有用。 提高性能: 编译器可以更好地优化函数对象,因为它们是具体的类型&#xf…

[Redis]主从模式

启动主从复制 由于我们只有一台机器,所以我们只能在机器上开多个redis程序来演示不同的机器 因为一个端口号只能被一个进程绑定,所以我们需要修改配置,绑定不同的端口号,并且还要修改工作目录(数据持久化的位置&#…

ChatTTS源码部署

感谢阅读 默认已完成的操作准备工作下载源码安装依赖下载补丁(报错在运行) 界面展示(discord上有各种补丁,我的加了UI补丁和音色增强)提示词常用(这个每个音基本都能生效)语调类语速类情感类 默认已完成的操作 python版本>3.9 cuda版本的…

3D渲染时如何提高GPU的使用率?这7点告诉你

GPU 正逐渐取代 CPU 在 3D 渲染中的地位。我们看到许多 GPU 渲染器如 Redshift、Octane、FStorm 等不断推出。以前只支持 CPU 渲染的渲染器,如 Arnold、V-Ray、Renderman、Keyshot 等,现在也开始支持 GPU 渲染。实时渲染的发展使 GPU 更受欢迎&#xff0…

梗图生成器突然爆红;ElevenLabs发布IOS APP 高质量语音朗读手机各种文本内容;开源工作流架构ControlFlow

✨ 1: 梗图生成器 fabianstelzer 在Glif做的一个超强meme生成器 Glif 是一个工作流,能生成文字图片和视频,用工作流的形式可以完成很多的花样来。 最近爆红的梗图生成器,WOJAK MEME GENERATOR ,也是用工作流的形式来生成这些有…

TiDB-从0到1-数据导出导入

TiDB从0到1系列 TiDB-从0到1-体系结构TiDB-从0到1-分布式存储TiDB-从0到1-分布式事务TiDB-从0到1-MVCCTiDB-从0到1-部署篇TiDB-从0到1-配置篇TiDB-从0到1-集群扩缩容 一、数据导出 TiDB中通过Dumpling来实现数据导出,与MySQL中的mysqldump类似,其属于…

如何选择适合你的免费电子合同软件?八款工具深度对比

主流的8款免费合同软件包括:国内的e签宝、法大大、上上签、契约锁,以及国外的SignWell、PandaDoc、Signaturely、HelloSign和SignRequest。 随着技术的进步,尤其是区块链技术的应用,电子合同的安全性和可信度正在逐渐增强。这些技…

如何提取mac app中的应用程序图标 x.app图标位置

在macos系统中安装的应用程序 .app的图标都是 以 .icns结尾的,默认位于 .app应用程序包中的Contents/Resources/目录下,只要是在这个目录下的 .icns文件就是这个应用的图标,如:mac版微信的图标就是 /Applications/WeChat.app/Co…

5个顶级开源Agent框架,你必须知道!

进入2024年,人工智能的发展已经达到了前所未有的高度,尤其是在Agent框架这一领域,出现了几个引人注目的技术成果。这些框架在智能规划、用户体验增强、记忆处理、以及大型模型调用等方面有着卓越表现,对AI界的未来发展提供了值得期…

利用多模态大模型,构建自动驾驶场景检索解决方案 | 创新场景

ITValue 痛点 在自动驾驶数据闭环的业务场景中,企业面临的挑战是难以高效的从PB级的视频和图片中选取有价值的数据,以训练和优化自动驾驶算法。 解决方案 为解决该挑战,亚马逊云科技利用大语言模型和图像文本多模态嵌入空间架构,构…

CY5-NHS生物标记应用146368-14-1

在生物科学研究和技术应用领域,荧光标记技术已成为一种科研工具。其中,CY5-NHS以其荧光特性和标记能力,在生物标记应用中扮演着科研角色。 CY5-NHS的特性与优势 CY5-NHS是一种荧光标记试剂,其荧光基团CY5赋予其强烈的荧光信号和…

【vue3】【vant】 移动本草纲目案例发布收藏项目源码

更多项目点击👆👆👆完整项目成品专栏 【vue3】【vant】 移动本草纲目案例发布收藏项目源码 获取源码方式项目说明:其中功能包括 项目包含:项目运行环境文件截图 获取源码方式 加Q群:632562109项目说明&am…

flink的窗口

目录 窗口分类 1.按照驱动类型分类 1. 时间窗口(Time window) 2.计数窗口(Count window) 2.按照窗口分配数据的规则分类 窗口API分类 API调用 窗口分配器器: 窗口函数 增量聚合函数: 全窗口函数…

llamafactory-llama3微调中文数据集

一、定义 https://github.com/SmartFlowAI/Llama3-Tutorial/tree/main 基准模型测试opencompass 离线测评数据准备微调训练合并测试人工审核对比 二、实现 基准模型测试 基准模型 llama3-8b https://zhuanlan.zhihu.com/p/694818596? https://github.com/SmartFlowAI/Llam…

什么样的台灯适合学生使用?五款暑假必入护眼大路灯分享

什么样的台灯适合学生使用?现在近视越来越低龄化,戴眼镜的小朋友越来越多,每每看着自己孩子眼睛贴到作业本上写作业,我的心都会提到嗓子眼。去医院一检查,果然,远视储备即将告罄,必须要防护了&a…