LLaMA 数据集

news2024/11/15 1:55:20

LLaMA的训练数据集来源多样,涵盖了多个不同的数据集和预处理步骤。以下是详细的描述:
在这里插入图片描述

公开数据来源和预处理

  1. CommonCrawl [67%]

    • 使用CCNet管道(Wenzek等人,2020年)对2017年至2020年间的五个CommonCrawl转储进行预处理。
    • 删除行级别的数据,使用fastText线性分类器进行语言识别,以去除非英语页面。
    • 用n-gram语言模型过滤低质量内容。
    • 训练一个线性模型来对维基百科中用作参考文献的页面与随机抽样的页面进行分类,并丢弃未被分类为参考文献的页面。
  2. C4 [15%]

    • 使用多样化的预处理CommonCrawl数据集提高性能。
    • 公开的C4数据集(Raffel等人,2020年)包含重复数据删除和语言识别步骤。
    • 与CCNet的主要区别在于质量过滤,主要依赖于标点符号的存在或网页中的单词和句子的数量等判例。
  3. Github [4.5%]

    • 使用谷歌BigQuery上的GitHub公共数据集。
    • 只保留在Apache、BSD和MIT许可下发布的项目。
    • 用基于行长或字母数字字符比例的启发式方法过滤低质量的文件,并用正则表达式删除模板,如标题。
    • 在文件层面上对结果数据集进行重复计算,并进行精确匹配。
  4. 维基百科 [4.5%]

    • 包括2022年6月至8月期间的维基百科转储,涵盖20种使用拉丁字母或西里尔字母的语言。
    • 对数据进行处理,以删除超链接、评论和其他格式化的模板。
  5. 古腾堡和Books3 [4.5%]

    • 包括Gutenberg项目和ThePile(Gao等人,2020年)的Books3部分。
    • 在书籍层面上进行重复数据删除,删除内容重叠度超过90%的书籍。
  6. ArXiv [2.5%]

    • 处理arXiv的Latex文件,将科学数据添加到数据集中。
    • 按照Lewkowycz等人(2022年)的做法,删除第一节之前的所有内容,以及书目。
    • 删除.tex文件中的注释,以及用户写的内联扩展的定义和宏,以提高不同论文的一致性。
  7. Stack Exchange [2%]

    • 包括Stack Exchange的转储,涵盖不同领域的高质量问答网站。
    • 保留28个最大网站的数据,重新将HTML标签从文本中移出,并将答案按分数(从高到低)排序。

LLaMA的特点总结

  • 多样化数据来源:涵盖从网络抓取数据到书籍、科学论文和问答网站的数据。
  • 高效预处理:通过多种预处理技术确保数据的高质量和相关性,包括语言识别、质量过滤和重复数据删除。
  • 覆盖多语言:重点涵盖使用拉丁字母和西里尔字母的多种语言,提高模型的多语言处理能力。

LLaMA 2在训练设置和模型架构上大部分继承了LLaMA 1的配置,但也进行了几项重要的改进和调整。以下是详细的说明:

模型架构和预训练设置

  • 基础架构:LLaMA 2采用标准的Transformer架构(Vaswani等人,2017年)。
  • 预归一化:使用RMSNorm进行预归一化(pre-normalization)(Zhang和Sennrich,2019年)。
  • 激活函数:采用SwiGLU激活函数(Shazeer,2020年)。
  • 位置嵌入:使用旋转位置嵌入(RoPE,Su等人,2022年)。

主要改进

  • 上下文长度增加:与LLaMA 1相比,LLaMA 2增加了上下文长度,使得模型能够处理更长的输入序列。
  • 分组查询注意力(GQA):引入了分组查询注意力机制,这是一种改进的注意力机制,有助于提高模型的效率和性能。

总结

LLaMA 2在保持LLaMA 1基础架构的同时,通过增加上下文长度和引入分组查询注意力机制,进一步提升了模型的能力。这些改进使得LLaMA 2在处理长文本和提高计算效率方面表现更佳。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1935632.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于 Springboot + vue + java 美食分享平台(美食管理系统)

目录 📚 前言 📑摘要 📑操作流程 📚 系统架构设计 📚 数据库设计 💬 E-R表 💬 用户表 💬 美食分享文章表 💬个人博客表 💬 美食分类表 💬 …

如何根据项目需求选择采集卡及相关硬件

在选择适合的采集卡和硬件设备时,尤其是在要求高精度的应用场景中(如压机测试中的1μm位移计),需要综合考虑多个因素。以下是选择硬件的几个关键原则: 1. 精度要求 对于需要高精度的应用,硬件的精度必须能…

Java代码批量处理sql语句

背景:数据源迁移,目标数据源和原始数据源的语法不同,要把建表语句全都改成新的语法。 一个个sql文件去替换实在是麻烦,可以把原始的sql文件放在一个文件夹,然后用程序一跑,改完语法的sql语句就放在新的文件…

口袋奇兵游戏攻略:云手机辅助战锤入侵策略指南!

在《口袋奇兵》中,战锤入侵是一个重要的游戏环节,了解如何有效地参与战锤入侵能够帮助玩家获取更多的资源和提升自己的战力。本文将详细介绍战锤入侵的策略和技巧,帮助玩家在战锤入侵活动中取得更好的成绩。除了找到强力的游戏辅助&#xff0…

miniconda+xinference的大模型推理部署指南

大模型相关目录 大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容 从0起步,扬帆起航。 基于Dify的智能分类方案:大模型结合KNN算法(附代码&#xff…

【视觉SLAM】 十四讲ch5习题

1.*寻找一个相机(你手机或笔记本的摄像头即可),标定它的内参。你可能会用到标定板,或者自己打印一张标定用的棋盘格。 参考我之前写过的这篇博客:【OpenCV】 相机标定 calibrateCamera Code来源是《学习OpenCV3》18.…

喜报!CACTER实力入选《嘶吼2024网络安全产业图谱》多项领域

CACTER实力入选多项细分领域 7月16日,嘶吼安全产业研究院正式发布《嘶吼2024网络安全产业图谱》,旨在全面展示网络安全产业的构成及其重要组成部分,探索网络安全产业的竞争格局和发展前景。 CACTER凭借卓越的技术实力和可靠的产品服务&#…

[论文笔记] Pai-megatron-patch cpu-offload 改到 Qwen2

Add MPI Support for tp-comm-overlap and Cpu-Offload for Mcore Distrib… by jerryli1981 Pull Request #283 alibaba/Pai-Megatron-Patch GitHub 以上是在 llama-70B 上实现的 cpu-offload 方法。 下面是在主分支上,仿照 LLaMA-70B,在 Qwen2 上…

手把手教你搭建Docker私有仓库Harbor

1、什么是Docker私有仓库 Docker私有仓库是用于存储和管理Docker镜像的私有存储库。Docker默认会有一个公共的仓库Docker Hub,而与Docker Hub不同,私有仓库是受限访问的,只有授权用户才能够上传、下载和管理其中的镜像。这种私有仓库可以部署…

HarmonyOS工程目录结构

应用级配置文件app.json5 应用唯一标识、版本号、应用图标、应用名称等信息 模块级配置文件module.json5 oh-package.json5 三方库的管理 其他配置 用于编译构建,包括构建配置文件、编译构建任务脚本、混淆规则文件、依赖的共享包信息等。 build-profile.json…

Java学习Day9之数据库链接java

package aboutdb1; import java.sql.*; import java.util.Scanner; public class newDBsystem {private static Connection getConnection() throws Exception {Class.forName("com.mysql.cj.jdbc.Driver"); // 加载MySQL JDBC驱动Connection con DriverManager.get…

阿尔泰科技工业电脑IPC-8363工控机

概述: IPC-8363是一款支持 LGA 1200 Intel 10th/11th Generation Core™ i9/i7/i5/i3, Celeron and Pentium processor 的工业电脑。配置2组独立 SO-DIMM DDR4 2666/2933MHz内存,最大可扩展至128GB。 主要技术指标: 产品图示: 系…

php 小白新手从入门到精通教程(第3版)

前言 PHP(PHP: Hypertext Preprocessor)即“超文本预处理器”,是在服务器端执行的脚本语言,尤其适用于Web开发并可嵌入HTML中。PHP语法学习了C语言,吸纳Java和Perl多个语言的特色发展出自己的特色语法,并根…

qt初入门8:下拉框,输入框模糊查询,提示简单了解 (借助QCompleter)

实现一个简单的模糊查询的逻辑,输入框能提示相关项。 主要借助qt的QCompleter 类( Qt 框架中提供的一个用于自动补全和模糊搜索的类),结合一些控件,比如QComboBox和QLineEdit,实现模糊查询的功能。 1&…

在线实习项目|泰迪智能科技企业级项目学习,暑期大数据人工智能学习

在线实习介绍 实习时间:每个项目周期七周左右 面向对象:大数据、计算机相关专业学生;大三、大四毕业年度学生 在线实习收获 1、获得项目实战技能,积累项目经验 2、获得在线实习证明 项目特点…

能源化工5G防爆终端能给行业带来什么重要作用?

在能源化工领域,5G防爆终端的引入无疑为行业带来了革命性的变革与重要作用。这些集成了先进5G通信技术和防爆设计的高端设备,不仅提升了生产作业的安全性,还极大地增强了运营效率与智能化水平。 高速、低延迟的5G网络为防爆终端提供了前所未有…

安全防御2

实验要求: 实验过程: 7,办公区设备可以通过电信链路和移动链路上网(多对多的NAT,并且需要保留一个公网IP不能用来转换): 新建电信区: 新建移动区: 将对应接口划归到各自区域: 新建…

Java(二十二)---队列

文章目录 前言1.队列(Queue)的概念2.Queue的使用3.队列的模拟实现4.循环队列5.双端队列6.面试题[1. 用队列实现栈](https://leetcode.cn/problems/implement-stack-using-queues/description/)[2. 用栈实现队列](https://leetcode.cn/problems/implement-queue-using-stacks/de…

VPN以及GRE和MGRE

VPN VPN — 是虚拟专用网络 通俗地说,就是通过虚拟的手段,将两个独立的网络,穿越一个公共网络进行连接,实现点到点专线的效果(可以理解为:一个分公司通过公网和总公司建立点到点的专线连接) 现…

innovus:如何获取clock net的route_type和clock name

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 clock net的route type分为top trunk和leaf,net_type的设置方式见文章: