全流程透明双语大语言模型MAP-Neo,4.5T 高质量数据训练

news2024/12/23 17:37:06
前言

近年来,大语言模型 (LLM) 已经成为人工智能领域最热门的研究方向之一,并在各种任务中展现出前所未有的性能。然而,由于商业利益的驱动,许多最具竞争力的模型,例如 GPT、Gemini 和 Claude,其训练细节和数据来源往往被隐藏在专有接口背后。这限制了学术界对 LLM 的深入研究和应用。

为了解决这一问题,研究团队开源了 MAP-Neo,一个高性能、透明的双语大语言模型,旨在推动 LLM 研究的民主化。MAP-Neo 拥有 70 亿参数,从头开始训练,并使用了 4.5T 经过精心清洗和筛选的高质量 token。

  • Huggingface模型下载:https://huggingface.co/m-a-p/neo_7b

  • AI快站模型免费加速下载:https://aifasthub.com/models/m-a-p

技术特点

MAP-Neo 的透明性和高性能源于其独特的设计和训练策略:

  • 全流程透明: 与现有许多开源 LLM 不同,MAP-Neo 秉持着完全透明的理念,不仅公开了模型权重,还提供了完整的训练代码、预训练数据以及数据清洗流程,方便研究人员复现和验证模型。

  • 高质量数据训练: MAP-Neo 使用了名为 Matrix Data Pile 的预训练语料库,包含 4.5T 高质量 token,其中 52.55% 来自 Common Crawl,22.29% 来自编程代码,其余部分来自学术论文、书籍和其他印刷材料。研究团队针对不同的数据来源和内容类型,制定了相应的清洗和过滤策略,以确保数据的质量和多样性。

  • 高效的训练架构: MAP-Neo 在 Megatron-LM 框架的基础上进行了改进,增强了其对大型数据集训练的支持,并引入了 NEO Scaling Law,用于优化使用来自不同语料库的预训练数据集来扩展 LLM。

  • 精心设计的模型架构: MAP-Neo 采用 Transformer 解码器架构,并整合了 RoPE Embeddings、RMSNorm 以及 SwiGLU 等技术,以提高模型的效率和性能。此外,MAP-Neo 还采用了多阶段的训练策略,包括基础阶段和衰减阶段。

性能表现

MAP-Neo 在多项任务中都展现出令人印象深刻的性能,超越了同等规模的其他开源 LLM,例如 LLaMA-3 和 Mistral-7B:

  • 标准基准测试 MAP-Neo 在 BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC-Challenge、OpenBookQA-Fact、CommonsenseQA、MMLU、C-Eval 和 CMMLU 等标准基准测试中取得了优异成绩,展现出强大的语言理解和推理能力。

  • 代码生成: MAP-Neo 在 HumanEval、HumanEval-Plus、MBPP 和 MBPP-Plus 等代码生成任务中也表现突出,展现出良好的代码生成和理解能力。

  • 数学推理: MAP-Neo 在 GSM8K 和 MATH 等数学推理任务中取得了领先成绩,展现出强大的逻辑推理能力。

应用场景

MAP-Neo 作为一款全流程透明的双语大模型,具有广泛的应用场景:

  • 学术研究: 为研究者提供一个可复现、可解释的平台,推动双语大模型技术的发展。

  • 中文应用: 帮助解决中文LLM资源匮乏的问题,促进中文自然语言处理技术的进步。

  • 商业应用: 帮助企业快速构建自己的中文和英文LLM应用,降低开发成本,提升效率。

总结

MAP-Neo 的开源和透明,不仅为双语大模型的研究和应用提供了宝贵的资源,也推动了AI技术的民主化进程。我们相信,MAP-Neo 将为LLM的发展和应用开辟新的道路,助力人工智能技术的进步和普及。

模型下载

Huggingface模型下载

https://huggingface.co/m-a-p/neo_7b

AI快站模型免费加速下载

https://aifasthub.com/models/m-a-p

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1796535.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

codeforces round 949 div2

A Turtle and Piggy Are Playing a Game 题目&#xff1a; 思路&#xff1a;输出2的幂次b使得2^b为最大的不超过x的数 代码&#xff1a; #include <iostream>using namespace std;const int N 2e5 10;void solve() {int l, r;cin >> l >> r;if(r % 2) …

哈希表和二维矩阵的结合-2352. 相等行列对(新思路、新解法)

题目链接及描述 . - 力扣&#xff08;LeetCode&#xff09;. - 备战技术面试&#xff1f;力扣提供海量技术面试资源&#xff0c;帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/equal-row-and-column-pairs/description/?envTypest…

制作AI问答机器人的优势和技巧

AI问答机器人已经成为我们生活和工作中的得力助手&#xff0c;应用在社会各个不同的领域中&#xff0c;它们能帮助我们快速获取信息&#xff0c;以提高做事效率&#xff0c;很多企业为了让企业的运营更加高效&#xff0c;为了从众多竞争对手中脱颖而出&#xff0c;纷纷开始制作…

VirtualBox 虚拟机中的 centos7 系统拉取 docker 镜像常见报错及解决方法

一、拉取镜像时报错&#xff1a;Error response from daemon: Get "https://registry-1.docker.io/v2/": tls: failed to verify certificate: x509: certificate signed by unknown authority 原因&#xff1a;&#xff08;文心一言给出的原因&#xff09; 这个错误…

ctfshow web

红包题第二弹 <?phpif(isset($_GET[cmd])){$cmd$_GET[cmd];highlight_file(__FILE__);if(preg_match("/[A-Za-oq-z0-9$]/",$cmd)){die("cerror");}if(preg_match("/\~|\!|\|\#|\%|\^|\&|\*|\(|\)|\&#xff08;|\&#xff09;|\-|\_|\{|\}|\…

JVM运行时数据区 - 程序计数器

运行时数据区 Java虚拟机在执行Java程序的过程中&#xff0c;会把它管理的内存划分成若干个不同的区域&#xff0c;这些区域有各自的用途、创建及销毁时间&#xff0c;有些区域随着虚拟机的启动一直存在&#xff0c;有些区域则随着用户线程的启动和结束而建立和销毁&#xff0…

c#vb代码互转工具

下载地址&#xff1a; https://download.csdn.net/download/wgxds/88979921

【MMU】——MMU 相关的 CP15 寄存器

文章目录 MMU 相关的 CP15 寄存器C1(System Control Register)C2(Translation Table Base Control Register)C3(Domain Access Control Register)C5(Data Fault Status Register)C6(Data Fault Address Register)C9C10MMU 相关的 CP15 寄存器 寄存器作用寄存器 C1 中…

信息系统项目管理师0147:工具与技术(9项目范围管理—9.3规划范围管理—9.3.2工具与技术)

点击查看专栏目录 文章目录 9.3.2 工具与技术 9.3.2 工具与技术 专家判断 规划范围管理过程中&#xff0c;应征求具备如下领域相关专业知识或接受过相关培训的个人或小组 的意见&#xff0c;涉及的领域包括&#xff1a;以往类似项目&#xff1b;特定行业、学科和应用领域的信息…

Linux操作系统:Spark在虚拟环境下的安装及部署

将Spark安装到指定目录 // 通过wget下载Spark安装包 $ wget https://d3kbcqa49mib13.cloudfront.net/spark-2.1.1-bin-hadoop2.7.tgz // 将spark解压到安装目录 $ tar –zxvf spark-2.1.1-bin-hadoop2.7.tgz –C /usr/local/ // 重命名 $ mv /usr/local/spark-2.1.1-bin-hado…

Finance Manager System (FMS)

Finance Manager System &#xff08;FMS&#xff09;财务软件&#xff0c;基本三报表合并报表

vscode 运行和调试

vscode使用断点 1.安装并激活扩展 Debugger for Chrome (弃用 --> JavaScript Debugger)Debugger for Firefox 2. 配置config文件 打开 config/index.js 并找到 devtool property。将其更新为&#xff1a; 如果你使用的是 Vue CLI 2&#xff0c;请设置并更新 config/in…

Codeforces Round 951 (Div. 2) A - C题解

这是一篇提前写的博客&#xff0c;因为时间不够&#xff0c;花了四十分钟做了A-C&#xff0c;因为题目A - C比较简单&#xff0c;所以简单说一说吧。 A. Guess the Maximum 题意&#xff1a;给你n个数字&#xff0c;选择i和j满足&#xff0c;如果其中的最大值大于k&#xff0…

Mixly 开启WIFI AP UDP收发数据

一、开发环境 软件&#xff1a;Mixly 2.0在线版 硬件&#xff1a;ESP32-C3&#xff08;立创实战派&#xff09; 固件&#xff1a;ESP32C3 Generic(UART) 测试工工具&#xff1a;NetAssist V5.0.1 二、实现功能 ESP32开启WIFI AP&#xff0c;打印接入点IP地址&#xff0c;允许…

读AI未来进行式笔记05元宇宙与XR

1. 元宇宙 1.1. 元宇宙&#xff08;Metaverse&#xff09;的概念起源于美国作家尼尔斯蒂芬森于1992年出版的科幻小说《雪崩》 1.1.1. 书中描述的是一个和现实世界平行但又紧密联系的超现实主义的三维数字虚拟空间&#xff0c;在现实世界中地理位置彼…

每日两题 / 198. 打家劫舍 74. 搜索二维矩阵(LeetCode热题100)

198. 打家劫舍 - 力扣&#xff08;LeetCode&#xff09; dp[i]表示考虑前i 1号房屋&#xff0c;能获取的最大金额。对于没一间房屋都有偷与不偷两种选择 如果偷&#xff0c;需要从dp[i - 2]转移&#xff0c;因为不能偷窃相邻房屋&#xff0c;dp[i] dp[i - 2] nums[i] 如果…

封装了一个简单理解的iOS竖直文字轮播

效果图 原理 就是持有两个视图&#xff0c;并且两个视图同时改变origin.y 动画结束之后&#xff0c;判断哪个视图是在上面并且看不到的&#xff0c; 则将该视图移动到底部&#xff0c;并且该视图展示下一跳内容 在开始下一轮动画 代码 - (void)startAnimationWithDuration:(…

一文了解如何安全有效的进行PB级别的大数据迁移

在这个信息量爆炸的时代&#xff0c;处理PB级别的数据转移已成为常态&#xff0c;但对企业而言&#xff0c;这仍然是一个充满挑战的任务。今天&#xff0c;我们来探讨一下这个话题&#xff0c;看看在进行PB级数据转移时&#xff0c;需要留意哪些事项&#xff0c;可能会遇到哪些…

STM32远程更新

1 IAP 概述 1.1 工作原理 在应用中编程&#xff08; IAP &#xff09;是一种在现场通过 MCU 的通信接口&#xff08;例如 UART,USB,CAN 和以太网 等&#xff09;进行固件升级的方式。 当启动微控制器时&#xff0c;您可以选择让它进入 IAP 模式以执行 IAP 代码&am…

两个双指针 的 “他“和“ 她“会相遇么? —— “双指针“算法 (Java版)

本篇会加入个人的所谓鱼式疯言 ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 小编会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. &#x1f92d;&#x1f92d;&#x1f92d;可能说的不是那么严谨.但小编初心是能让更多人能接…