新版本源2.0大模型发布:Yuan2-2B-July-hf

news2025/1/9 1:41:25

引言

近日,浪潮信息的新一代基础语言大模型源2.0 迎来了重要更新。浪潮信息正式发布了 Yuan2-2B-July-hf 模型,标志着源2.0系列模型在性能和功能上的进一步提升。这一版本将为开发者和研究人员提供更强大的工具,以满足各种语言处理需求。

一、模型介绍

模型名称:Yuan2-2B-July-hf

发布时间:2024 年 8 月

简介:

源2.0 是浪潮信息发布的全新一代基础语言大模型系列,包含源2.0-102B、源2.0-51B 和源2.0-2B。基于源1.0,源2.0 利用更多样的高质量预训练数据和指令微调数据集,显著提升了模型在语义理解、数学推理、代码生成和知识获取等方面的能力。我们提供了全套预训练、微调和推理服务的脚本,支持研发人员进行深度开发。

开源信息:

源2.0系列模型的完整源码和文档已经开源,您可以在以下平台找到新发布模型的相关资源:

魔搭社区:https://modelscope.cn/models/IEITYuan/Yuan2-2B-July-hf

始智AI:https://www.wisemodel.cn/models/IEIT-Yuan/Yuan2-2B-July-hf

二、更新内容

  1. 英文生成与推理能力的显著提升
  • 在 HumanEval 测试集上的准确率提高至 62.8%,代码生成的准确性显著增强。
  • 在 GSM8K 数学推理任务中的准确率达到 68%,解决复杂数学问题的能力得到提高。
  • 在 MATH数学竞赛中的准确率为 31.2%,在数学推理方面的表现有所提升。
  1. 编程语言支持的广泛扩展
  • 新增了对 C、JavaScript、SQL、Shell 等多种编程语言的支持,强化了代码生成能力。
  • 强化了添加代码注释、生成单元测试等代码任务能力,提高了代码质量和维护性。
  1. 任务能力的全方位增强
  • 指令跟随:提升了对复杂指令的理解和执行能力。
  • 文档翻译:改进了多语言翻译的准确性,支持更多语言。
  • 文档总结:增强了长文本总结的能力,提供更为简洁和准确的摘要。
  • 检索增强生成(RAG):在检索和生成任务中表现更加优异。
  1. 支持更长的序列长度
    新版本模型支持 16384个token的序列长度,能够处理更长的文本输入,提高了长篇文档处理的能力,确保生成结果的连贯性和一致性。

三、使用指南

Yuan2-2B-July-hf模型具备强大的文本生成和代码任务能力,在云实例或本地部署上均可高效运行,只需满足基本的硬件要求。推荐的运行环境为阿里云的PAI-DSW,该平台能够提供稳定且高效的计算资源,确保在多种任务中的最佳表现。

  1. 运行环境
    在开始使用模型之前,请确保您的环境符合以下要求:
  • 推荐运行环境: 阿里云PAI-DSW
  • 最低GPU显存:
    • 推理:6GB
    • 微调:80GB
  1. 安装所需库
    使用以下命令安装所需的Python库:
pip install transformers==4.30.2 torch modelscope
  1. 下载和加载模型
    Yuan2-2B-July-hf模型支持通过多个平台进行下载,包括魔搭、HuggingFace、OpenXlab、百度网盘、WiseModel等。示例代码使用ModelScope库下载并加载模型:
# 导入所需的库
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# 源大模型下载
from modelscope import snapshot_download

model_dir = snapshot_download('IEITYuan/Yuan2-2B-July-hf', cache_dir='./')

# 定义模型路径
path = './IEITYuan/Yuan2-2B-July-hf'

# 定义模型数据类型
torch_dtype = torch.float16 # P100

# 获取模型和tokenizer
print("Creat tokenizer...")
tokenizer = AutoTokenizer.from_pretrained(path, add_eos_token=False, add_bos_token=False, eos_token='<eod>')
tokenizer.add_tokens(['<sep>', '<pad>', '<mask>', '<predict>', '<FIM_SUFFIX>', '<FIM_PREFIX>', '<FIM_MIDDLE>','<commit_before>','<commit_msg>','<commit_after>',
                      '<jupyter_start>','<jupyter_text>','<jupyter_code>','<jupyter_output>','<empty_output>'], special_tokens=True)

print("Creat model...")
model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch_dtype, trust_remote_code=True).cuda()

print("Done.")

  1. 文本生成测试
    使用以下代码进行文本生成测试:
# 输入和生成
prompt = "请问目前最先进的机器学习算法有哪些?"
inputs = tokenizer(prompt, return_tensors="pt")["input_ids"].to("cuda:0")
outputs = model.generate(inputs, do_sample=False, max_length=1024)
# 如果有长文本输出, 参数加上'repetition_penalty=1.2'设置重复性惩罚
# outputs = model.generate(inputs, do_sample=False, max_length=1024, repetition_penalty=1.2)
output = tokenizer.decode(outputs[0])
clean_output = output.replace("<sep>", "\n\n").replace("<eod>", "")
print(clean_output)

在生成长文本时,可以通过增加

repetition_penalty=1.2

参数来设置重复性惩罚,进一步优化生成结果。

  1. 测试效果优化
    为了确保最佳的测试效果,请注意以下几点:
  • 输入:确保输入的问题清晰且具有一定的复杂性,以便模型能够充分展示其能力。
  • 参数:调整 max_length 和 repetition_penalty 参数,根据不同任务需求优化生成结果。
  1. 总结
    通过上述步骤,可以顺利调用Yuan2-2B-July-hf模型,并进行有效的测试。在实际应用中,建议结合具体任务需求,对生成参数进行微调,以获得最佳效果。

四、测试效果

此次发布的Yuan2-2B-July-hf 模型经过了一系列测试验证,证明其在多个关键能力上展现了卓越的性能。通过对新模型的强化,我们发现它在英文生成与推理、多编程语言支持、文档翻译等任务中都取得了显著提升。

在英文生成与推理能力方面,我们提出了一个涉及多步推理的数学问题。新模型不仅能准确理解问题,还能生成完整的解题过程,最终正确得出David拥有34颗糖果的结论。这个结果不仅体现了新模型在复杂数学推理中的优越性,更证明了其自然语言处理能力的增强。

在这里插入图片描述

在文档翻译任务中,新模型成功将一段包含专业术语的中文技术文档翻译为英文。翻译结果精准流畅,逻辑清晰,展现了源2.0在应对复杂文档翻译任务时的显著进步。

在这里插入图片描述

新模型的多编程语言支持能力也得到了全面验证。我们要求模型将Python代码转换为C、Java和C++语言的等价代码。新模型顺利完成了这一任务,生成的代码正确无误,证明了其在多编程语言支持上的出色表现。

在这里插入图片描述

此外,在代码生成能力测试中,模型解决了一个经典的编程问题,成功生成了符合要求的Python代码,并且得到了正确的结果。这一测试进一步展示了新模型在代码生成与算法实现中的高效性和准确性。

在这里插入图片描述

这些测试结果充分证明了Yuan2-2B-July-hf模型在处理复杂任务时的出色表现,进一步验证了其在实际应用中的广泛潜力和价值。

五、总结

Yuan2-2B-July-hf 版本的发布为开发者和研究人员提供了更加强大和全面的语言处理能力。新版模型不仅在文本生成和推理能力上取得了显著进步,还扩展了编程语言支持和任务处理能力,满足了更广泛的应用需求。该模型未来在各个领域的广泛应用和创新发展值得期待。

更多信息,请访问以下页面:

Yuan 2.0 Github 项目主页:https://github.com/IEIT-Yuan/Yuan-2.0

Yuan 2.0 系列模型Hugging Face主页:https://huggingface.co/IEITYuan

Yuan 2.0 系列模型Modelscope主页:https://modelscope.cn/profile/YuanLLM

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2047394.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

武汉流星汇聚:携手亚马逊,全球电商中破浪前行,跨境业务加速崛起

在全球电商的浩瀚星空中&#xff0c;亚马逊无疑是最耀眼的星辰之一&#xff0c;其无与伦比的市场规模、卓越的用户体验以及强大的品牌影响力&#xff0c;为全球卖家铺设了一条通往成功的康庄大道。而在这条道路上&#xff0c;武汉流星汇聚电子商务有限公司作为一颗迅速崛起的新…

libnl教程(1):订阅内核的netlink广播通知

文章目录 前言目标netlink kernel multicast notifications订阅内核的链路(link)变化通知示例代码函数使用难点问题 前言 我之前整理过&#xff1a;netlink 简介。 netlink 是 libnl 的基础。 在开始之前&#xff0c;需要先翻看一遍官方文档&#xff1a;Netlink Library (li…

centos从home分区分配空间到根分区

在安装centos系统时如果采用默认自动分区&#xff0c;则会默认只给根分区分配50G空间&#xff0c;其余多余的会被分配到home分区&#xff0c;而作为家用服务器或仅个人使用的话&#xff0c;为了方便往往根分区会不够用而home分区几乎没使用。 先看下现在的磁盘结构和容量(xfs文…

第八篇 WAV文件格式

WAVE PCM soundfile format WAV即WAVE&#xff0c;WAVE文件是计算机领域最常用的数字化声音文件格式之一&#xff0c;它是微软专门为Windows系统定义的波形文件格式&#xff08;Waveform Audio&#xff09;&#xff0c;其扩展名为"*.wav"。 最基本的WAVE文件…

【Linux】进程概念的铺垫

进程概念的铺垫 先谈硬件——冯诺依曼体系结构冯诺依曼体系结构的5大部件输入输出设备存储器中央处理器&#xff08;CPU&#xff09; 冯诺依曼体系结构示意图 再谈软件——操作系统操作系统的 目的 和 定位如何理解 "管理"总结系统调用 - system call 先谈硬件——冯…

LINUX原始机安装JDK

文章目录 下载 JDK压缩包创建jdk文件夹sftp 远程上传解压缩 tar -zxvf 包名配置环境变量刷新 环境变量验证是否安装成功安装JAVA 依赖yum更新及替换镜像curl 命令下载更新更新yum依赖判断repo文件是否存在生成缓存、启用阿里云镜像 重新下载java依赖再次验证hello world 下载 J…

Java | Leetcode Java题解之第341题扁平化嵌套列表迭代器

题目&#xff1a; 题解&#xff1a; public class NestedIterator implements Iterator<Integer> {private List<Integer> vals;private Iterator<Integer> cur;public NestedIterator(List<NestedInteger> nestedList) {vals new ArrayList<Inte…

用数据分析找到神奇公式-《股市稳赚》读后感

格林布拉特的这本书介绍了一种简单的方法&#xff0c;核心是用神奇公式寻找到高资本收益率和高股票收益率的最佳投资组合。作者对其背后原理的普遍性充满自信&#xff0c;神奇公式寻找经营良好且价格低于平均水平的公司&#xff0c;买进质优价低的公司&#xff0c;这个公式&…

C++ 设计模式——简单工厂模式

简单工厂模式 简单工厂模式主要组成部分代码实现简单工厂模式模式的 UML 图UML图解析类与方法优点和缺点适用场景 简单工厂模式 简单工厂模式是一种创建型设计模式&#xff0c;通过一个工厂类来负责对象的实例。这种模式将对象创建的细节封装在工厂类中&#xff0c;客户端无需…

掌握JavaScript中的Call和Apply,让你的代码更强大、更灵活

在学习JavaScript时&#xff0c;你可能会遇到call和apply这两个方法。它们的作用其实很相似&#xff0c;都是用来调用函数并设置函数内部的this值&#xff0c;但它们的使用方式稍有不同。 想象一下&#xff0c;你和朋友们一起拍照。call就像是你一一叫朋友们的名字&#xff0c;…

基于WEB的旅游推荐系统设计与实现

TOC springboot280基于WEB的旅游推荐系统设计与实现 第1章 绪论 1.1选题动因 当前的网络技术&#xff0c;软件技术等都具备成熟的理论基础&#xff0c;市场上也出现各种技术开发的软件&#xff0c;这些软件都被用于各个领域&#xff0c;包括生活和工作的领域。随着电脑和笔…

Linux tail -f 报错 No space left on device

问题&#xff1a; 执行tail -f my_file 时报错&#xff1a;No space left on device df -h 检查磁盘剩余空间&#xff0c;剩余空间都很充足&#xff1b; df -i 检测iNode使用情况&#xff0c;剩余iNode也很充足&#xff1b; 参考这篇文章解决了问题 tail: cannot watch /v…

黑马前端——days05_css

页面框架文件 <!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><meta http-equiv"X-UA-Compatible"…

书籍推荐:凤凰架构

书籍推荐 本文的视频版&#xff1a;https://www.bilibili.com/video/BV1XQeueZEp4 周志明写的一本关于 Java 架构的书籍&#xff0c;内容都是关于 Java 架构中相关的技术&#xff0c;讲的知识比较广&#xff0c;大多都是概念相关的东西&#xff0c;适合有一定 Java 开发经验的…

从零开始搭建 LVS 高性能集群 (DR模式)

从零开始搭建 LVS 高性能集群 &#xff08;DR模式&#xff09; 架构 本设计方案采用三台服务器构建集群&#xff0c;使用Linux Virtual Server (LVS) 作为负载均衡器&#xff0c;运行在直接路由 (DR) 模式下。集群中的每一台服务器都将运行相同的服务&#xff0c;以实现 高可用…

搭建网站与企业 ERP 融合,微信开放新机遇

#HTTP虚拟专线# VHTTP 用户都将分配一个专属的固定公网 IP 地址&#xff0c;不再受到动态 IP &#xff0c;您的网站、企业 ERP 系统等关键业务能够始终保持在线。 每位VHTTP用户分配一个专属的固定公网IP地址&#xff0c;支持 80/443访问。用户只需自行简单设置自己 域名 DNS 解…

【leetcode】删除链表的倒数第 N 个结点-25-5

方法&#xff1a;递归 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {}* ListNode(int x) : val(x), next(nullptr) {}* ListNode(int x, ListNode *next) : val(x), ne…

企业级无线局域网(WLAN)架构:高效部署策略与技术指南

前言&#xff1a;无线网络直接影响整体网络性能&#xff0c;在当今企业网环境中&#xff0c;已有超过一半的数据流量通过无线信道传输&#xff0c;随着物联网技术的普及&#xff0c;无线网将承载更多的关键业务流量。企业/园区场景的无线网络值得考虑的关键因素有很多&#xff…

从商务到旅行,2024年不可或缺的翻译工具全攻略

随着全球化的不断深入&#xff0c;语言障碍已不再是横亘在人们交流之间的不可逾越之墙。随着科技的发展现在有不少类似百度翻译在线翻译这样的工具在造福我们。这次我们就来探讨一下大家都在用的翻译工具有哪些吧。 1.福晰在线翻译 链接直达>>https://fanyi.pdf365.cn/…

abc 290 d Marking (一个环上每隔d个给未标记的打标记,问第几个标记是什么)

题目&#xff1a; https://atcoder.jp/contests/abc290/tasks/abc290_d 题解&#xff1a; 代码&#xff1a; // Problem: D - Marking // Contest: AtCoder - Toyota Programming Contest 2023 Spring Qual B&#xff08;AtCoder Beginner Contest 290&#xff09; // URL: ht…