[241108] AMD 开源首批 10 亿参数语言模型:AMD OLMo | Xfce 4.20 Pre1发布

news2024/11/13 19:41:57

目录

    • AMD 开源首批 10 亿参数语言模型:AMD OLMo
    • Xfce 4.20 Pre1发布

AMD 开源首批 10 亿参数语言模型:AMD OLMo

AMD 近期开源了其首批 10 亿参数的大型语言模型系列——AMD OLMo,旨在推动 AI 研究的普及化。该模型利用 AMD Instinct™ MI250 GPU 集群,基于数万亿 token 训练而成,并开放了完整的训练细节和检查点,赋能开发者、研究人员探索和利用最先进的大型语言模型。

AMD OLMo 的优势:

  • 定制化: 预训练和微调自有 LLM,可以更好地融入特定领域知识,满足特定需求,实现可扩展性和专业化的平衡。
  • 高性能: 尽管预训练使用的 token 量少于 OLMo-1B(计算预算减少一半),但 AMD OLMo 在推理和指令 遵循方面的性能与其他同等规模的开源模型相比更胜一筹。
  • 开放性: AMD 开源了完整的训练细节、模型权重和代码,方便开发者复现和创新。
  • 边缘部署: AMD OLMo 可以在配备神经处理单元 (NPU) 的 AMD Ryzen™ AI PC 上运行推理,利用 AMD Ryzen™ AI 软件实现本地部署,兼顾效率、隐私和低功耗。

AMD OLMo 的训练流程:

AMD OLMo 的训练分为三个阶段:

  1. 预训练: 使用 Dolma v1.7 数据集的 1.3 万亿 token 子集进行预训练,学习语言结构和通用知识。
  2. 监督微调 (SFT): 分为两个阶段,首先使用 Tulu V2 数据集微调,然后使用 OpenHermes-2.5、WebInstructSub 和 Code-Feedback 数据集进一步微调,提升指令遵循能力,特别是编码、科学和数学问题解决能力。
  3. 对齐: 使用 UltraFeedback 数据集进行直接偏好优化 (DPO),使模型输出与人类价值观和偏好更一致。

AMD OLMo 的性能表现:

  • 在通用推理任务上的平均准确率与最新的 OLMo-0724-hf 模型相当,但计算预算减少了一半,并且优于其他基线模型。
  • 在 ARC-Easy、ARC-Challenge 和 SciQ 等基准测试中,准确率均有提升。
  • 在指令微调后,AMD OLMo 1B SFT 在 GSM8k 上的性能显著优于其他基线模型。
  • 在聊天基准测试 AlpacaEval 2 和 MT-Bench 上,AMD OLMo 也表现出色。
  • 在负责任的 AI 评估基准测试中,AMD OLMo 1B SFT DPO 与其他聊天基线模型表现相当。

AMD OLMo 的发布是 AMD 在 AI 领域的重要一步,其开源策略和优异性能将有助于推动 AI 技术的普及和发展,并为开发者提供更多选择和可能性。

来源:

https://www.amd.com/en/developer/resources/technical-articles/introducing-the-first-amd-1b-language-model.html

Xfce 4.20 Pre1发布

Xfce 社区近日发布了 Xfce 4.20 的首个预览版本 (Pre1),供早期用户测试新版本并检查兼容性。
为了提高稳定性,在最终版本发布之前,Xfce 核心组件将不再添加新功能和字符串,以便翻译人员完成最终版本的翻译工作。
最终版本计划于12月15日发布。

来源:

https://alexxcons.github.io/blogpost_11.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2239611.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

opencv实时弯道检测

项目源码获取方式见文章末尾! 600多个深度学习项目资料,快来加入社群一起学习吧。 《------往期经典推荐------》 项目名称 1.【基于CNN-RNN的影像报告生成】 2.【卫星图像道路检测DeepLabV3Plus模型】 3.【GAN模型实现二次元头像生成】 4.【CNN模型实现…

怎么禁止文件外发?企业如何禁止文件外发,教你6种方法,综合运用效果加倍

在当今数字化的商业环境中,企业内部文件承载着大量关键信息,犹如企业的命脉。这些文件可能包含着核心技术机密、客户资料、未公开的战略规划以及敏感的财务数据等,它们是企业在激烈市场竞争中立足的重要资产。然而,随着信息传播途…

SCI论文数据可视化的在线网址

目录 SCI论文数据可视化的在线网址 EVenn(Evenn):免费 SCI论文数据可视化的在线网址 数据可视化的在线网址,以下是一些值得推荐的资源: ImageGP(ImageGP | ImageGP):该平台可以在线生成常见的线图、柱状图、散点图、箱线图、集合图、热图和直方图等。用户只需粘贴数…

外星人入侵

学习于Python编程从入门到实践(Eric Matthes 著) 整体目录:外星人入侵文件夹是打包后的不必在意 图片和音效都是网上下载的 音效下载网站:Free 游戏爆击中 Sound Effects Download - Pixabay 运行效果:可以上下左右移…

DB-GPT系列(六):数据Agent开发part1-光速创建AWEL Agent应用

前面的系列文章介绍了: DB-GPT的总体功能 DB-GPT部署(镜像一键部署、源码部署) DB-GPT底层模型设置(开源模型、在线模型) DB-GPT的基础对话、知识库对话、excel对话 DB-GPT的数据库对话、数据对话、仪表盘对话 通…

OpenGL ES 文字渲染方式有几种?

在音视频或 OpenGL 开发中,文字渲染是一个高频使用的功能,比如制作一些酷炫的字幕、为视频添加水印、设置特殊字体等等。 实际上 OpenGL 并没有定义渲染文字的方式,所以我们最能想到的办法是:将带有文字的图像上传到纹理,然后进行纹理贴图。 本文分别介绍下在应用层和 C+…

简单介绍一下mvvm mvc mvp以及区别、历史

MVC(Model - View - Controller) 因MVC架构的灵活性,架构图形式很多,仅供参考 历史: MVC 是最早出现的软件架构模式之一,其历史可以追溯到 20 世纪 70 年代,最初被用于 Smalltalk - 80 环境。…

scrcpy-client pyscrcpy 报ConnectionError(“Video stream is disconnected“)

异常 Video stream is disconnected代码详情,scrcpy-client 使用0.4.7版本 import time import scrcpy from adbutils import adb import cv2def on_frame(frame):# If you set non-blocking (default) in constructor, the frame event receiver# may receive No…

新的服务器Centos7.6 安装基础的环境配置(新服务器可直接粘贴使用配置)

常见的基础服务器配置之Centos命令 正常来说都是安装一个docker基本上很多问题都可以解决了,我基本上都是通过docker去管理一些容器如:mysql、redis、mongoDB等之类的镜像,还有一些中间件如kafka。下面就安装一个 docker 和 nginx 的相关配置…

wordpress搭建主题可配置json

网站首页展示 在线访问链接 http://dahua.bloggo.chat/ 配置json文件 我使用的是argon主题,你需要先安装好主题,然后可以导入我的json文件一键配置。 需要json界面配置文件的,可以在评论区回复,看见评论我会私发给你。~

VMware Workstation Pro 最新版下载路径图示

从 2024 年 5 月开始,VMware Workstation Pro 宣布免费供个人使用。这意味着我们可以在无需许可证密钥或任何持续费用的前提下,在 Windows 或 Linux 上下载并使用这款强大的虚拟机软件的全部功能。 1、进入官网 你会发现找不到VMware workstation Pro 的…

【软件测试】设计测试用例的万能公式

文章目录 概念设计测试用例的万能公式常规思考逆向思维发散性思维万能公式水杯测试弱网测试如何进行弱网测试 安装卸载测试 概念 什么是测试用例? 测试⽤例(Test Case)是为了实施测试⽽向被测试的系统提供的⼀组集合,这组集合包…

linux命令详解,ssh服务+远程拷贝

ssh服务 ssh(Secure Shell)命令用于安全地远程登录到另一台计算机,并执行命令和传输文件。ssh 提供了加密的通信通道,确保数据传输的安全性。 ssh [选项] [用户]主机 [命令]常用选项 -V:显示 ssh 版本信息。-v&…

“高级Java编程复习指南:深入理解并发编程、JVM优化与分布式系统架构“

我的个人主页 接下来我将方享四道由易到难的编程题,进入我们的JavaSE复习之旅。 1:大小写转换------题目链接 解题思路: 在ASCII码表中,⼤写字⺟A-Z的Ascii码值为65- 90,⼩写字⺟a-z的Ascii码值为97-122。每个字 ⺟…

SQL面试题——飞猪SQL面试 重点用户

飞猪SQL面试题—重点用户 在一些场景中我们经常听到这样的一些描述,例如20%的用户贡献了80%的销售额,或者是20%的人拥有着80%的财富,你知道这样的数据是怎么算出来的吗 数据如下,uid 是用户的id ,amount是用户的消费金额 |uid|amount| ---…

操作系统OS--进程

目录 操作系统是什么 进程 进程的状态 1.并行和并发 2.时间片 进程优先级 进程切换 task_struct内容分类: 操作系统是什么 操作系统本质上是一款纯正的“搞管理”的软件 你的程序不能直接写入硬件,都必须通过操作系统 对软硬件之间进行交互&…

Spring——容器:IoC

容器:IoC IoC 是 Inversion of Control 的简写,译为“控制反转”,它不是一门技术,而是一种设计思想,是一个重要的面向对象编程法则,能够指导我们如何设计出松耦合、更优良的程序。 Spring 通过 IoC 容器来…

全自动火腿肉馅斩拌机:

全自动火腿肉馅斩拌机通过斩切作用提高产品的细密度和弹性,广泛应用于肉制品的深加工制作,如制作肉丸、香肠等。其工作原理是利用斩刀高速旋转的斩切作用,将原料进行斩切和乳化处理,从而提高产品的细腻度和弹性。斩拌机具有以下特…

音视频入门基础:MPEG2-TS专题(3)——TS Header简介

注:本文有部分内容引用了维基百科:https://zh.wikipedia.org/wiki/MPEG2-TS 一、引言 本文对MPEG2-TS格式的TS Header进行简介。 进行简介之前,请各位先下载MPEG2-TS的官方文档。ITU-T和ISO/IEC都分别提供MPEG2-TS的官方文档。但是ITU提供的…

NCC前端调用查询弹框

系统自带的查询模板 弹框 调启使用默认的 查询模板 是在 单据模板的 列表模板中,有个查询区域 ,查询区域就是查询模板内容如果在列表页做客开 新增按钮 调启查询模板 无问题,但是目前需求是需要再卡片页面下调启系统标准的调启模板代码 //调…