【论文解析】基于开源 Matrix 指令集扩展（矢量点积）的高性能 RISC-V 处理器“香山”（nanhu 版本）的 LLM 加速的研究

【论文解析】基于开源 Matrix 指令集扩展（矢量点积）的高性能 RISC-V 处理器“香山”（nanhu 版本）的 LLM 加速的研究

news2026/2/15 10:54:46

作者及发刊详情

摘要

正文

主要工作贡献

1）针对大模型自定义矢量点积扩展指令，并设计了专用硬件加速大语言模型的运算

2）基于香山处理器增加矢量点积计算单元和流水线处理逻辑，开发了包含上述指令的处理器nanhu-vdot

3）在FPGA上做测试，硬件资源和功耗几乎没有增加，矢量点积运算速度相比标量方法提高了 4 倍以上

4）在FPGA上进行GPT-2的推理，速度比纯软件实现提高了30%

实验评估

实验验证平台：Xilinx VU19P FPGA

选用模型： GPT-2

选用了三种模型。
在这里插入图片描述

工具：

该测试系统基于香山处理器的操作系统环境
通过测试接口将os可执行文件传输到FPGA的DDR中
模型代码和推理程序存在linux的临时文件系统中

在这里插入图片描述

PPA

性能

对 GPT-2 小型模型、中型模型、大型模型的推理速度提升分别为 30.9%、27.8%、27.9%。
在这里插入图片描述

资源消耗

nanhu-vdot 相比“香山”(nanhu 版本)增加 15677 个 LUT 单元，占比 2.8%，增加 2486 个 Flip-Flop 单元，占比 0.9%，BRAMs 未增加。
在这里插入图片描述

功耗

“香山”(nanhu 版本)的功耗开销为 8.454W，nanhu-vdot 功耗为 8.494W。nanhu-vdot 相比于“香山”(nanhu版本)的功耗仅增加 0.5%.

软硬协同设计

硬件：编写矢量点积计算定制自定义扩展指令的单元设计代码，对矢量点积进行加速，与高性能处理器“香山”(nanhu 版本)一起编译，生成可仿真的比特流。
软件：

增加自定义矢量点积计算指令
修改编译器，使其支持扩展的指令
修改 GPT-2 开源 C/C++代码,其中对于 int8 类型矢量点积计算部分通过汇编指令调用硬件执行单元,在调用硬件前后进行数据类型转换,最终通过硬件的加速计算得到文本输出。

自定义点积扩展指令

R-type 译码模式
Inst[11:7]表示交换后数据写回的目的寄存器号

模型修改

实现 GPT-2 大模型推理中元素类型为 int8 的矢量点积计算实现

硬件设计

设计了矢量点积计算单元和流水线处理逻辑，即VDOTU模块。

与CPU的集成方式

将矢量点积扩展指令与高性能处理器“香山”(nanhu 版本)的流水线紧密、耦合。
充分利用 “香山”的现有译码逻辑、寄存器堆和功能单元，尽可能减少额外的面积开销
作为流水线中的执行部件，如下图中的EXE单元

在这里插入图片描述

VDOTU模块

该模块作为扩展指令的核心执行单元，采用SIMD向量化的执行方式。

VDOTU 默认配置为 8bit 的整形计算
包含八路 8-bit 乘法器和七个加法器
输出采用 64-bit，与处理器的通用寄存器大小一致

参考文献

评

该工作的硬件设计较为简单，大量的工作在原软件工作，特别是模型算子的移植。
值得借鉴的是该方案的测试流，极大的简化的软件工作，详细参考实验评估部分。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2161654.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【环境搭建】MySQL安装部署

【环境搭建】MySQL安装部署

Win64安装MySQL Windows的玩法比较少，没有像MAC一样给你提供mysqld-safe等等各种的启动脚本，只有手动启动或者是以服务启动Mysql。点击下载：MySQL5.5-8.0.7z (密码是11) 1.下载软件这一步下载好软件就可以了，下载地址&#xff…

阅读更多...

鸿蒙OpenHarmony【小型系统基础内核(进程管理任务)】子系统开发

鸿蒙OpenHarmony【小型系统基础内核(进程管理任务)】子系统开发

任务基本概念从系统的角度看，任务Task是竞争系统资源的最小运行单元。任务可以使用或等待CPU、使用内存空间等系统资源，并独立于其它任务运行。 OpenHarmony 内核中使用一个任务表示一个线程。 OpenHarmony 内核中同优先级进程内的任务统一调度、运…

阅读更多...

《数据压缩入门》笔记-Part 1

《数据压缩入门》笔记-Part 1

一篇文章显得略长（超过1w字），本文对应原书序言、前言、第1-5章。第6-10章请参考Part 2，第11-15章，请参考Part 3。序言几点发现： 数据压缩需要花费时间并可能会导致软件变慢；改变数据的组织…

阅读更多...

C++第一次练习

C++第一次练习

题目1 class Solution { public:bool isletter(char s){if(s<z&&s>a)return true;if(s>A&&s<Z)return true;return false;}string reverseOnlyLetters(string s) {if(s.empty()){return s;}int left,right;left0;rights.size()-1;while(left<ri…

阅读更多...

最新绿豆影视系统 /反编译版源码/PC+WAP+APP端 /附搭建教程+软件

最新绿豆影视系统 /反编译版源码/PC+WAP+APP端 /附搭建教程+软件

源码简介： 最新的绿豆影视系统5.1.8，这可是个反编译版的源码哦！它不仅支持PC端、WAP端，还有APP端，一应俱全。而且附上了搭建教程和软件，安卓和苹果双端都能用，实用方便！ 优化内容&…

阅读更多...

聆思CSK6大模型开发板上手参考

聆思CSK6大模型开发板上手参考

前面发了很多大模型语音交互相关的技术文章，这篇给大家介绍一下大模型语音交互示例的硬件和上手概况。硬件概况聆思CSK6大模型开发板长宽尺寸是99.1x72.1mm， 集成了摄像头、麦克风、扬声器、屏幕、无线模块、TF卡等，可以直接用于大模型语音…

阅读更多...

2k1000LA 调试HDMI

2k1000LA 调试HDMI

问题：客户需要使用HDMI 接口，1080p 的分辨率。 ---------------------------------------------------------------------------------------------------------------- 这里需要看看龙芯派的 demo 版的硬件上的连接。硬件上：官方的demo 板， dvo1 应该是 HDMI的…

阅读更多...

如何选择游戏高防服务器，有什么需要注意的点？

如何选择游戏高防服务器，有什么需要注意的点？

自二十世纪初互联网迅速发展，市场发展瞬息万变，游戏行业也迎来了发展的春天。如今游戏行业已成为互联网行业的支柱，占据市场重要的比重。对于游戏行业的企业来说选择服务器是至为重要的一步，市场上的服务器良莠不济，如…

阅读更多...

你的提交信息还在拖后腿？看这里，提升代码质量的绝招！

你的提交信息还在拖后腿？看这里，提升代码质量的绝招！

文章目录前言一、什么是约定式提交？二、创建新仓库三、将代码推送到远程仓库的步骤1.检查当前远程仓库2.添加代码到暂存区3. 进行约定式提交4. 推送代码到远程仓库5. 完成推送总结前言在当今软件开发领域，Git已经成为最广泛使用的版本控制系统之一。…

阅读更多...

SpringMVC简单入门操作

SpringMVC简单入门操作

一、创建项目 1、创建Maven项目并导入依赖 <dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version><scope>test</scope></dependency><!-- https:/…

阅读更多...

2024年9月23日---关于MyBatis框架（2）

2024年9月23日---关于MyBatis框架（2）

4.7 不同返回值类型的查询 4.7.1 返回基本数据类型 /**查询student表中的记录个数 */ int selectCount(); <select id"selectCount" resultType"_int">select count(*) from student; </select> 4.7.2 返回引用类型(实体类) /**返回值为实…

阅读更多...

LeetCode题练习与总结：二叉树的最近公共祖先--236

LeetCode题练习与总结：二叉树的最近公共祖先--236

一、题目描述给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。百度百科中最近公共祖先的定义为：“对于有根树 T 的两个节点 p、q，最近公共祖先表示为一个节点 x，满足 x 是 p、q 的祖先且 x 的深度尽可能大（一个节点也…

阅读更多...

【秋招笔试题】多多的平均值

【秋招笔试题】多多的平均值

解法：抽掉的两个数字之和为2倍的平均数，那么判断一下2倍的平均数是不是整数。然后在搞一个哈希表存取过的值即可。 package com.sky;import java.util.*;public class Test1 {public static void main(String[] args) {Scanner scanner new Scanner(Sy…

阅读更多...

【Linux探索学习】第一弹——Linux的基本指令（上）——开启Linux学习第一篇

【Linux探索学习】第一弹——Linux的基本指令（上）——开启Linux学习第一篇

前言： 在进入Linux学习之前，我们首先要先做好以下两点：1、已经基本掌握C语言或C，2、已经配置好了Linux的环境，做完以上两点后我们就开始Linux的学习，今天我们首先要学习的就是Linux中最基础的操作&#xff…

阅读更多...

毕设基于SSM+Vue3实现设备维修管理系统四：后台框架及基础增删改查功能实现

毕设基于SSM+Vue3实现设备维修管理系统四：后台框架及基础增删改查功能实现

本章介绍后端基础框架及基础的增删改查功能实现，创建基础的dao、service即controller层相关的基类，并实现基础的增删改查相关功能。源码下载：点击下载讲解视频： SMMVUE3实现设备维修管理系统毕设：后端框架搭建及表外…

阅读更多...

重塑“万免”电商平台的魅力与潜力

重塑“万免”电商平台的魅力与潜力

今天，我想与大家深入探讨一个近期在电商领域备受瞩目的新概念——“万免”电商平台。我们将一同剖析其独特的运营模式，挖掘它在私域电商领域的非凡魅力与潜在价值。一、万免模式的创新解读万免联盟，一个旨在打破传统电商界限的创新平台&am…

阅读更多...

内生性检验与过度识别检验

目录一、文献综述二、理论原理三、实证模型四、程序代码一、文献综述内生性问题在经济学和社会科学研究中一直是一个关键挑战，众多学者致力于寻找有效的方法来解决这一问题并确保研究结果的可靠性。 Angrist 和 Krueger（1991）在研究…

阅读更多...

信用卡存量经营读书笔记

信用卡存量经营读书笔记

信用卡的各项收益和损失分析表用杜邦分析法拆利润如下信用卡要不要烧钱？不要，因为没有网络效应（用户量增加带来的优惠比较少）和赢家通吃的情况线上获客的几种方式：引流分成、某个项目的联名信用卡、营业收入分成 …

阅读更多...

828华为云征文 | 使用Linux管理面板1Panel管理华为云Flexus云服务器X实例

828华为云征文 | 使用Linux管理面板1Panel管理华为云Flexus云服务器X实例

828华为云征文 | 使用Linux管理面板1Panel管理华为云Flexus云服务器X实例一、华为云Flexus云服务器X实例介绍1.1 Flexus云服务器X实例简介1.2 Flexus云服务器X实例特点二、1Panel介绍2.1 1Panel 简介2.2 1Panel 特点三、本次实践介绍3.1 本次实践简介3.2 本次环境规划四、购…

阅读更多...

【machine learning-17-分类（逻辑回归sigmod）】

【machine learning-17-分类（逻辑回归sigmod）】

分类问题先说一下什么是分类问题，举个例子： 判定一封邮件是否是垃圾邮件； 判定图片是不是一直猫； 等等这些问题的答案都是有限的，而不像是线性回归，是存在无限可能的不确定值。这种问题就是分类问题&am…

阅读更多...

推荐文章

最新文章