【RISC-V 指令集】RISC-V 向量V扩展指令集介绍(四)- 配置和设置指令(vsetvli/vsetivli/vsetvl)

news2024/11/24 13:00:02

  1. 引言

以下是《riscv-v-spec-1.0.pdf》文档的关键内容:
这是一份关于向量扩展的详细技术文档,内容覆盖了向量指令集的多个关键方面,如向量寄存器状态映射、向量指令格式、向量加载和存储操作、向量内存对齐约束、向量内存一致性模型、向量算术指令格式、向量整数和浮点算术指令、向量归约操作、向量掩码指令、向量置换指令、异常处理以及标准向量扩展等。
首先,文档定义了向量元素和向量寄存器状态之间的映射关系,并阐述了向量指令的格式。在此基础上,提出了配置设置指令,如vsetvl、ivsetiv和vlsetvl,用于设定向量长度(VL)和向量对齐长度(AVL)。
接着,文档详细说明了向量加载和存储操作,以及向量内存对齐和一致性模型。这些模型确保了向量操作的高效性和准确性。
然后,文档介绍了向量算术指令格式,包括向量整数、固定点和浮点算术指令。这些指令支持广泛的数学运算,为高性能计算提供了强大的支持。
此外,文档还涉及向量归约操作、掩码指令和置换指令,这些指令增强了向量操作的灵活性和功能性。
最后,文档讨论了异常处理机制,并列举了标准向量扩展指令列表。这些扩展指令为向量处理器提供了丰富的功能集,使其能够适应不同的应用场景和性能需求。
综上所述,这份文档为向量指令集的设计和实现提供了全面的指导和参考,有助于开发者更好地理解和利用向量处理器的能力。

【RISC-V 指令集】RISC-V 向量V扩展指令集介绍(一)-向量扩展编程模型-CSDN博客

【RISC-V 指令集】RISC-V 向量V扩展指令集介绍(二)-向量元素到向量寄存器状态的映射-CSDN博客【RISC-V 指令集】RISC-V 向量V扩展指令集介绍(三)-向量指令格式-CSDN博客

6 配置和设置指令(vsetvli/vsetivli/vsetvl)

处理大量元素的一种常见方法是“stripmining”,在这种方法中,每次循环迭代都会处理一定数量的元素,迭代会一直持续到所有元素都被处理完毕。RISC-V向量规范为这种方法提供了直接、可移植的支持。应用程序将待处理的元素总数(应用程序向量长度或AVL)指定为vl的候选值,硬件则通过一个通用寄存器响应,根据微架构实现和vtype设置,提供每次迭代中硬件将处理的(通常更小的)元素数量(存储在vl中)。一个简单的循环结构,如stripmining示例和SEW的更改所示,描绘了代码如何轻松地跟踪剩余的元素数量和硬件每次迭代处理的数量。

提供了一组指令,以便根据应用程序需要快速配置vl和vtype中的值。vset{i}vl{i}指令根据其参数设置vtype和vl CSR,并将vl的新值写入rd。

vsetvli rd, rs1, vtypei	#	rd	=	new	vl,	rs1 = AVL, vtypei = new vtype setting
vsetivli rd, uimm, vtypei	#	rd	=	new	vl,	uimm = AVL,	vtypei =	new vtype setting
vsetvl  rd, rs1, rs2	#	rd	=	new	vl,	rs1 = AVL,	rs2 = new	vtype value

Formats for Vector Coniguration Instructions under OP-V major opcode

6.1 vtype 编码

Table 7. vtype register layout

Bits

Name

Description

XLEN-1

vill

Illegal value if set

XLEN-2:8

0

Reserved if non-zero

7

vma

Vector mask agnostic

6

vta

Vector tail agnostic

5:3

vsew[2:0]

Selected element width (SEW) setting

2:0

vlmul[2:0]

Vector register group multiplier (LMUL) setting

新的vtype设置被编码在vsetvli和vsetivli的立即字段中,以及vsetvl的rs2寄存器中。

Suggested assembler names used for vset{i}vli vtypei immediate
e8    # SEW=8b
e16   # SEW=16b
e32   # SEW=32b
e64   # SEW=64b
mf8  # LMUL=1/8
mf4  # LMUL=1/4
mf2  # LMUL=1/2
m1   # LMUL=1, assumed if m setting absent
m2   # LMUL=2
m4   # LMUL=4
m8   # LMUL=8
Examples:
vsetvli t0, a0, e8          # SEW= 8, LMUL=1
vsetvli t0, a0, e8, m2      # SEW= 8, LMUL=2
vsetvli t0, a0, e32, mf2    # SEW=32, LMUL=1/2

vsetvl变体的工作方式与vsetvli类似,只不过它从rs2中获取vtype值,并可用于上下文恢复。

如果实现不支持vtype设置,则在vtype中设置vill位,vtype中的其余位设置为零,vl寄存器也设置为零。

早期的草案要求在设置vtype为非法值时产生陷阱。但是,这会在ISA的CSR写入上增加第一个数据相关的陷阱。实现可以选择在将非法值写入vtype时设置陷阱,而不是设置vill,以允许仿真支持新的配置以实现向前兼容性。当前方案支持通过检查给定设置是否清除了vill,对支持的向量单元配置进行轻量级运行时查询。

6.2 AVL 编码

新的向量长度设置基于AVL,对于vsetvli和vsetvl,AVL在rs1和rd字段中的编码如下:

Table 8. AVL used in vsetvli and vsetvl instructions

rd

rs1

AVL value

Effect on vl

-

!x0

Value in x[rs1]

Normal stripmining

!x0

x0

~0

Set vl to VLMAX

x0

x0

Value in vl register

Keep existing vl (of course, vtype may change)

当rs1不是x0时,AVL是存储在由rs1指定的x寄存器中的无符号整数,新的vl值也将写入由rd指定的x寄存器。

当rs1=x0但rd!=x0时,使用最大的无符号整数值(~0)作为AVL,并将结果VLMAX写入vl以及由rd指定的x寄存器。

当rs1=x0且rd=x0时,指令的操作就像是将vl中的当前向量长度用作AVL,并将结果值写入vl,但不写入目标寄存器。这种形式只能在VLMAX(因此vl)实际上没有因新的SEW/LMUL比率而改变时使用。如果使用新的SEW/LMUL比率会导致VLMAX发生变化,则保留该指令的使用。在这种情况下,实现可能会设置vill。

这种指令的最后一种形式允许在保持当前vl的同时更改vtype寄存器,前提是VLMAX没有减少。这种设计是为了确保vl始终为当前的vtype设置持有合法值。当前的vl值可以从vl CSR中读取。如果新的SEW/LMUL比率导致VLMAX缩小,则此指令可能会减少vl值,因此这种情况已被保留,因为这并不清楚这是一个普遍有用的操作,而且实现可以假设此指令不会更改vl以优化其微架构。

对于vsetiv li指令,AVL在rs1字段中编码为5位零扩展立即数(0-31)。

请注意,vsetiv li的AVL编码与常规CSR立即数值的编码相同。

当向量寄存器内部向量的维度较小且已知时,vsetiv li指令可以提供更紧凑的代码,在这种情况下,没有stripmining开销。

6.3 设置vl的约束

The vset{i}vl{i} instructions irst set VLMAX according to their vtype argument, then set vl obeying the following constraints:

1. vl = AVL if AVL ≤  VLMAX
2. ceil(AVL / 2) ≤  vl ≤  VLMAX if AVL < (2 * VLMAX)
3. vl = VLMAX if AVL ≥   (2 * VLMAX)
4. Deterministic on any given implementation for same input AVL and VLMAX values
5. These speciic properties follow from the prior rules:
a. vl = 0 if AVL = 0
b. vl > 0 if AVL > 0
c. vl ≤  VLMAX
d. vl ≤  AVL
e. a value read from vl when used as the AVL argument to vset{i}vl{i} results in the same value in vl, provided the resultant VLMAX equals the value of VLMAX at the time that vl was read

vl的设置规则被设计为足够严格,以保持vl在寄存器溢出和上下文交换时的行为(当AVL = VLMAX时),同时又足够灵活,使实现能够提高向量通道利用率(当AVL > VLMAX时)。

例如,这允许实现在VLMAX < AVL < 2 * VLMAX时设置vl = ceil(AVL / 2),以便在stripmine循环的最后两次迭代中均匀分配工作。要求2确保即使在AVL < 2 * VLMAX的情况下,归约循环的第一次stripmine迭代也使用所有迭代中的最大向量长度。这使得软件无需显式计算在stripmined循环期间观察到的向量长度的运行最大值。要求2还允许实现在VLMAX < AVL < 2 * VLMAX时将vl设置为VLMAX。

6.4 举例

SEW和LMUL设置可以动态更改,以在单个循环中的混合宽度操作上提供高吞吐量。

# Example: Load 16-bit values, widen multiply to 32b,shift 32b result
# right by 3, store 32b values.
# On entry:
#  a0 holds the total number of elements to process
#  a1 holds the address of the source array
#  a2 holds the address of the destination array
loop:
vsetvli a3, a0, e16, m4, ta, ma  # vtype = 16-bit integer vectors;
                                 # also update a3 with vl (# of elements this iteration)
 
vle16.v v4, (a1)        # Get 16b vector
slli t1, a3, 1          # Multiply # elements this iteration by 2 bytes/source element
add a1, a1, t1          # Bump pointer
vwmul.vx v8, v4, x10    # Widening multiply into 32b in <v8--v15>
vsetvli x0, x0, e32, m8, ta, ma  # Operate on 32b values
vs rl.vi v8, v8, 3
vse32.v v8, (a2)	# Store vector of 32b elements
slli t1, a3, 2	# Multiply # elements this iteration by 4 bytes/destination element
add a2, a2, t1	# Bump pointer
sub a0, a0, a3	# Dec rement count by vl
bnez a0, loop	# Any more?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1579257.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SUSE Linux Enterprise Server安装

1. SUSE镜像下载 下载地址&#xff1a;Evaluation Copy of SUSE Linux Enterprise Server | SUSE 选择自己需要的版本和对应的架构 选择下载SLE-15-SP5-Full-x86_64-GM-Media1.iso&#xff0c;下载时需要注册请按照提示进行注册。 2. 安装SUSE Linux 安装时可以通过连接服务…

MySQL高级(索引结构Hash,为什么InnoDB存储引擎选择使用B+tree索引结构?)

目录 1、Hash索引结构 2、Hash索引特点 3、存储引擎支持 4、为什么InnoDB存储引擎选择使用Btree索引结构&#xff1f; 1、Hash索引结构 哈希索引就是采用一定的hash算法&#xff0c;将键值换算成新的hash值&#xff0c;映射到对应的槽位上&#xff0c;然后存储在hash表中。 如…

希尔排序解读

在算法世界中&#xff0c;排序算法是至关重要的一部分。而希尔排序&#xff08;Shell Sort&#xff09;作为一种基于插入排序的改进算法&#xff0c;通过允许交换非相邻元素&#xff0c;从而在一定程度上提高了排序效率。本文将深入探讨希尔排序的原理、实现方式以及它的性能特…

电商技术揭秘十五:数据挖掘与用户行为分析

相关系列文章 电商技术揭秘一&#xff1a;电商架构设计与核心技术 电商技术揭秘二&#xff1a;电商平台推荐系统的实现与优化 电商技术揭秘三&#xff1a;电商平台的支付与结算系统 电商技术揭秘四&#xff1a;电商平台的物流管理系统 电商技术揭秘五&#xff1a;电商平台…

【3GPP】【核心网】核心网/蜂窝网络重点知识面试题一(超详细)

目录 1. 核心网技术演进、各大运营商采用的技术是什么&#xff1f; 2. 整体掌握lte网络架构&#xff0c;能画出网络拓扑&#xff0c;并指出关键接口的位置 3. 对于主要的LTE核心网网元&#xff0c;讲讲自己对其功能的理解 4. 核心网常用字段概念&#xff1a;imsi、msisdn、…

Python学习从0到1 day21 第二阶段 面向对象 ④ 类型注解

仗剑红尘已是癫&#xff0c;有酒平步上青天 —— 24.4.7 一、变量的类型注解 学习目标 1.理解为什么使用类型注解 2.掌握变量的类型注解语法 为什么使用类型注解 tip&#xff1a;CTRLP&#xff0c;可以提示函数中传入的参数 当我们需要使用pycharm的自动补全功能&#xff0c;又…

论如何在小程序展示超链接在线网页

在工作中遇到一个需求&#xff0c;就是在小程序中展示超链接网页&#xff0c;起初我是直接使用web-view标签 <web-view src"https://www.baidu.com/"/>但是web-view只能在开发阶段手机上展示&#xff0c;一旦小程序发布线上&#xff0c;就会出现下面这种情况“…

Unity类银河恶魔城学习记录12-7-2 p129 Craft UI - part 2源代码

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释&#xff0c;可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili UI_CraftWindow.cs using UnityEngine.UI; using TMPro; using UnityEngin…

如何通过跨网软件,实现网络隔离后的文件安全收发摆渡?

随着企业数字化转型的逐步深入&#xff0c;企业投入了大量资源进行信息系统建设&#xff0c;信息化程度日益提升。绝大多数企业为了防止内部核心数据泄露&#xff0c;会实施网络隔离&#xff0c;比如内外网隔离&#xff0c;或者在内部网络中又划分出研发网、办公网、生产网等。…

三、SpringBoot3 整合 SpringMVC

本章概要 实现过程web 相关配置静态资源处理自定义拦截器(SpringMVC 配置) 3.1 实现过程 创建程序引入依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www…

【数据结构与算法】力扣 142. 环形链表 II

题目描述 给定一个链表的头节点 head &#xff0c;返回链表开始入环的第一个节点。 如果链表无环&#xff0c;则返回 null。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 next 指针再次到达&#xff0c;则链表中存在环。 为了表示给定链表中的环&#xff0c;评测系统…

安卓远离手机app

软件介绍 远离手机是专门为防止年轻人上瘾而打造的生活管理类的软件,适度用手机&#xff0c;保护眼睛&#xff0c;节约时间。 下载 安卓远离手机app

Codeforces CROC 2016 - Final Round B. Graph Coloring【2-SAT、二分图染色】

B. Graph Coloring 题意 有 n n n 个节点和 m m m 条边&#xff0c;起初每条边都有具有颜色 0 0 0 或 1 1 1 其中一种&#xff0c;可以选择一个节点&#xff0c;并将所有与这个点直接相连的边的颜色都翻转&#xff0c;问最少需要选择多少节点才能使所有边的颜色都一样&…

Pycharm2024安装

Pycharm2024安装 1.解压文件 获取方式在最后&#xff01;&#xff01;&#xff01;安装方式一样&#xff01; 2.双击安装 2.1.点击下一步 2.2.根据情况选择安装路径 最好不要使用中文。 2.3.勾选安装配置项 只选择创建桌面快捷方式就行了&#xff0c;其他选项可以不用。…

第一部分 Vue讲解(代码版)

1.第一个vue实例 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-w…

【Java面试题】MySQL上篇(索引)

文章目录 索引1.索引的分类&#xff1f;2.B树和B树的区别&#xff1f;2.1B树2.2B树 3.为什么使用索引会加快查询&#xff1f;4.创建索引的注意点&#xff1f;5.索引在哪些情况下会失效&#xff1f;6.聚簇索引和非聚簇索引的区别&#xff1f;7.回表查询是什么&#xff1f;8.什么…

思迈特:“人工智能+”浪潮里,国产BI到了关键时刻

作为首个“AI程序员”&#xff0c;Devin最近参与了一系列工作&#xff0c;包括在人力资源外包平台Upwork完成编程工作&#xff1b;潜入一家明星创业公司内部群交流&#xff0c;为公司CTO调整代码方案等。这让整个软件工程行业大受震撼&#xff0c;程序员留言“刷屏”。 “AI…

TinyMPC 使用教程(二)

系列文章目录 前言 一、如何使用 TinyMPC 1.1 加载程序库 import tinympc import numpy as nptinympc_python_dir "/path/to/tinympc-python" tinympc_dir tinympc_python_dir "/tinympc/TinyMPC"prob tinympc.TinyMPC() prob.compile_lib(tinympc_d…

计算机网络:数据链路层 - CSMA/CD协议

计算机网络&#xff1a;数据链路层 - CSMA/CD协议 媒体接入控制CSMA/CD协议截断二进制指数退避算法帧长与帧间间隔信道利用率 媒体接入控制 如图所示&#xff0c;这是一根同轴电缆&#xff0c;有多台主机连接到这根同轴电缆上&#xff0c;他们共享这根传输媒体&#xff0c;形成…

又整新活,新版 IntelliJ IDEA 2024.1 有点东西!

就在上周&#xff0c;Jetbrains 又迎来了一波大版本更新&#xff0c;这也是 JetBrains 2024首个大动作&#xff01; JetBrains 为其多款 IDE 发布了 2024 年度首个大版本更新 (2024.1)。 作为旗下重要的产品之一&#xff0c;IntelliJ IDEA当然也不例外。这不&#xff0c;现如今…