蜂鸟E203学习笔记(三)——流水线结构

news2025/1/23 21:25:53

握手和反压

首先介绍握手协议 valid-ready握手协议

  • valid先发起请求
    在这里插入图片描述
  • ready先发出请求
    在这里插入图片描述
  • 同时发出请求
    在这里插入图片描述

仔细观察上述3幅时序图,我们了解valid-ready握手机制需要注意三件事:

  • valid与ready不可过度依赖,比如valid不可以等待ready到达再拉高,ready也不可以等待valid到达再拉高,他俩彼此可以互相独立发出请求拉高;
  • valid拉高时与有效数据同步,时钟要对齐;
  • 当数据计算好后,valid可以拉高等待ready拉高,但是每当握手成功之后,数据需要更新,如果此时没有新的有效数据,valid要拉低。

反压:当入口流量大于出口流量,这时候就需要反压,或者,当后级未准备好时,如果本级进行数据传递,那么它就需要反压前级,所以此时前级需要将数据保持不动,直到握手成功才能更新数据。而反压在多级流水线中就变得稍显复杂,原因在于,比如我们采用三级流水设计,如果我们收到后级反压信号,我们理所当然想反压本级输出信号的寄存器,但是如果只反压最后一级寄存器,那么会面临一个问题,就是最后一级寄存器数据会被前两级流水冲毁,导致数据丢失,引出数据安全问题,所以我们此时需要考虑反压设计。

  • 不带存储体的反压
    也就是后级反压信号对本级模块中所有流水寄存器都进行控制,由于不包含存储体,为了保证数据安全性,后级反压信号可以同时反压本模块中所有流水寄存器。
    优点:节省面积资源
    缺点:寄存器端口控制复杂
    适用情况:流水线深度较大时

  • 带存储体的逐级反压
    如果流水级数不深,可以在每一需要握手交互模块增加存储体,原理上相当于,如果后级发出反压信号,可以直接对本级流水线数据源头进行反压,其余中间级不需控制,但后级需要包含RAM或FIFO等存储体,可以接收流水,并需设置水线(water line),确定反压时间,防止数据溢出,保证数据安全性。
    优点:各级流水寄存器端口控制简单
    缺点:需要额外存储体
    适用情况:流水线深度较小,每一模块都包含存储体时

  • 取消握手
    取消握手意味着流水线中的每一级并不会与其下一级进行握手,可能会造成功能错误。因此需要配合重执行、预留大缓存。

  • 加入前向旁路缓冲区
    这是一种面积换时序的方法,增加一个额外的缓存表项使反向的握手信号时序路径中断,但是前向路径不受影响。蜂鸟E203处理器在设计中采用此方法,有效地解决了多处反压造成的时序瓶颈。

流水线中的冲突

资源冲突

资源复用或者流水线停顿来解决资源冲突。

数据冲突

数据冲突是指不同指令之间的操作数存在着数据相关性的冲突。常见的数据相关性如下:

  • WAR(Write-After-Read,先读后写)相关性:后序执行的指令需要写回的结果寄存器索引与前序执行的指令需要读取的源操作数寄存器索引相同造成的数据相关性。后序指令一定不能比与他与WAR相关性的前序指令先执行。
  • WAW相关性:后序指令一定不能比与他与WAW相关性的前序指令先执行,否则前序指令在把结果写进寄存器组时就会将其覆盖。
  • RAW相关性:后序指令一定不能比与他与RAW相关性的前序指令先执行,否则就会读回错误的源操作数。

很容易理解,其中WAR和WAW都可以通过寄存器命名的形式避免。寄存器重命名可以在Tomasulo算法中通过保留站ROB(Re-Order Buffer)完成,也可以通过物理引擎。
Tomasulo算法
RAW相关性是不可以通过寄存器重命名的方法去除,只能等待前边指令执行结束。为了尽量减少停顿带来的损失,使用动态调度的方法:

  • 采用数据旁路传播技术,尽可能让前序指令的计算结果更快传播给后续相关指令的操作数
  • 尽可能让其他无关的指令继续顺利执行
  • T算法由于保留站保留了操作数,无法具有很高的深度。
  • 最新的高性能处理器普遍采用在每个运算单元前配置乱序发射队列的方式,发射队列只追踪RAW相关性,而并不存放操作数,因此流水线很深的时候。在发射队列中的之林一旦接触相关性之后,再从发射队列中发射出来,读取物理寄存器组,然后发送给运算单元,开始计算。

蜂鸟E203处理器流水线

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/40241.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式之工厂模式

文章目录1.前言工厂模式的三种实现方式应用场景2.简单工厂模式核心组成实现UML类图优点与缺点3.工厂方法模式核心组成实现UML类图优点与缺点4.抽象工厂模式核心组成实现UML类图优点与缺点1.前言 在工厂模式中,我们在创建对象时不会对客户端暴露创建逻辑,…

React - Ant Design4.x版本安装使用,并按需引入和自定义主题

React - Ant Design4.x版本安装使用,并按需引入和自定义主题一. 安装使用 antd二.antd 高级配置安装 craco,对 create-react-app 的默认配置进行自定义自定义主题安装 babel-plugin-import ,按需加载组件代码和样式Ant Design官网…

备赛笔记:RCNN网络基础

1 目标检测: 目标检测指的是对目标进行分类与定位,输入图片,输出物体类别以及其坐标 目标检测模型分为one stage 和two stage类型。one stage及端到端,速度较快,但是准确性较差,two stage网络速度较慢&…

CDH5.12.0-HiveServer2-java.net.SocketTimeoutException: Read timed out

问题描述 环境: 开发调度平台:数栖平台4.18(16000任务,7000工作流)大数据平台:CDH 5.12.0,大数据组件默认版本BI工具:FineBI实时数仓:Dolphinscheduler StarRocks 问…

从核酸检测平台崩盘看性能工程的范围

近几年疫情肆虐,健康码系统和核酸检测系统成了民生的保障。在疫情张狂的时候,这类系统的稳定性、可用性是关键的技术支撑能力。 每个地方的健康码平台都或多或少地出现过问题,影响每个人的生活。 从我工作十几年的性能工作经验,来…

225. 用队列实现栈-C语言

题目来源:力扣 题目描述: 请你仅使用两个队列实现一个后入先出(LIFO)的栈,并支持普通栈的全部四种操作(push、top、pop 和 empty)。 实现 MyStack 类: void push(int x) 将元素 x 压…

Python爬取数据分析

一.python爬虫使用的模块 1.import requests 2.from bs4 import BeautifulSoup 3.pandas 数据分析高级接口模块 二. 爬取数据在第一个请求中时, 使用BeautifulSoup   import requests # 引用requests库 from bs4 import BeautifulSoup # 引用BeautifulSoup库 res_movies re…

pycharm Process finished with exit code: -1073741571

问题现象 在pycharm使用debug模式调试代码时,异常退出,且错误码为-1073741571。除了错误码外,并没有看到其它报错。 分析 查阅资料: Process finished with exit code -1073741571 (0xC00000FD) when trying to implement ab…

ZPM介绍(3)

建立私服(Porxy-Registry) 这张图解释了您的私服是怎么工作的, 整篇文章在这里: Proxy-Registry 搭建私服 您需要有一台自己的的服务器, 在上面安装IRIS, zpm, 然后用zpm去下载另一个软件包“zpm-registry"。象这样 zpm:DEMO>search …

如何设置子域名?

什么叫子域名 域名可以划分为各个子域,子域还可以继续划分为子域的子域,这样就形成了顶级域、主域名、子域名等。 举例: “.com”是顶级域名(一级域名); “aliyun.com”是主域名(二级域名&…

AtCoder Beginner Contest 264 G.String Fair(最短路/暴力dp 补写法)

题目 n(n<18278)个串&#xff0c;第i个串Ti(Ti为纯小写字母串且长度不超过3)&#xff0c; 得分Pi(-1e9<Pi<1e9)&#xff0c;表示只要子串中出现一次Ti&#xff0c;就会获得Pi的得分 对于你可以构造的无限长的串S来说&#xff0c;S的最终得分&#xff0c;为其中每一…

我参加第七届NVIDIA Sky Hackathon——训练CV模型

如何从0开始训练自己的CV模型 第一步 配置基本环境(在上一篇已经配置了我参加第七届NVIDIA Sky Hackathon——训练ASR模型 ) 第二步 利用labelimg制作图像数据集 第三步 开始训练resnet18模型 文章目录如何从0开始训练自己的CV模型前言一、利用labelimg制作图像数据集1.安装la…

JetPack之LifeCycle设计模式与解耦艺术的极致运用

在研发过程中&#xff0c;解耦是一个永恒的话题。因为解耦可以为后续的维护、功能添加、防内存泄漏、问题查找及更新都带来便利且做到影响最小&#xff0c;但如何进行解耦设计却是一门艺术。今天&#xff0c;我们就来看看google工程师是如何设计LifeCycle的。 我们在很多时候都…

【故障诊断分析】FFT轴承故障诊断(包络谱)【含Matlab源码 2002期】

⛄一、轴承故障分析简介 1 研究背景 滚动轴承故障占旋转机械故障的大约30%&#xff0c;现阶段主要采用信号分析来进行故障识别。探究形成机械设备故障尤其是滚动轴承的理论和诊断手段及方法是广大科学家们共同追求的目标&#xff0c;无论是在工程实际还是故障分析理论上都有着…

cat命令应用

记录&#xff1a;338 场景&#xff1a;在CentOS 7.9操作系统上&#xff0c;使用cat命令查看文件内容&#xff1b;把内容输出到指定文件&#xff1b;把多个文件合并为一个文件等。比如查看Tomcat的日志文件等。 版本&#xff1a; 操作系统&#xff1a;CentOS 7.9 1.命令应用…

Kafka - 06 Kafka 集群环境搭建(三台虚拟机)

文章目录1. 克隆虚拟机2. Zookeeper 集群搭建3. Kafka 集群搭建4. 测试消息发送和消费1. 主题操作2. 生产者生产消息3. 消费者消费消息1. 克隆虚拟机 kafka集群搭建&#xff0c;需要3台虚拟机环境&#xff0c;但是我目前只安装了一台虚拟机&#xff0c;因此还需要准备两台虚拟…

SpringBoot SpringBoot 原理篇 2 自定义starter 2.5 使用属性配置设置功能参数【2】

SpringBoot 【黑马程序员SpringBoot2全套视频教程&#xff0c;springboot零基础到项目实战&#xff08;spring boot2完整版&#xff09;】 SpringBoot 原理篇 文章目录SpringBootSpringBoot 原理篇2 自定义starter2.5 使用属性配置设置功能参数【2】2.5.1 直接开干2.5.2 小结…

【网络篇】第十八篇——ping的工作原理

目录 IP协议助手——ICMP协议 查询报文类型 差错报文类型 网络不可达代码为0 主机不可达代码为1 协议不可达代码为2 端口不可达代码为3 需要进行分片但设置不分片位片码为4 ping——查询报文类型使用 traceroute IP协议助手——ICMP协议 ping是基于ICMP协议工作的&a…

解决Redis Object Cache Pro插件无法使用高性能配置的解决方案

说明 辉哥演示站和本地使用的对象缓存都是redis&#xff0c;刚好手上有Redis Object Cache Pro插件&#xff0c;目前大多数用户都是用的是官方推荐的基础配置&#xff0c;并没有使用高性能配置&#xff08;官方的说法是在毫秒内优化高流量站点&#xff09;&#xff0c;刚好辉哥…

java项目_第163期ssm药品电子商城系统_java毕业设计

java项目_第163期ssm药品电子商城系统_java毕业设计 今天分享的项目是《ssm药品电子商城系统》 该项目分为3个角色&#xff0c;管理员、用户、医生。 1、用户可以浏览前台,购买药品&#xff0c;并将药品加入到购物车&#xff1b; 用户还可以浏览医生信息&#xff0c;进行在线预…