计算机体系结构基础知识介绍之线程级并行性及其利用

news2024/11/25 22:36:46

线程级并行(Thread Level Parallelism,TLP)是指在多个处理器或多个核心上同时执行多个线程,从而提高程序的性能和吞吐量。线程级并行的基本原理是利用程序中的数据或任务的并行性,将程序划分为若干个相对独立的子任务,分配给不同的线程执行,然后通过同步机制协调线程之间的数据依赖和通信。

线程具有状态和当前程序计数器,但线程通常共享单个进程的地址空间,允许线程轻松访问同一进程内其他线程的数据。 多线程是一种多线程共享处理器而不需要中间进程切换的技术。 线程之间快速切换的能力使得多线程能够用于隐藏管道和内存延迟。

多线程允许多个线程以重叠的方式共享单个处理器的功能单元。 相比之下,利用线程级并行性 (TLP) 的更通用方法是使用具有多个同时并行运行的独立线程的多处理器。 然而,多线程并不像多处理器那样复制整个处理器。 相反,多线程在一组线程之间共享大部分处理器核心,仅复制私有状态,例如寄存器和程序计数器。

线程级并行有两种主要的实现方式:

- 硬件多线程(Hardware Multithreading):这种方式是在处理器硬件层面上支持多个线程的并发执行,即一个处理器可以同时拥有多个程序计数器(PC)和寄存器堆,从而在一个时钟周期内执行多条指令。硬件多线程又分为两种类型:

  1.     - 细粒度多线程(Fine-Grained Multithreading):这种类型是指每个时钟周期切换一个线程,从而隐藏流水线中的停顿(stall)。例如,当一个线程遇到缓存不命中或分支错误预测时,处理器就可以切换到另一个就绪的线程继续执行,而不需要等待缓存填充或分支解析。这样可以提高处理器的利用率和吞吐量,但是每个线程的延迟会增加。主要缺点是它会减慢单个线程的执行速度,因为准备好执行而不会停顿的线程将被其他线程的指令延迟。
  2.     - 粗粒度多线程(Coarse-Grained Multithreading):这种类型是指只有当一个线程遇到长时间的停顿(例如访问主存或I/O设备)时才切换到另一个线程。这样可以减少线程切换的开销和频率,提高每个线程的性能,但是对于短时间的停顿无法隐藏,粗粒度多线程有一个主要缺点:它克服吞吐量损失的能力有限,尤其是较短的停顿。。
  3. - 同时多线程(SMT)。 同步多线程是细粒度多线程的一种变体,当细粒度多线程在多问题、动态调度的处理器之上实现时,就会自然出现。 与其他形式的多线程一样,SMT 使用线程级并行性来隐藏处理器中的长延迟事件,从而提高功能单元的使用率。 SMT 的关键见解是寄存器重命名和动态调度允许执行来自独立线程的多个指令,而不考虑它们之间的依赖关系; 依赖关系的解决可以通过动态调度能力来处理。

- 超标量处理器(Superscalar Processor):这种方式是指在一个处理器内部集成多个功能部件(如算术逻辑单元、浮点单元、加载/存储单元等),从而在一个时钟周期内执行多条指令。超标量处理器需要使用复杂的指令调度和寄存器重命名技术来解决指令之间的数据依赖和资源冲突。超标量处理器可以实现指令级并行(Instruction Level Parallelism,ILP),也可以结合硬件多线程技术实现线程级并行。

下图 从概念上说明了以下处理器配置的处理器利用超标量资源的能力的差异:

 

下面是一个使用超标量处理器来实现线程级并行的例子:

假设我们有一个双发射(dual-issue)超标量处理器,它可以在每个时钟周期内发射两条指令,并且支持两个硬件线程。假设我们有以下两个线程:

```
Thread 0:              Thread 1:
LD R1, 0(R2)           LD R5, 0(R6)
ADD R3, R1, R4         SUB R7, R5, R8
ST R3, 0(R2)           ST R7, 0(R6)
```

如果只有一个线程在运行,那么它需要6个时钟周期才能完成,如下所示:

```
Cycle  Thread 0
1      LD R1, 0(R2)
2      stall (waiting for load result)
3      ADD R3, R1, R4
4      ST R3, 0(R2)
5      stall (waiting for store address)
6      stall (waiting for store data)
```

如果两个线程同时运行,并且交替发射指令,那么它们只需要4个时钟周期就能完成,如下所示:

```
Cycle  Thread 0        Thread 1
1      LD R1, 0(R2)    LD R5, 0(R6)
2      stall           SUB R7, R5, R8
3      ADD R3, R1, R4  ST R7, 0(R6)
4      ST R3, 0(R2)    stall
```

可以看出,线程级并行可以有效地利用处理器的资源,提高程序的性能和吞吐量。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/753845.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c++游戏小技巧7:system 综合

目录 1.日常前言: 2.system 1.换标题:title 2.更改运行框大小 mode cons 3.清屏 cls 4.关机 shutdown 1.电脑多累啊,让他休息一下吧(直接关机) 2.电脑虽然很累,但是还想工作一会再睡(定时关机) 3.不让电脑休息的极其不友善…

【统计函数3】——excel常见函数

相关数据资料来源于网易 函数一览: rank、rand、randbetween、floor、int rank函数: 求某单元格在某区域内的排名 RANK(数值,引用区域,降序0/升序1)范围多指定: 分开的范围之间可用逗号隔开,最后再用一个小括号括起来。F4可以快速锁定行和列。…

Python深度强化学习实战 ——OpenAI Gym-CarRacing自动驾驶项目

💭 写在前面:本篇是关于 OpenAI Gym-CarRacing 自动驾驶项目的博客,面向掌握 Python 并有一定的深度强化学习基础的读者。GYM-Box2D CarRacing 是一种在 OpenAI Gym 平台上开发和比较强化学习算法的模拟环境。它是流行的 Box2D 物理引擎的一个…

JS-20 ES5~ES13新特性;var/let/const对比;字符串模板;函数的默认/剩余参数;展开语法;进制表示;Symbol;Set;Map等

目录 1_新的ECMA代码执行描述1.1_词法环境(Lexical Environments)1.2_环境记录(Environment Record) 2_let/const2.1_基本使用2.2_let/const作用域提升 3_作用域对比3.1_var的块级作用域3.2_let/const的块级作用域3.3_var、let、c…

基于springboot+vue的疫情管理系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目介绍…

C语言实现--通讯录管理系统+附详细代码分析过程

文章目录 初始化通讯录实现通讯录的各种功能添加一个联系人的信息删除一个联系人的信息查询指定联系人并打印其信息修改指定联系人的信息打印通讯录中的全部信息通过名字对通讯录中的联系人进行排序 通讯录完整代码示例 初始化通讯录 首先,通讯录中每个联系人的信息…

DAY47:动态规划(十)零钱兑换Ⅱ+组合总和Ⅳ(完全背包求方案总数类型,排列+组合)

文章目录 518.零钱兑换Ⅱ(装满背包方案数,本题是组合方案数)思路DP数组含义递推公式DP数组初始化遍历顺序(重要,不能颠倒)外层物品内层背包的情况外层背包内层物品的情况完全背包求排列数和组合数 完整版总…

HTTP进化史:从HTTP1的简单到HTTP3的强大

文章目录 📈I. HTTP1⚡A. 基本特点⚡B. 特点⚡C. 优缺点 📈II. HTTP2⚡A. 基本特点⚡B. 特点⚡C. 优缺点 📈III. HTTP3⚡A. 基本特点⚡B. 特点⚡C. 优缺点 📈IV. 总结📈附录:「简历必备」前后端实战项目&am…

资深测试整理,APP专项测试方法总结,看这篇就够了...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 APP专项测试 1、…

我们建议您关注另外两个趋势性漏洞。

即 Windows 错误报告服务 (CVE-2023-36874) 和 Windows MSHTML 平台 (CVE-2023-32046) 中的权限提升漏洞。现实生活中就有利用这两个漏洞的案例。 危险之处 要利用 CVE-2023-36874,攻击者需要访问目标计算机,并能够在普通用户默认具有有限权限的计算机上…

ESP32 LVGL:使用图标解决图片过大存不下的问题

背景 在LVGL中,用将图片转为C语言数组的方式储存的时候,图片转换的数组过大,当图片过多时会出现存不下的问题。 因此,可以使用字库图标解决该问题。 方法 将PNG图片转为字库文件 首先,我们将图片通过PS转为SVG矢量…

鸟类识别系统python+TensorFlow+Django网页界面+卷积网络算法+深度学习模型

一、介绍 鸟类识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Django框架,开发网页端操作平台,…

XPath 的基本概念

XPath 的基本概念 引言 1. XPath 的基本概念 1.1 节点 1.2 路径表达式 1.3 轴 2. XPath 的语法和使用方法 2.1 标签定位 2.2 属性定位 2.3 文本定位 2.4 谓语和运算符 3. 示例演示 3.1 示例 1 : Web 自动化测试 3.2 示例 2 :数据提取和处理 3.3 示例 3 &…

pdsh 2.29 安装

下载: wget https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/pdsh/pdsh-2.29.tar.bz2解包: tar jxvf pdsh-2.29.tar.bz2 cd pdsh-2.29/安装: ./configure --prefix/u01/isi/pdsh-2.29/ --with-timeout6…

Spark编程-共享变量(广播变量和累加器)

共享变量是什么 Spark中的两个重要抽象一个是RDD,另一个就是共享变量。 在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。 但是&…

基于STM32 ARM+FPGA伺服控制系统总体设计方案(一)

设计需求 一套完整的伺服控制方案包括了上位机、驱控一体控制器和功率板三者。操作人员 通过上位机发送各种不同指令,然后控制器解析指令后执行相应的伺服功能,其次控 制器将驱动信号传输至功率板驱动电机,最后控制器采集反馈信息进行闭环…

为你带来全新的UGC体验!

当我们开始向更多 UGC 开放元宇宙,你们将有机会发现我们社区在 The Sandbox 中创造的一些令人惊叹的体验。 需要从你们自己的体验中获得灵感,或者只是想玩一些新东西?以下是我们的一些建造者几个月来的工作成果——现在就可以玩! …

JVM学习

文章目录 1 JVM与Java体系结构1.0 Java发展重大事件1.1 虚拟机和Java虚拟机1.3 JVM整体结构1.4 Java代码执行流程1.5 JVM架构模型1.6 JVM的生命周期1.7 JVM发展历程 2 类加载子系统2.1 ClassLoader2.2 用户自定义类加载器2.2.1 为什么需要自定义类加载器2.2.2 自定义类加载器的…

Kong 服务和路由的添加

管理服务 这里参考DB-less-Mode,因为使用的是yaml配置文件的形式,所以所有的相关配置只需要往初始化的kong.yml文件中添加就可以了,就像nginx的配置文件 DB-less-Mode 创建服务 vim /etc/kong/kong.yml services: - name: my-service #…

排查思路----CPU占用过高

1、top查看cpu占用情况 %Cpu(s): 29.4 us, 24.1 sy, 0.0 ni, 10.1 id, 20.4 wa, 0.0 hi, 16.0 si, 0.0 st 发现wa和si都比较高 2、查wa高的问题 iostat -x 1 10%util 接近 100%,说明产生的I/O请求太多,I/O系统已经满负荷,该磁盘存在瓶颈。…