深入理解Java中的ForkJoin框架原理

news2024/11/27 10:28:03

在现代多核处理器的时代,有效地利用并行计算可以极大地提高程序的性能。Java中的ForkJoin框架是Java 7引入的一个并行计算框架,它提供了一种简单而高效的方式来利用多核处理器。在本文中,我们将深入探讨ForkJoin框架的原理和工作方式。

一、什么是ForkJoin框架?

ForkJoin框架是Java并发包(java.util.concurrent)的一部分,主要用于并行计算,特别适合处理可以递归划分成许多子任务的问题,例如大数据处理、并行排序等。该框架的核心思想是将一个大任务拆分成多个小任务(Fork),然后将这些小任务的结果汇总起来(Join),从而达到并行处理的效果。

二、ForkJoin框架的核心组件

1. ForkJoinPool

  • 这是执行ForkJoin任务的线程池。线程池中的每个线程都有一个自己的任务队列,当一个线程完成了它的任务后,它会尝试从其他线程的任务队列中“窃取”任务来执行(称为工作窃取(Work-Stealing)的算法)。这种机制有助于平衡负载,使得所有线程都能保持忙碌状态,从而提高 CPU 的利用率。

在工作窃取算法的实现过程中,ForkJoinPool会维护一个优先级队列(priority queue),用于存储等待被窃取的任务。每个工作线程都会维护着一个优先级队列,并使用优先级队列来实现工作窃取。当一个新任务到达时, ForkJoinPool会根据任务的优先级将任务分配给一个空闲的工作线程进行处理。如果所有的工作线程都忙碌或没有空闲状态,则该任务会被加入到优先级队列中等待处理。
需要注意的是,虽然工作窃取算法可以提高并行计算的效率,但它也可能带来一些负面影响。例如,如果某个工作线程一直处于忙碌状态而无法进行窃取操作,那么其他工作线程可能会因为缺乏任务而陷入等待状态,导致执行效率降低。因此,在使用工作窃取算法时需要根据具体情况进行调整和优化。
在这里插入图片描述

  • ForkJoinPool特别适合处理可以递归划分成许多子任务的问题,如大数据处理、并行排序等。开发者需要定义一个ForkJoinTask(通常是RecursiveAction或RecursiveTask的子类),并实现其compute方法,在该方法中描述任务的划分和执行逻辑。

  • 在应用场景方面,ForkJoinPool适合在有限的线程数下完成有父子关系的任务场景,比如快速排序、二分查找、矩阵乘法、线性时间选择等场景,以及数组和集合的运算。

总的来说,ForkJoinPool通过其特有的fork和join机制以及工作窃取算法,提供了一种简单而高效的方式来利用多核处理器进行并行计算

2. ForkJoinTask

  • ForkJoinTask通常是一个需要并行处理的任务,但它比传统的线程更轻量级。大量的任务和子任务可以存在于少量的实际线程中,因为ForkJoinTask使用了一种高效的线程管理策略。主ForkJoinTask被明确提交到ForkJoinPool后开始执行,或者没有参与ForkJoin计算,开始于ForkJoinPool.commonPool()。一旦启动,它通常会启动其它的子任务。

  • ForkJoinTask有两个重要的子类:RecursiveAction和RecursiveTask。RecursiveAction用于执行没有返回值的任务,而RecursiveTask用于执行有返回值的任务。这两个子类都需要实现一个compute()方法来定义任务的逻辑。

  • ForkJoinTask中的fork()方法用于将任务放入队列并安排异步执行,而join()方法则用于等待计算完成并返回计算结果。这些方法使得任务的分解和合并变得非常简单和高效。

三、 ForkJoin框架的工作原理

1. 任务划分(Fork):

  • 开发者需要定义一个ForkJoinTask(通常是RecursiveAction或RecursiveTask的子类),并实现其compute方法。
  • 在compute方法中,任务应该被检查是否可以进一步细分。如果可以,应该使用fork方法将其细分为子任务。
  • fork方法会异步地执行子任务,这意味着子任务会在ForkJoinPool中的一个线程上执行,而不会阻塞当前线程。

2. 任务执行和结果合并(Join):

  • 当一个任务无法再细分时,它应该开始执行其实际的工作。
  • 对于有返回值的任务(RecursiveTask),任务完成时需要返回其结果。
  • 其他任务可以使用join方法等待一个子任务完成,并获取其结果(仅适用于RecursiveTask)。
  • join方法是阻塞的,它会等待子任务完成。但是,由于ForkJoinPool使用了工作窃取算法,即使一个线程在等待子任务完成,它也可以执行其他任务,从而保持CPU的忙碌状态。

在这里插入图片描述

四、ForkJoin的使用

1. 先看下fork/join在stream中的应用:

Fork/Join框架在Java Stream API中有广泛的应用,尤其是在并行流(parallel streams)中。Stream API是Java 8引入的一种新的数据处理方式,它允许开发者以声明式的方式处理数据集合,如转换、过滤、映射、归约等操作。

当使用并行流时,Stream API会利用Fork/Join框架来并行处理数据。具体来说,Stream API会将大的数据集分割成多个小的数据块,然后利用Fork/Join框架的线程池来并行处理这些数据块。每个线程都会处理一个数据块,并将结果合并起来以得到最终的结果。

以下是一个简单的示例,展示了如何使用并行流和Fork/Join框架来计算一个大数组中所有元素的和:

import java.util.Arrays;  
import java.util.concurrent.ForkJoinPool;  
import java.util.stream.LongStream;  
  
public class ForkJoinStreamExample {  
    public static void main(String[] args) {  
        // 创建一个包含大量元素的长整型数组  
        long[] numbers = LongStream.rangeClosed(1, 1000000000L).toArray();  
  
        // 默认使用Fork/Join框架的并行流来计算数组元素的和  
        long sum = Arrays.stream(numbers).parallel().sum();  
  
        // 打印结果  
        System.out.println("Sum of all elements: " + sum);  
    }  
}

我们创建了一个包含大量元素的长整型数组,并使用Arrays.stream(numbers).parallel().sum()来计算数组中所有元素的和。这里,parallel()方法会将流转换为并行流,从而利用Fork/Join框架进行并行处理。sum()方法是一个归约操作,它会将流中的所有元素归约为一个单一的结果。

需要注意的是,虽然并行流可以显著提高处理大数据集的速度,但并不是所有情况下都应该使用它。如果数据集很小,或者每个元素的处理时间非常短,那么并行流可能会引入额外的开销,导致性能下降。因此,在使用并行流之前,最好先进行一些性能测试,以确定是否真正需要并行处理。

另外,值得注意的是,在Fork/Join框架中,任务的划分和合并是由框架自动处理的,而在Stream API中,开发者只需要指定要执行的操作,而不需要关心底层的并行处理细节。这使得使用Stream API进行并行处理变得更加简单和直观。

2. 再看自定义task任务的应用:

import java.util.concurrent.ForkJoinPool;  
import java.util.concurrent.RecursiveTask;  
  
// 继承 RecursiveTask,实现一个计算数组中元素和的任务  
public class SumArrayTask extends RecursiveTask<Integer> {  
  
    // 数组  
    private final int[] array;  
    // 计算的起始索引  
    private final int start;  
    // 计算的结束索引  
    private final int end;  
    // 阈值,当子数组的长度小于此值时,直接计算结果而不再拆分  
    private static final int THRESHOLD = 10;  
  
    // 构造函数  
    public SumArrayTask(int[] array, int start, int end) {  
        this.array = array;  
        this.start = start;  
        this.end = end;  
    }  
  
    // 核心的计算方法  
    @Override  
    protected Integer compute() {  
        // 计算子数组的长度  
        int length = end - start;  
          
        // 如果子数组长度小于阈值,则直接计算该子数组的和  
        if (length <= THRESHOLD) {  
            int sum = 0;  
            for (int i = start; i < end; i++) {  
                sum += array[i];  
            }  
            return sum; // 直接返回结果  
        } else {  
            // 如果子数组长度大于阈值,则拆分任务  
            int middle = start + length / 2; // 计算中点  
            SumArrayTask leftTask = new SumArrayTask(array, start, middle); // 创建左半部分子任务  
            SumArrayTask rightTask = new SumArrayTask(array, middle, end); // 创建右半部分子任务  
              
            // 异步执行左半部分子任务(fork),并等待右半部分子任务的结果(compute)  
            leftTask.fork(); // fork 是不阻塞的,它会将任务提交到 ForkJoinPool 中去异步执行  
            int rightResult = rightTask.compute(); // compute 是阻塞的,它会等待任务完成并返回结果  
              
            // 等待左半部分子任务的结果,并与右半部分子任务的结果合并  
            int leftResult = leftTask.join(); // join 会阻塞,直到任务完成  
            return leftResult + rightResult; // 合并结果并返回  
        }  
    }  
  
    // 主函数,用于测试  
    public static void main(String[] args) {  
        int[] array = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16};  
          
        // 创建一个 ForkJoinPool,使用默认并行级别(通常等于处理器的核心数)  
        ForkJoinPool pool = new ForkJoinPool();  
          
        // 创建一个 SumArrayTask 任务来计算整个数组的和  
        SumArrayTask task = new SumArrayTask(array, 0, array.length);  
          
        // 提交任务到 ForkJoinPool 并获取结果  
        int sum = pool.invoke(task);  
          
        // 输出结果  
        System.out.println("The sum of the array elements is: " + sum);  
    }  
}

在这个示例中,我们创建了一个 SumArrayTask 类,它继承了 RecursiveTask。SumArrayTask 的任务是计算一个整数数组中指定范围内的元素之和。如果数组的范围小于一个给定的阈值(THRESHOLD),则直接计算;否则,任务会在中点处被拆分为两个子任务,然后递归地执行这些子任务。

compute 方法是任务的核心,它根据数组的长度来决定是直接计算结果还是拆分任务。fork 方法用于异步提交左子任务到 ForkJoinPool,而 compute 方法会阻塞等待右子任务的结果。一旦两个子任务都完成,它们的结果会通过 join 方法合并,并返回给调用者。

在 main 方法中,我们创建了一个 ForkJoinPool 实例和一个 SumArrayTask 实例,然后使用 pool.invoke(task) 方法来执行任务并获取最终结果。这个结果被打印到控制台上。

五、ForkJoin框架的优点

  • 自动并行化:通过简单地定义任务和递归地划分它们,开发者可以很容易地实现并行计算,而无需手动管理线程。
  • 工作窃取:ForkJoinPool的工作窃取算法可以自动平衡负载,确保所有处理器核心都得到充分利用。
  • 简单性:尽管其背后的原理可能很复杂,但使用ForkJoin框架的API相对简单,只需要实现少量的方法即可。

六、ForkJoin框架的局限性

  • 递归划分:ForkJoin框架最适合可以递归划分的问题。对于不适合递归划分的问题,使用ForkJoin可能不是最佳选择。
  • 任务开销:由于任务划分和结果合并的开销,对于非常小的任务,使用ForkJoin可能不如使用传统的单线程方法。
  • 异常处理:在ForkJoin框架中处理异常可能比较复杂,因为异常需要在任务链中传播。

七、总结一下

Java中的ForkJoin框架是一个强大而灵活的并行计算工具。通过递归地划分任务和自动地平衡负载,它可以帮助开发者充分利用现代多核处理器的性能。然而,像所有工具一样,了解它的工作原理和局限性是使用它的关键。在适合的场景下,ForkJoin框架可以是一个强大的性能优化工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1425855.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL进阶45讲【7】行锁

1 前言 在上一篇文章中&#xff0c;介绍了MySQL的全局锁和表级锁&#xff0c;今天我们就来讲讲MySQL的行锁。 MySQL的行锁是在引擎层由各个引擎自己实现的。但并不是所有的引擎都支持行锁&#xff0c;比如MyISAM引擎就不支持行锁。不支持行锁意味着并发控制只能使用表锁&…

vue2父组件向子组件传值时,子组件同时接收多个数据类型,控制台报警的问题

最近项目遇到一个问题,就是我的父组件向子组件(公共组件)传值时,子组件同时接收多个数据类型,控制台报警的问题,如下图,子组件明明写了可同时接收字符串,整型和布尔值,但控制台依旧报警: 仔细检查父组件,发现父组件是这样写的: <common-tabletooltip :content=…

数据可视化工具选择指南:六款主流工具的综合评测

随着大数据时代的来临&#xff0c;数据可视化已成为各行业不可或缺的工具。本文将为您介绍市面上六款主流数据可视化工具&#xff0c;包括山海鲸可视化、Echarts、D3.js、Tableau、Power BI和Funnel.io&#xff0c;帮助您更好地了解并选择适合您的工具。 山海鲸可视化 山海鲸…

STM32学习笔记(六) —— 配置系统时钟

1.时钟树 从图中可以看出一共有四个时钟来源&#xff0c;分别是内部高速时钟、内部低速时钟、外部高速时钟接口、外部低速时钟接口&#xff0c;这些时钟源经过内部的倍频分频后提供给各外设使用。其中HSE与LSE需要由外部提供&#xff0c;可以是外部时钟直接输入&#xff0c;也可…

【八大排序】直接插入排序 | 希尔排序 + 图文详解!!

&#x1f4f7; 江池俊&#xff1a; 个人主页 &#x1f525;个人专栏&#xff1a; ✅数据结构冒险记 ✅C语言进阶之路 &#x1f305; 有航道的人&#xff0c;再渺小也不会迷途。 文章目录 一、排序的概念二、直接插入排序2.1 基本思想2.2 适用说明2.3 过程图示2.4 代码实现2.…

《Pandas 简易速速上手小册》第7章:Pandas 文本和类别数据处理(2024 最新版)

文章目录 7.1 文本数据的基本操作7.1.1 基础知识7.1.2 重点案例&#xff1a;客户反馈分析7.1.3 拓展案例一&#xff1a;产品评论的关键词提取7.1.4 拓展案例二&#xff1a;日志文件中的日期提取 7.2 使用正则表达式处理文本7.2.1 基础知识7.2.2 重点案例&#xff1a;日志文件错…

Python学习03 -- 函数相关内容

1.def --- 这个是定义函数的关键字 \n --- 这个在print()函数中是换行符号 1.注意是x, 加个空格之后再y 1.形式参数数量是不受限制的&#xff08;参数间用&#xff0c;隔开&#xff09;&#xff0c;传实参给形参的时候要一一对应 返回值 --- 函数返还的结果捏 1.写None的时…

vue-head 插件设置浏览器顶部 favicon 图标 - 动态管理 html 文档头部标签内容

目录 需求实现11. 安装插件2. 项目内 main.js 引入3. vue页面使用 实现2其他 需求 vue项目中浏览器页面顶部图标可配置 实现1 使用 vue-head 插件实现 vue-head 插件可实现 html 文档中 head 标签中的内容动态配置&#xff08;npm 官网 vue-head 插件&#xff09; 1. 安装插件 …

零基础怎么学鸿蒙开发?

对于零基础的学习者来说&#xff0c;掌握鸿蒙开发不仅是迈向新技术的第一步&#xff0c;更是开拓职业道路的重要机遇。随着鸿蒙系统在各行各业的应用逐渐扩展&#xff0c;对于掌握这一项技术的开发人员需求也随之增长。下文将为大家提供针对零基础学习鸿蒙开发的逻辑&#xff0…

视觉上下料技术在智能制造领域的发展趋势

在智能制造的大潮中&#xff0c;视觉上下料技术凭借其独特的优势&#xff0c;逐渐成为生产线上的“明星”。它不仅提高了生产效率&#xff0c;减少了人工干预&#xff0c;还为智能制造提供了强大的技术支持。那么&#xff0c;视觉上下料技术在智能制造领域的发展趋势如何呢&…

假期刷题打卡--Day20

1、MT1173魔数 一个数字&#xff0c;把他乘以二&#xff0c;会得到一个新的数字&#xff0c;如果这个新数字依然由原数中那些数字组成&#xff0c;就称原数为一个魔数。输入正整数N&#xff0c;检查它是否是一个魔数&#xff0c;输出YES或者NO。 格式 输入格式&#xff1a; …

《Vite 基础知识》基于 Vite4 的 Vue3 项目创建(受 Nodejs 版本限制可参考)

真实的工作中 Node.js 版本不是随意可升级的&#xff0c;此处记录一次折中升级实战~ 本章基于 Vite4 开发&#xff01; Vite5、 Vitepress&#xff0c; 都需要 Node.js 版本 18&#xff0c;20 node/npmVite4Vite5Vitepress14.21.3 / 8.13.2&#x1f4af;20.11.0 / 10.2.4&#…

从零开始学Linux之gcc命令

首先我们需要知道有两种编程语言 编译型语言&#xff1a;要求必须提前将所有源代码一次性转换成二进制指令&#xff0c;也就是生成一个可执行程序&#xff0c;例如C、C、go语言、汇编语言等&#xff0c;使用的转换工具称为编译器。 解释型语言&#xff1a;一边执行一边转换&a…

[NOIP2011 提高组] 聪明的质监员

[NOIP2011 提高组] 聪明的质监员 题目描述 小T 是一名质量监督员&#xff0c;最近负责检验一批矿产的质量。这批矿产共有 n n n 个矿石&#xff0c;从 1 1 1 到 n n n 逐一编号&#xff0c;每个矿石都有自己的重量 w i w_i wi​ 以及价值 v i v_i vi​ 。检验矿产的流程…

muduo库的模拟实现——工具部分

文章目录 一、Buffer模块1.为什么需要Buffer缓冲区2.Buffer模块的设计3.Buffer模块的实现4.Buffer缓冲区的其它设计方案 二、Socket模块1.Socket模块的设计2.Socket代码实现 三、Acceptor模块1.Acceptor模块的设计与实现2.Acceptor模块完整代码实现 四、定时器模块1.时间轮的思…

opencv——将2张图片合并

效果演示: 带有绿幕的图片的狮子提取出来,放到另一种风景图片里! 1. 首先我们要先口出绿色绿幕,比如: 这里将绿色绿色绿幕先转为HSV,通过修改颜色的明暗度,抠出狮子的轮廓。 代码 : import cv2 as cv import numpy as np import matplotlib.pyplot as plt def showI…

正弦波拟合

正弦波拟合是一种常见的数学方法&#xff0c;用于确定最佳匹配给定数据集的正弦波形。这可以用于各种应用&#xff0c;如信号处理、周期性数据分析等。以下举例展示如何进行正弦波拟合。 步骤与方法 收集数据&#xff1a;首先&#xff0c;你需要收集或生成一组数据&#xff0…

食品信息管理系统java项目ssm项目springboot项目

食品信息管理系统java项目ssm项目springboot项目&#xff0c;增删改查均已实现&#xff0c;有批量删除 前端技术: JavaScript&#xff0c;Layui&#xff0c;Html5 后端技术: Java&#xff0c;MySql&#xff0c;Spring&#xff0c;Spring Mvc&#xff0c;SpringBoot&#xff0…

【代码随想录20】669.修剪二叉搜索树 108.将有序数组转换为二叉搜索树 538.把二叉搜索树转换为累加树

目录 669.修剪二叉搜索树题目描述参考代码 108.将有序数组转换为二叉搜索树题目介绍参考代码 538.把二叉搜索树转换为累加树题目描述参考代码 669.修剪二叉搜索树 题目描述 给你二叉搜索树的根节点 root &#xff0c;同时给定最小边界low 和最大边界 high。通过修剪二叉搜索树…

2024.1.28 GNSS 学习笔记

1.基于 地球自转改正卫地距 以及 伪距码偏差 重构定位方程&#xff1a; 先验残差计算公式如下所示&#xff1a; 2.观测值如何定权&#xff1f;权重如何确定&#xff1f; 每个卫星的轨钟精度以及电离层模型修正后的误差都有差异&#xff0c;所以我们不能简单的将各个观测值等权…