GLSL教程第9章：计算着色器

9.1 计算着色器的基本概念

计算着色器的主要特点：

9.2 计算着色器的基础知识

1. 创建计算着色器

计算着色器代码：

2. 编译和链接计算着色器

示例代码：

3. 执行计算着色器

示例代码：

9.3 实现并行计算和数据并行处理

1. 图像处理

计算着色器代码（图像模糊）：

2. 物理模拟

粒子系统

计算着色器代码（粒子系统）：

3. 数据处理

示例：数据排序

9.4 应用案例：物理模拟和图像处理

1. 物理模拟

流体模拟

计算着色器代码（简化的流体模拟）：

2. 图像处理

示例：图像边缘检测

计算着色器代码（图像边缘检测）：

9.5 计算着色器的高级应用

1. 深度学习

示例：卷积操作

2. 实时渲染

示例：体积光照

小结

计算着色器（Compute Shader）是图形管线中一种独特的着色器类型，专门用于处理通用计算任务，不局限于图形渲染。计算着色器不直接影响图像的渲染过程，而是通过并行处理大量数据来实现各种计算功能。它使得GPU不仅能够加速图形渲染，还能处理科学计算、物理模拟、图像处理等任务。

9.1 计算着色器的基本概念

计算着色器是一种特殊的着色器，与传统的顶点着色器、片段着色器不同。计算着色器不直接与图形渲染管线中的其他阶段交互，而是通过定义计算任务的执行方式来处理数据。它通过计算工作组（Work Groups）中的计算单元（Work Items）来实现大规模的数据并行处理。

计算着色器的主要特点：

并行计算：计算着色器能够在GPU的多个计算单元上并行执行任务，从而大幅提高计算效率。
无图形渲染：计算着色器不直接影响图形渲染过程，而是用于执行通用计算任务。
灵活的数据访问：计算着色器可以直接读写GPU的缓冲区（Buffer）和纹理（Texture），用于处理各种数据。

+-------------------+
| 计算着色器         |
+-------------------+
         |
         v
+-------------------+
| 计算工作组         |
| +---------------+ |
| | 计算单元       | |
| +---------------+ |
| ...             | |
+-------------------+
         |
         v
+-------------------+
| 缓冲区/纹理        |
+-------------------+

计算着色器的工作流程

解释：

计算着色器：用于执行并行计算任务。
工作组：由多个计算单元组成的计算块。
缓冲区：存储计算数据的区域。
纹理：用于数据存储和访问的图像缓冲区。

9.2 计算着色器的基础知识

计算着色器的基本使用涉及创建着色器程序、设置计算任务、执行计算以及读取计算结果。以下是一个计算着色器的基本实现过程。

1. 创建计算着色器

计算着色器的创建包括编写着色器代码、编译和链接着色器程序。计算着色器的代码使用GLSL编写，并通过OpenGL API创建和管理。

计算着色器代码：

#version 430

layout (local_size_x = 16, local_size_y = 16) in; // 设置计算工作组的大小

layout (binding = 0, rgba32f) uniform image2D imgOutput; // 输出纹理

void main() {
    ivec2 gid = ivec2(gl_GlobalInvocationID.xy); // 获取全局工作项ID
    vec4 color = vec4(float(gid.x) / 512.0, float(gid.y) / 512.0, 0.0, 1.0); // 生成颜色值
    imageStore(imgOutput, gid, color); // 存储颜色到纹理
}

解释：

layout (local_size_x = 16, local_size_y = 16) in：设置工作组的大小。
image2D imgOutput：定义一个输出纹理，用于存储计算结果。
gl_GlobalInvocationID：获取全局工作项ID，用于确定计算位置。

2. 编译和链接计算着色器

编译和链接计算着色器与其他类型的着色器类似，主要包括以下步骤：

创建着色器对象：glCreateShader(GL_COMPUTE_SHADER)
加载着色器代码：glShaderSource()
编译着色器：glCompileShader()
创建程序对象：glCreateProgram()
附加着色器：glAttachShader()
链接程序：glLinkProgram()

示例代码：

GLuint computeShaderID = glCreateShader(GL_COMPUTE_SHADER);
const GLchar* computeShaderSource = /* 计算着色器代码 */;
glShaderSource(computeShaderID, 1, &computeShaderSource, NULL);
glCompileShader(computeShaderID);

GLuint shaderProgramID = glCreateProgram();
glAttachShader(shaderProgramID, computeShaderID);
glLinkProgram(shaderProgramID);

3. 执行计算着色器

计算着色器的执行过程涉及绑定计算着色器、设置资源（如纹理和缓冲区），并调用计算功能。

示例代码：

glUseProgram(shaderProgramID); // 使用计算着色器程序

GLuint textureID; // 输出纹理的ID
glBindImageTexture(0, textureID, 0, GL_FALSE, 0, GL_WRITE_ONLY, GL_RGBA32F); // 绑定输出纹理

glDispatchCompute(32, 32, 1); // 执行计算着色器，设置工作组的数量

glMemoryBarrier(GL_SHADER_IMAGE_ACCESS_BARRIER_BIT); // 等待计算完成

解释：

glBindImageTexture()：绑定输出纹理，指定纹理的目标、格式等。
glDispatchCompute()：启动计算任务，设置计算工作组的数量。
glMemoryBarrier()：确保计算完成后，内存数据的一致性。

9.3 实现并行计算和数据并行处理

计算着色器的强大之处在于它可以处理并行计算任务。通过合理的设计，我们可以利用计算着色器实现高效的数据处理和计算任务。

1. 图像处理

计算着色器可以用于各种图像处理任务，如图像模糊、边缘检测和颜色变换。以下是一个简单的图像模糊实现示例：

计算着色器代码（图像模糊）：

#version 430

layout (local_size_x = 16, local_size_y = 16) in;

layout (binding = 0, rgba32f) uniform image2D imgInput; // 输入纹理
layout (binding = 1, rgba32f) uniform image2D imgOutput; // 输出纹理

void main() {
    ivec2 gid = ivec2(gl_GlobalInvocationID.xy);
    vec4 color = vec4(0.0);

    // 计算模糊效果
    for (int x = -1; x <= 1; ++x) {
        for (int y = -1; y <= 1; ++y) {
            color += imageLoad(imgInput, gid + ivec2(x, y));
        }
    }

    color /= 9.0; // 取平均
    imageStore(imgOutput, gid, color);
}

解释：

imageLoad()：从输入纹理中读取颜色值。
imageStore()：将计算结果存储到输出纹理中。
color /= 9.0：计算模糊效果的平均值。

图像模糊效果图

2. 物理模拟

计算着色器也可以用于物理模拟，如粒子系统、流体模拟和碰撞检测。这些任务通常涉及大量的并行计算，可以通过计算着色器高效地实现。

粒子系统

粒子系统是一种常见的物理模拟应用，通过计算着色器可以高效地模拟粒子的运动和行为。例如，在模拟火焰、烟雾和爆炸效果时，粒子系统能够生成逼真的动态效果。

计算着色器代码（粒子系统）：

#version 430

layout (local_size_x = 256) in;

struct Particle {
    vec4 position;
    vec4 velocity;
};

layout (std430, binding = 0) buffer Particles {
    Particle particles[];
};

uniform float deltaTime;

void main() {
    uint id = gl_GlobalInvocationID.x;

    // 更新粒子位置和速度
    particles[id].velocity += vec4(0.0, -9.8 * deltaTime, 0.0, 0.0); // 重力作用
    particles[id].position += particles[id].velocity * deltaTime;
}

解释：

Particle结构体定义粒子的位置和速度。
particles[]数组存储所有粒子的数据。
deltaTime用于控制粒子的运动步长。

3. 数据处理

计算着色器可以用于处理大规模的数据，如数据排序、矩阵运算和数据统计等。通过计算着色器，可以在GPU上执行复杂的数据处理任务，提高处理效率。

示例：数据排序

#version 430

layout (local_size_x = 256) in;

layout (binding = 0) buffer DataBuffer {
    uint data[];
};

void main() {
    uint id = gl_GlobalInvocationID.x;
    // 实现排序算法（例如冒泡排序、归并排序等）
}

解释：

buffer DataBuffer：定义数据缓冲区，用于存储待排序的数据。
data[]：用于访问和处理数据。

9.4 应用案例：物理模拟和图像处理

1. 物理模拟

计算着色器在物理模拟中的应用包括模拟粒子系统、流体动态和碰撞检测等。这些应用通常涉及大量的并行计算，通过计算着色器可以有效地实现这些复杂的模拟任务。

流体模拟

流体模拟是一种复杂的物理计算任务，通过计算着色器可以高效地实现流体的运动和相互作用。常见的方法包括基于网格的模拟和粒子系统模拟。

计算着色器代码（简化的流体模拟）：

#version 430

layout (local_size_x = 16, local_size_y = 16) in;

layout (binding = 0, rgba32f) uniform image2D velocityField; // 速度场
layout (binding = 1, rgba32f) uniform image2D densityField; // 密度场

uniform float deltaTime;
uniform float viscosity;

void main() {
    ivec2 gid = ivec2(gl_GlobalInvocationID.xy);
    vec4 velocity = imageLoad(velocityField, gid);
    vec4 density = imageLoad(densityField, gid);

    // 简单的流体更新方程
    vec4 newVelocity = velocity + viscosity * deltaTime * vec4(0.0, -9.8, 0.0, 0.0);
    vec4 newDensity = density + deltaTime * newVelocity;

    imageStore(velocityField, gid, newVelocity);
    imageStore(densityField, gid, newDensity);
}

解释：

velocityField：存储流体的速度场。
densityField：存储流体的密度场。
newVelocity和newDensity：通过简单的流体更新方程计算得到的新速度和密度。

2. 图像处理

图像处理任务（如滤镜应用、图像增强和特效处理）也可以通过计算着色器高效地完成。计算着色器能够处理大量的像素数据，从而实现高效的图像处理效果。

示例：图像边缘检测

边缘检测是图像处理中的常见任务，可以通过计算着色器实现。

计算着色器代码（图像边缘检测）：

#version 430

layout (local_size_x = 16, local_size_y = 16) in;

layout (binding = 0, rgba32f) uniform image2D imgInput; // 输入纹理
layout (binding = 1, rgba32f) uniform image2D imgOutput; // 输出纹理

void main() {
    ivec2 gid = ivec2(gl_GlobalInvocationID.xy);
    vec4 color = imageLoad(imgInput, gid);

    float edgeDetectionKernel[9] = float[](
        -1, -1, -1,
        -1,  8, -1,
        -1, -1, -1
    );

    vec4 result = vec4(0.0);
    int index = 0;
    for (int x = -1; x <= 1; ++x) {
        for (int y = -1; y <= 1; ++y) {
            result += edgeDetectionKernel[index] * imageLoad(imgInput, gid + ivec2(x, y));
            index++;
        }
    }

    imageStore(imgOutput, gid, result);
}

解释：

edgeDetectionKernel：定义用于边缘检测的卷积核。
result：存储边缘检测后的结果颜色值。

图像边缘检测效果图

9.5 计算着色器的高级应用

1. 深度学习

随着深度学习的发展，计算着色器在加速神经网络训练和推理中发挥了重要作用。计算着色器可以用于实现卷积操作、矩阵乘法和激活函数等深度学习中的核心计算任务。

示例：卷积操作

#version 430

layout (local_size_x = 16, local_size_y = 16) in;

layout (binding = 0, rgba32f) uniform image2D imgInput; // 输入图像
layout (binding = 1, rgba32f) uniform image2D imgOutput; // 输出图像

uniform float kernel[9]; // 卷积核

void main() {
    ivec2 gid = ivec2(gl_GlobalInvocationID.xy);
    vec4 result = vec4(0.0);

    int index = 0;
    for (int x = -1; x <= 1; ++x) {
        for (int y = -1; y <= 1; ++y) {
            result += kernel[index] * imageLoad(imgInput, gid + ivec2(x, y));
            index++;
        }
    }

    imageStore(imgOutput, gid, result);
}

解释：

kernel：定义卷积操作使用的卷积核。
result：存储卷积操作后的结果。

2. 实时渲染

计算着色器在实时渲染中的应用主要体现在全局光照计算、体积光照和复杂材质渲染等方面。通过计算着色器，可以实现高效的全局光照计算，提高渲染效果的真实感。

示例：体积光照

#version 430

layout (local_size_x = 16, local_size_y = 16) in;

layout (binding = 0, rgba32f) uniform image3D volumeData; // 体积数据
layout (binding = 1, rgba32f) uniform image2D imgOutput; // 输出图像

uniform vec3 lightPosition;
uniform vec3 viewPosition;

void main() {
    ivec3 gid = ivec3(gl_GlobalInvocationID.xyz);
    vec4 color = imageLoad(volumeData, gid);

    // 计算体积光照
    vec3 lightDir = normalize(lightPosition - vec3(gid));
    vec3 viewDir = normalize(viewPosition - vec3(gid));
    float diffuse = max(dot(lightDir, vec3(0.0, 0.0, 1.0)), 0.0);
    float specular = pow(max(dot(reflect(-lightDir, vec3(0.0, 0.0, 1.0)), viewDir), 0.0), 32.0);

    vec4 lighting = color * vec4(diffuse + specular, 1.0);
    imageStore(imgOutput, ivec2(gid.xy), lighting);
}

解释：