Numba坐标索引（CPU + 多线程）

文章目录

一、测试样本 —— 创建样本mask，具有 N 个唯一像素值，每个值有 M 个坐标。
二、加速方法
- （1）多线程加速 —— 每次提取一个像素值，然后遍历图像，匹配并判断其与初始化坐标的关系。
- （2）Numba-CPU加速 —— 每次提取一个像素值，然后遍历图像，匹配并判断其与初始化坐标的关系。
- （3）Numba-CPU加速 —— 只遍历一次图像，匹配并判断其与初始化坐标的关系。

使用Numba索引图像中每个像素值的最小最大坐标（CPU + 多线程）

	输入图像	时耗
（1）多线程（每一个像素值遍历一次图像）	ZYX=(2182, 431, 548)	80.41秒
（2）Numba-CPU（每一个像素值遍历一次图像）	ZYX=(2182, 431, 548)	81.68秒
（3）Numba-CPU（只遍历一次图像并匹配像素值）	ZYX=(2182, 431, 548)	1.56秒

一、测试样本 —— 创建样本mask，具有 N 个唯一像素值，每个值有 M 个坐标。

import numpy as np

def create_mask(shape, num_values):
    """创建一个 uint16 类型的 mask，并为每个像素值设置多个坐标点。
	    :param shape: mask 数组的形状 (z, y, x)
	    :param num_values: 不同的像素值数量
	    :return: mask 数组
    """
    # 初始化 mask 数组
    mask = np.zeros(shape, dtype=np.uint16)

    # 遍历每个像素值并设置多个坐标点
    for value in range(1, num_values + 1):
        # 生成随机坐标
        num_coords = int(shape[0] * shape[1] * shape[2] / num_values * 0.1)  # 每个像素值设置N个坐标点
        for _ in range(num_coords):
            z = np.random.randint(0, shape[0])
            y = np.random.randint(0, shape[1])
            x = np.random.randint(0, shape[2])
            mask[z, y, x] = value

    return mask


if __name__ == '__main__':
	shape = (1024, 1024, 1024)  # 设置 mask 的大小
	num_values = 619  # 不同的像素值数量
	mask = create_mask(shape, num_values)
	
	print(f"mask 数组的形状: {mask.shape}")
	print(f"mask 数组的唯一像素值: {np.unique(mask)}")

二、加速方法

（1）多线程加速 —— 每次提取一个像素值，然后遍历图像，匹配并判断其与初始化坐标的关系。

import numpy as np
import tifffile
import concurrent.futures
import pandas as pd
import time


def calculate_coordinates(target_value, array):
    """在满足条件的N个坐标中，提取最小x/y/z值。
	    备注1：x/y/z可以不在同一个坐标中。
	    备注2：由于需要使用np.argwhere进行坐标索引，故有时耗问题。
    """
    start_time = time.time()
    mask = (array == target_value)  # 创建布尔掩码
    coordinates = np.argwhere(mask)  # 查找True值的坐标

    min_coords = np.min(coordinates, axis=0)  # 获取所有列中每一列的最小值  # 坐标: [z, y, x]
    max_coords = np.max(coordinates, axis=0)  # 获取所有列中每一列的最大值  # 坐标: [z, y, x]
    value = [target_value, *min_coords[::-1], *max_coords[::-1]]  # 坐标: [gray, min_x, min_y, min_z, max_x, max_y, max_z]
    print(f"gray={target_value}", f"最小坐标={min_coords[::-1]}", f"最大坐标：{max_coords[::-1]}", time.time()-start_time)
    return value


def main(image_path, output_path):
    start_time = time.time()

    image = tifffile.imread(image_path)  # 读取图像
    unique_values = np.unique(image)  # 获取图像中的像素唯一值
    sorted_unique_values = np.sort(unique_values)  # 排序
    box3DMap = []

    flag = 1  # 是否加速
    if flag == 1:
        with concurrent.futures.ThreadPoolExecutor(max_workers=os.cpu_count()) as executor:
            futures = [executor.submit(calculate_coordinates, value, image) for value in sorted_unique_values[1:]]

            for future in concurrent.futures.as_completed(futures):
                result = future.result()
                box3DMap.append(result)
    else:  # 不加速版本
        for ii in range(1, len(sorted_unique_values)):
            start_time = time.time()
            
            target_value = ii  # 指定要查找的灰度值
            coordinates = np.argwhere(image == target_value)  # 提取满足条件的坐标
            min_coords = np.min(coordinates, axis=0)  # 获取所有列中每一列的最小值  # 坐标: [z, y, x]
            max_coords = np.max(coordinates, axis=0)  # 获取所有列中每一列的最大值  # 坐标: [z, y, x]
            temp = [ii, *min_coords, *max_coords]
            print(f"gray={ii}", f"最小坐标={min_coords}", f"最大坐标：{max_coords}")
            
            print(f"共用时：{time.time() - start_time}")
            box3DMap.append(temp)

    df = pd.DataFrame(box3DMap, columns=["Gray", "Min_X", "Min_Y", "Min_Z", "Max_X", "Max_Y", "Max_Z"])
    df.to_excel(output_path, index=False, engine='openpyxl')
    print(f'Data saved to={output_path}')
    print(f"计算共用时={time.time()-start_time} 秒")


if __name__ == '__main__':
    image_path = r"F:\annotation.tif"
    output_path = r"F:\output.xlsx"
    main(image_path, output_path)

（2）Numba-CPU加速 —— 每次提取一个像素值，然后遍历图像，匹配并判断其与初始化坐标的关系。

import numpy as np
import tifffile
import time
from numba import njit


@njit
def calculate_coordinates(num_values, array):
    """计算每个唯一值的最小和最大坐标。
	    num_values: 排序后的唯一像素值数组
	    array: 输入图像
	    返回值：每个像素值的最小和最大坐标
    """
    shape = array.shape
    num_values_size = num_values.size
    box3DMap = np.empty((num_values_size, 7), dtype=np.int64)  # 初始化结果数组

    for idx in range(num_values_size):
        target_value = num_values[idx]
        min_coords = np.array([shape[0], shape[1], shape[2]], dtype=np.int64)  # 初始化为图像的最大坐标值
        max_coords = np.array([-1, -1, -1], dtype=np.int64)  # 初始化为图像的最小坐标值

        for i in range(shape[0]):
            for j in range(shape[1]):
                for k in range(shape[2]):
                    if array[i, j, k] == target_value:
                        min_coords[0] = min(min_coords[0], i)
                        min_coords[1] = min(min_coords[1], j)
                        min_coords[2] = min(min_coords[2], k)
                        max_coords[0] = max(max_coords[0], i)
                        max_coords[1] = max(max_coords[1], j)
                        max_coords[2] = max(max_coords[2], k)
        coors = [target_value, min_coords[2], min_coords[1], min_coords[0], max_coords[2], max_coords[1], max_coords[0]]
        print(coors)
        box3DMap[idx] = coors
        
    return box3DMap


def main(image_path, output_path):
    image = tifffile.imread(image_path)  # 读取图像
    unique_values = np.unique(image)  # 获取图像中的像素唯一值
    sorted_unique_values = np.sort(unique_values[unique_values != 0])  # 排序并排除0
    print(f"唯一像素值数量（排除0）：{len(sorted_unique_values)}")

    # Numba 加速
    start_time = time.time()
    box3DMap = calculate_coordinates(sorted_unique_values, image)
	print(f"计算共用时：{time.time() - start_time}")
    
    # 保存到EXCEL中
    import pandas as pd
    df = pd.DataFrame(box3DMap, columns=["Gray", "Min_X", "Min_Y", "Min_Z", "Max_X", "Max_Y", "Max_Z"])
    df.to_excel(output_path, index=False, engine='openpyxl')
    print(f'Data saved to={output_path}')


if __name__ == '__main__':
    image_path = r'F:\annotation.tif'
    output_path = r'F:\output.xls'
    main(image_path, output_path)

（3）Numba-CPU加速 —— 只遍历一次图像，匹配并判断其与初始化坐标的关系。

import numpy as np
import tifffile
import time
from numba import njit


@njit
def calculate_coordinates(num_values, array):
    """计算每个唯一值的最小和最大坐标。
	    num_values: 排序后的唯一像素值数组（排除0）
	    array: 输入图像
	    返回值：每个像素值的最小和最大坐标
    """
    shape = array.shape
    num_values_size = num_values.size
    box3DMap = np.empty((num_values_size, 7), dtype=np.int64)

    # 随机初始化：每个像素值的最小和最大坐标
    min_coords = np.empty((num_values_size, 3), dtype=np.int64)
    max_coords = np.empty((num_values_size, 3), dtype=np.int64)

    # 用最大坐标初始化 min_coords，用最小坐标初始化 max_coords
    for i in range(num_values_size):
        min_coords[i, 0] = shape[0]
        min_coords[i, 1] = shape[1]
        min_coords[i, 2] = shape[2]
        max_coords[i, 0] = -1
        max_coords[i, 1] = -1
        max_coords[i, 2] = -1

    # 为每个唯一值设置索引
    value_to_index = np.zeros(100000, dtype=np.int64)  # 假设最大像素值为255
    for i in range(num_values_size):
        value_to_index[num_values[i]] = i

    print("开始遍历图像，计算坐标...")
    # 遍历图像的所有坐标点
    for i in range(shape[0]):
        for j in range(shape[1]):
            for k in range(shape[2]):
                pixel_value = array[i, j, k]
                if pixel_value == 0:
                    continue
                idx = value_to_index[pixel_value]
                if idx >= 0:
                    min_coords[idx, 0] = min(min_coords[idx, 0], i)
                    min_coords[idx, 1] = min(min_coords[idx, 1], j)
                    min_coords[idx, 2] = min(min_coords[idx, 2], k)
                    max_coords[idx, 0] = max(max_coords[idx, 0], i)
                    max_coords[idx, 1] = max(max_coords[idx, 1], j)
                    max_coords[idx, 2] = max(max_coords[idx, 2], k)

    # 组合最小和最大坐标
    for idx in range(num_values_size):
        coors = [num_values[idx],
                 min_coords[idx, 2], min_coords[idx, 1], min_coords[idx, 0],
                 max_coords[idx, 2], max_coords[idx, 1], max_coords[idx, 0]]
        box3DMap[idx] = coors

    return box3DMap


def main(image_path, output_path):
    print(f"开始读取图像：{image_path}")
    image = tifffile.imread(image_path)  # 读取图像
    unique_values = np.unique(image)  # 获取图像中的像素唯一值
    sorted_unique_values = np.sort(unique_values[unique_values != 0])  # 排序并排除0
    print(f"图像读取完成。唯一像素值数量（排除0）：{len(sorted_unique_values)}")

    # Numba加速
    start_time = time.time()
    print(f"开始计算坐标...")
    box3DMap = calculate_coordinates(sorted_unique_values, image)
    print(f"坐标计算完成，结果条目数：{box3DMap.shape[0]}")
    print(f"计算共用时：{time.time() - start_time}")

    # 保存到EXCEL中
    import pandas as pd
    df = pd.DataFrame(box3DMap, columns=["Gray", "Min_X", "Min_Y", "Min_Z", "Max_X", "Max_Y", "Max_Z"])
    df.to_excel(output_path, index=False, engine='openpyxl')
    print(f"数据已保存到={output_path}")


if __name__ == '__main__':
    # 示例路径，修改为实际文件路径
    image_path = r'F:\annotation.tif'
    output_path = r'F:\output.xls'
    main(image_path, output_path)