[深度学习] 基于切片辅助超推理库SAHI优化小目标识别

news2024/11/16 13:37:43

对象检测是迄今为止计算机视觉中最重要的应用领域。然而,小物体的检测和大图像的推理仍然是实际使用中的主要问题,这是因为小目标物体有效特征少,覆盖范围少。小目标物体的定义通常有两种方式。一种是绝对尺度定义,即以物体的像素尺寸来判断是否为小目标,如在COCO数据集中,尺寸小于32×32像素的目标被判定为小目标。另外一种是相对尺度定义,即以物体在图像中的占比面积比例来判断是否为小目标,例如国际光学工程学会SPIE定义,若目标尺寸小于原图的0.12%则可以判定成小目标。
SAHI: Slicing Aided Hyper Inference(切片辅助超推理)通过图像切片的方式来检测小目标。SAHI检测过程可以描述为:通过滑动窗口将图像切分成若干区域,各个区域分别进行预测,同时也对整张图片进行推理。然后将各个区域的预测结果和整张图片的预测结果合并,最后用NMS(非极大值抑制)进行过滤。用动图表示该识别过程如下:

SAHI的官方仓库地址为:sahi。关于SAHI的使用可以阅读官方demo和官方文档:sahi-demo和sahi-docs。如果想进一步了解SAHI具体工作性能和原理,可以阅读官方发表的论文:Slicing Aided Hyper Inference and Fine-Tuning for Small Object Detection。
SAHI安装指令如下:

pip install sahi

本文所有算法展示效果和代码见:

github: Python-Study-Notes

文章目录

  • 1 SAHI使用
    • 1.1 图像切片
      • 1.1.1 单张图像切片
      • 1.1.2 COCO数据集切片
    • 1.2 图像预测
      • 1.2.1 接口介绍
      • 1.2.2 应用实例
    • 1.3 SAHI工具函数
      • 1.3.1 coco数据集制作与精度分析
      • 1.3.2 coco数据集处理
      • 1.3.3 coco数据集转换
    • 1.4 总结
  • 2 参考

1 SAHI使用

import sahi
# 打印sahi版本
print(sahi.__version__)
0.11.6

1.1 图像切片

SAHI提供了封装好的函数接口,以切分输入图像和其标注数据。切分后的子图及其标注数据可以用于识别,或者保存为本地数据以供模型训练。

1.1.1 单张图像切片

SAHI提供slice_image函数以切分单张图片及其标注文件(仅支持coco标注文件),slice_image函数接口介绍如下:

# 返回SAHI的图像分片结果类SliceImageResult
def slice_image(
    image: Union[str, Image.Image], # 单张图像地址或单个pillow image对象,必填参数
    coco_annotation_list: Optional[CocoAnnotation] = None, # coco标注文件
    output_file_name: Optional[str] = None, # 输出文件名前缀
    output_dir: Optional[str] = None, # 输出文件地址
    slice_height: int = None, # 子图切分高度
    slice_width: int = None, # 子图切分宽度
    overlap_height_ratio: float = None, # 子图高度间的重叠率
    overlap_width_ratio: float = None, # 子图宽度间的重叠率
    auto_slice_resolution: bool = True, # 如果没有设置slice_height和slice_width,则自动确定slice_height、slice_width、overlap_height_ratio、overlap_width_ratio
    min_area_ratio: float = 0.1, # 子图中标注框小于原始标注框占比,则放弃该标注框
    out_ext: Optional[str] = None, # 图像后缀格式
    verbose: bool = False, # 是否打印详细信息
) 

slice_image函数源代码位于sahi/slicing.py中,这段代码可以单步调试看看怎么运行的,主要逻辑如下:

  1. 获得pillow image图像对象

  2. 调用get_slice_bboxes函数切分图像

    • 获得切分参数
    if slice_height and slice_width:
        # 计算重叠像素
        y_overlap = int(overlap_height_ratio * slice_height)
        x_overlap = int(overlap_width_ratio * slice_width)
    elif auto_slice_resolution:
        x_overlap, y_overlap, slice_width, slice_height = get_auto_slice_params(height=image_height, width=image_width)
    
    • 循环切分图像
    # 行循环
    while y_max < image_height:
        # 设置起始切分坐标
        x_min = x_max = 0
        y_max = y_min + slice_height
        # 列循环
        while x_max < image_width:
            x_max = x_min + slice_width
            # 如果图像不够切分,框往左或往上移动
            if y_max > image_height or x_max > image_width:
                xmax = min(image_width, x_max)
                ymax = min(image_height, y_max)
                xmin = max(0, xmax - slice_width)
                ymin = max(0, ymax - slice_height)
                slice_bboxes.append([xmin, ymin, xmax, ymax])
            else:
                slice_bboxes.append([x_min, y_min, x_max, y_max])
            # 下一次切分从本次切分图像x_max-x_overlap开始
            x_min = x_max - x_overlap
        y_min = y_max - y_overlap
    
  3. 保存图片结果和标注结果,并包装返回SliceImageResult对象

以下代码演示了对单张图片进行切片,并将切分后的子图保存到本地。

展示原图

# 展示输入图片
from PIL import Image
# 图像地址:https://github.com/obss/sahi/tree/main/demo/demo_data
image_path = "image/small-vehicles1.jpeg"
img = Image.open(image_path).convert('RGB')
img

png

切分图片

from sahi.slicing import slice_image

# 输出文件名前缀
output_file_name = "slice"
# 输出文件夹
output_dir = "result"

# 切分图像
slice_image_result = slice_image(
    image=image_path,
    output_file_name=output_file_name,
    output_dir=output_dir,
    slice_height=256,
    slice_width=256,
    overlap_height_ratio=0.2,
    overlap_width_ratio=0.2,
    verbose=False,
)
print("原图宽{},高{}".format(slice_image_result.original_image_width, slice_image_result.original_image_height))
# 切分后的子图以形式:图像前缀_所在原图顶点坐标来保存文件
print("切分子图{}张".format(len(slice_image_result.filenames)))

原图宽1068,高580
切分子图15张

展示切分后的子图

import matplotlib.pyplot as plt
from PIL import Image
import math
import os

axarr_row = 3
axarr_col = math.ceil(len(slice_image_result.filenames)/axarr_row)
f, axarr = plt.subplots(axarr_row, axarr_col, figsize=(14,7))
for index, file in enumerate(slice_image_result.filenames):
    img = Image.open(os.path.join(slice_image_result.image_dir,file))
    axarr[int(index/axarr_col), int(index%axarr_col)].imshow(img)

png

1.1.2 COCO数据集切片

SAHI提供slice_coco函数以切分coco数据集(仅支持coco数据集)。slice_coco函数接口介绍如下:

# 返回切片后的coco标注字典文件,coco文件保存地址
def slice_coco(
    coco_annotation_file_path: str, # coco标注文件
    image_dir: str, # coco图像集地址
    output_coco_annotation_file_name: str, # 输出coco标注集文件名,不需要加文件类型后缀
    output_dir: Optional[str] = None, # 输出文件地址
    ignore_negative_samples: bool = False, # 是否忽略没有标注框的子图
    slice_height: int = 512, # 切分子图高度
    slice_width: int = 512, # 切分子图宽度
    overlap_height_ratio: float = 0.2, # 子图高度之间的重叠率
    overlap_width_ratio: float = 0.2, # 子图宽度之间的重叠率
    min_area_ratio: float = 0.1, # 如果没有设置slice_height和slice_width,则自动确定slice_height、slice_width、overlap_height_ratio、overlap_width_ratio
    out_ext: Optional[str] = None,  # 保存图像的扩展
    verbose: bool = False, # 是否打印详细信息
)

slice_coco函数源代码位于sahi/slicing.py中,这段代码可以单步调试看看怎么做的,主要逻辑如下:

  1. 读取coco文件和图片信息
  2. 循环读取coco数据集的图片,每张图片调用get_slice_bboxes函数切分图像
  3. 创建coco dict结果并保存文件

以下代码演示了对coco数据集进行切片,并将切分后的子图和标注文件保存到本地。coco数据集可以包含若干张图片,但是以下代码示例中只包含一张图片,方便演示。

展示数据集

# 展示图像
from PIL import Image, ImageDraw
from sahi.utils.file import load_json
import matplotlib.pyplot as plt
import os

# coco图像集地址
image_path = "image"
# coco标注文件
coco_annotation_file_path="image/terrain2_coco.json"
# 加载数据集
coco_dict = load_json(coco_annotation_file_path)

f, axarr = plt.subplots(1, 1, figsize=(8, 8))
# 读取图像
img_ind = 0
img = Image.open(os.path.join(image_path,coco_dict["images"][img_ind]["file_name"])).convert('RGBA')
# 绘制标注框
for ann_ind in range(len(coco_dict["annotations"])):
    xywh = coco_dict["annotations"][ann_ind]["bbox"]
    xyxy = [xywh[0], xywh[1], xywh[0] + xywh[2], xywh[1] + xywh[3]]
    ImageDraw.Draw(img, 'RGBA').rectangle(xyxy, width=5)
axarr.imshow(img)
<matplotlib.image.AxesImage at 0x210a7583250>

png

切分数据集

from sahi.slicing import slice_coco

# 保存的coco数据集标注文件名
output_coco_annotation_file_name="sliced"
# 输出文件夹
output_dir = "result"

# 切分数据集
coco_dict, coco_path = slice_coco(
    coco_annotation_file_path=coco_annotation_file_path,
    image_dir=image_path,
    output_coco_annotation_file_name=output_coco_annotation_file_name,
    ignore_negative_samples=False,
    output_dir=output_dir,
    slice_height=320,
    slice_width=320,
    overlap_height_ratio=0.2,
    overlap_width_ratio=0.2,
    min_area_ratio=0.2,
    verbose=False
)

print("切分子图{}张".format(len(coco_dict['images'])))
print("获得标注框{}个".format(len(coco_dict['annotations'])))
indexing coco dataset annotations...


Loading coco annotations: 100%|█████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 334.21it/s]
100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.80it/s]

切分子图12张
获得标注框18个

展示切分后的子图和标注框

axarr_row = 3
axarr_col = math.ceil(len(coco_dict['images']) / axarr_row)
f, axarr = plt.subplots(axarr_row, axarr_col, figsize=(10, 7))
for index, img in enumerate(coco_dict['images']):
    img = Image.open(os.path.join(output_dir, img["file_name"]))
    for ann_ind in range(len(coco_dict["annotations"])):
        # 搜索与当前图像匹配的边界框
        if coco_dict["annotations"][ann_ind]["image_id"] == coco_dict["images"][index]["id"]:
            xywh = coco_dict["annotations"][ann_ind]["bbox"]
            xyxy = [xywh[0], xywh[1], xywh[0] + xywh[2], xywh[1] + xywh[3]]
            # 绘图
            ImageDraw.Draw(img, 'RGBA').rectangle(xyxy, width=5)
    axarr[int(index / axarr_col), int(index % axarr_col)].imshow(img)

png

1.2 图像预测

1.2.1 接口介绍

SHAI提供了图像切片预测的封装接口,具体的函数接口如下:

AutoDetectionModel类

SAHI基于AutoDetectionModel类的from_pretrained函数加载深度学习模型。目前支持YOLOv5 models, MMDetection models, Detectron2 models和HuggingFace object detection models等深度学习模型库,如果想支持新的模型库,可以参考sahi/models目录下的模型文件,新建模型检测类。

模型预测

  • 基于get_prediction函数调用模型预测单张图片,也就是直接调用AutoDetectionModel类提供的模型,直接推理单张图片。

  • 基于get_sliced_prediction函数以切分图片的方式进行预测。在get_sliced_prediction函数内部会先切分图片,然后对每个子图单独进行模型推理;如果设置了对整张原图进行推理,那么也会整合原图推理的结果以增加模型精度。最后对所有的预测结果进行nms整合,相近的两个预测框也会进行合并。get_sliced_prediction函数接口如下:

def get_sliced_prediction(
    image,
    detection_model=None,
    slice_height: int = None,
    slice_width: int = None,
    overlap_height_ratio: float = 0.2,
    overlap_width_ratio: float = 0.2,
    perform_standard_pred: bool = True, # 是否单独对原图进行识别
    postprocess_type: str = "GREEDYNMM", # 合并结果的方式,可选'NMM', 'GRREDYNMM', 'NMS'
    postprocess_match_metric: str = "IOS", # NMS匹配方式IOU或者IOS
    postprocess_match_threshold: float = 0.5, # 匹配置信度
    postprocess_class_agnostic: bool = False, # 在合并结果时,是否将不同类别的检测框放在一起处理
    verbose: int = 1, 
    merge_buffer_length: int = None, # 低配设备使用,以加快处理
    auto_slice_resolution: bool = True,
)
  • 基于predict函数进行批处理,predict函数进一步封装了识别代码,如果想使用该函数,阅读predict源代码参数接口即可。

1.2.2 应用实例

直接预测图片

from sahi import AutoDetectionModel
from sahi.predict import get_prediction

# 初始化检测模型,缺少yolov5代码,pip install yolov5即可
detection_model = AutoDetectionModel.from_pretrained(
    model_type='yolov5', # 模型类型
    model_path='./yolov5n.pt', # 模型文件路径
    confidence_threshold=0.3, # 检测阈值
    device="cpu",  # or 'cuda:0'
);
image = 'image/small-vehicles1.jpeg'

# 获得模型直接预测结果
result = get_prediction(image, detection_model)

# result是SAHI的PredictionResult对象,可获得推理时间,检测图像,检测图像尺寸,检测结果
# 查看标注框,可以用于保存为其他格式
for pred in result.object_prediction_list:
    bbox = pred.bbox  # 标注框BoundingBox对象,可以获得边界框的坐标、面积
    category = pred.category  # 类别Category对象,可获得类别id和类别名
    score = pred.score.value  # 预测置信度

# 保存文件结果
export_dir = "result"
file_name = "res"
result.export_visuals(export_dir=export_dir, file_name=file_name)

# 展示结果
from PIL import Image
import os
image_path = os.path.join(export_dir,file_name+'.png')
img = Image.open(image_path).convert('RGB')
img

png

切片预测图片

from sahi import AutoDetectionModel
from sahi.predict import get_sliced_prediction

# 初始化检测模型
detection_model = AutoDetectionModel.from_pretrained(
    model_type='yolov5',
    model_path='yolov5n.pt',
    confidence_threshold=0.3,
    device="cpu",  # or 'cuda:0'
)
image = 'image/small-vehicles1.jpeg'


result = get_sliced_prediction(
    image,
    detection_model,
    slice_height = 256,
    slice_width = 256,
    overlap_height_ratio = 0.2,
    overlap_width_ratio = 0.2,
    perform_standard_pred = True,
)

# result是SAHI的PredictionResult对象,可获得推理时间,检测图像,检测图像尺寸,检测结果
# 查看标注框,可以用于保存为其他格式
for pred in result.object_prediction_list:
    bbox = pred.bbox  # 标注框BoundingBox对象,可以获得边界框的坐标、面积
    category = pred.category  # 类别Category对象,可获得类别id和类别名
    score = pred.score.value  # 预测置信度

# 保存文件结果
export_dir = "result"
file_name = "res"
result.export_visuals(export_dir=export_dir, file_name=file_name)
# 结果导出为coco标注形式
coco_anno = result.to_coco_annotations()
# 结果导出为coco预测形式
coco_pred = result.to_coco_predictions()

# 展示结果
from PIL import Image
import os
image_path = os.path.join(export_dir,file_name+'.png')
img = Image.open(image_path).convert('RGB')
img

Performing prediction on 15 number of slices.

png

相对单张图片直接识别,通过切片的方式能够识别到更多的小目标。由于使用的模型是yolov5n,可以看到一些识别结果不正确,比如同一辆车在不同子图被分别识别为卡车或汽车,一种好的解决办法是将postprocess_class_agnostic参数设置为True,将不同类别的检测框放在一起进行合并,同时降低 postprocess_match_threshold以滤除结果。

image = 'image/small-vehicles1.jpeg'


result = get_sliced_prediction(
    image,
    detection_model,
    slice_height = 256,
    slice_width = 256,
    overlap_height_ratio = 0.2,
    overlap_width_ratio = 0.2,
    perform_standard_pred = True,
    postprocess_match_threshold = 0.2,
    postprocess_class_agnostic = True,
)


# 保存文件结果
export_dir = "result"
file_name = "res"
result.export_visuals(export_dir=export_dir, file_name=file_name)

# 展示结果
from PIL import Image
import os
image_path = os.path.join(export_dir,file_name+'.png')
img = Image.open(image_path).convert('RGB')
img
Performing prediction on 15 number of slices.

png

1.3 SAHI工具函数

SAHI提供多个工具函数以处理COCO数据集,具体使用可以阅读sahi-docs-coco。

1.3.1 coco数据集制作与精度分析

以下代码创建了coco标注数据,并保存到本地

from sahi.utils.file import save_json
from sahi.utils.coco import Coco, CocoCategory, CocoImage, CocoAnnotation,CocoPrediction


# 创建coco对象
coco = Coco()

# 添加类
coco.add_category(CocoCategory(id=0, name='human'))
coco.add_category(CocoCategory(id=1, name='vehicle'))

# 循环遍历图像
for i in range(3):
    # 创建单个图像
    coco_image = CocoImage(
        file_name="image{}.jpg".format(i), height=1080, width=1920)

    # 添加图像对应的标注
    coco_image.add_annotation(
        CocoAnnotation(
            # [x_min, y_min, width, height]
            bbox=[0, 0, 200, 200],
            category_id=0,
            category_name='human'
        )
    )
    coco_image.add_annotation(
        CocoAnnotation(
            bbox=[200, 100, 300, 300],
            category_id=1,
            category_name='vehicle'
        )
    )
    
    # 添加图像预测数据
    coco_image.add_prediction(
      CocoPrediction(
        score=0.864434,
        bbox=[0, 0, 150, 150],
        category_id=0,
        category_name='human'
      )
    )
    coco_image.add_prediction(
      CocoPrediction(
        score=0.653424,
        bbox=[200, 100, 250, 200],
        category_id=1,
        category_name='vehicle'
      )
)
    # 将图像添加到coco对象
    coco.add_image(coco_image)

# 提取json标注数据,不会保存图像预测结果
coco_json = coco.json

# 将json标注数据保存为json本地文件
save_json(coco_json, "coco_dataset.json")

# 提取预测结果json文件,并保存到本地
predictions_array = coco.prediction_array
save_json(predictions_array, "coco_predictions.json")

当我们获得了预测数据,我们可以基于pycocotools工具分析预测数据的精度,pycocotools是目标检测必备工具,官方仓库地址为cocoapi,结果分析代码如下:

# 需要单独安装pycocotools
from pycocotools.cocoeval import COCOeval
from pycocotools.coco import COCO

coco_ground_truth = COCO(annotation_file="coco_dataset.json")
coco_predictions = coco_ground_truth.loadRes("coco_predictions.json")

coco_evaluator = COCOeval(coco_ground_truth, coco_predictions, "bbox")
# 进行匹配计算
coco_evaluator.evaluate()
# 进行结果的累加
coco_evaluator.accumulate()
# 输出结果
coco_evaluator.summarize()
loading annotations into memory...
Done (t=0.00s)
creating index...
index created!
Loading and preparing results...
DONE (t=0.00s)
creating index...
index created!
Running per image evaluation...
Evaluate annotation type *bbox*
DONE (t=0.00s).
Accumulating evaluation results...
DONE (t=0.01s).
 Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.200
 Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 1.000
 Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.000
 Average Precision  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = -1.000
 Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = -1.000
 Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.200
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.200
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.200
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.200
 Average Recall     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = -1.000
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = -1.000
 Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.200

统计数据集标注信息

from sahi.utils.coco import Coco

coco = Coco.from_coco_dict_or_path("coco_dataset.json")

# 获得数据集状态,指标说明看字段名就能懂
stats = coco.stats
stats
indexing coco dataset annotations...


Loading coco annotations: 100%|████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1504.59it/s]





{'num_images': 3,
 'num_annotations': 6,
 'num_categories': 2,
 'num_negative_images': 0,
 'num_images_per_category': {'human': 3, 'vehicle': 3},
 'num_annotations_per_category': {'human': 3, 'vehicle': 3},
 'min_num_annotations_in_image': 2,
 'max_num_annotations_in_image': 2,
 'avg_num_annotations_in_image': 2.0,
 'min_annotation_area': 40000,
 'max_annotation_area': 90000,
 'avg_annotation_area': 65000.0,
 'min_annotation_area_per_category': {'human': 40000, 'vehicle': 90000},
 'max_annotation_area_per_category': {'human': 40000, 'vehicle': 90000}}

预测结果过滤

from sahi.utils.file import save_json
from sahi.utils.coco import remove_invalid_coco_results

# 去除预测结果中的无效边界框,如边界框坐标为负的结果
coco_results = remove_invalid_coco_results("coco_predictions.json")

save_json(coco_results, "fixed_coco_result.json")

# 根据数据集实际标注信息,进一步去除边界框坐标超过图像长宽的结果
coco_results = remove_invalid_coco_results("coco_predictions.json", "coco_dataset.json")

1.3.2 coco数据集处理

切分数据集

from sahi.utils.coco import Coco

# 指定coco文件
coco_path = "coco_dataset.json"

# 初始coco对象
coco = Coco.from_coco_dict_or_path(coco_path)

# 拆分数据集为训练集和验证集,训练集图像占比0.85
result = coco.split_coco_as_train_val(
  train_split_rate=0.85
)

# 保存训练集和验证集
save_json(result["train_coco"].json, "train_split.json")
save_json(result["val_coco"].json, "val_split.json")
indexing coco dataset annotations...


Loading coco annotations: 100%|████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 3005.95it/s]

修改标注类别

from sahi.utils.coco import Coco
from sahi.utils.file import save_json


coco = Coco.from_coco_dict_or_path("coco_dataset.json")
print("标注类别:{}".format(coco.category_mapping))

# 修改数据集类别
# 将标注中human类的索引改为3,将原先vehicle类的标注删除
# 新加big_vehicle类和car类
desired_name2id = {
  "big_vehicle": 1,
  "car": 2,
  "human": 3
}
# 更新标注类别
coco.update_categories(desired_name2id)

print("修改后标注类别:{}".format(coco.category_mapping))

# 保存结果
save_json(coco.json, "updated_coco.json")
indexing coco dataset annotations...


Loading coco annotations: 100%|████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1002.78it/s]

标注类别:{0: 'human', 1: 'vehicle'}
修改后标注类别:{1: 'big_vehicle', 2: 'car', 3: 'human'}

按照标注框面积过滤数据集

from sahi.utils.coco import Coco
from sahi.utils.file import save_json

# 打开标注数据
coco = Coco.from_coco_dict_or_path("coco_dataset.json")

# 过滤包含标注框面积小于min的图像
area_filtered_coco = coco.get_area_filtered_coco(min=50000)
# 过滤标注框面积不在[min,max]的图像
area_filtered_coco = coco.get_area_filtered_coco(min=50, max=80000)
# 筛选同时符合多个类别面积要求的图像
intervals_per_category = {
  "human": {"min": 20, "max": 30000},
  "vehicle": {"min": 50, "max": 90000},
}
area_filtered_coco = coco.get_area_filtered_coco(intervals_per_category=intervals_per_category)

# 导出数据
save_json(area_filtered_coco.json, "area_filtered_coco.json")
indexing coco dataset annotations...


Loading coco annotations: 100%|████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1503.69it/s]

过滤无标注的图片

from sahi.utils.coco import Coco
from sahi.utils.file import save_json
# 去除无标注框的图片
coco = Coco.from_coco_dict_or_path("coco_dataset.json", ignore_negative_samples=True)
# 导出数据
# save_json(coco.json, "coco_ignore_negative.json")
indexing coco dataset annotations...


Loading coco annotations: 100%|████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 3007.39it/s]

裁剪标注框

from sahi.utils.coco import Coco
from sahi.utils.file import save_json


coco_path = "coco_dataset.json"

# 将溢出边界框剪裁为图像宽度和高度
coco = Coco.from_coco_dict_or_path(coco_path, clip_bboxes_to_img_dims=True)

# 对已有coco对象,将溢出边界框剪裁为图像宽度和高度
coco = coco.get_coco_with_clipped_bboxes()

save_json(coco.json, "coco.json")
indexing coco dataset annotations...


Loading coco annotations: 100%|████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1007.04it/s]

合并coco数据集

# from sahi.utils.coco import Coco
# from sahi.utils.file import save_json

# coco_1 = Coco.from_coco_dict_or_path("coco1.json", image_dir="images_1/")
# coco_2 = Coco.from_coco_dict_or_path("coco2.json", image_dir="images_2/")

# # 合并数据集
# coco_1.merge(coco_2)

# # 保存
# save_json(coco_1.json, "merged_coco.json")

下采样数据集

from sahi.utils.coco import Coco
from sahi.utils.file import save_json
coco_path = "coco_dataset.json"

coco = Coco.from_coco_dict_or_path(coco_path)

# 用1/10的图像创建Coco对象
# subsample_ratio表示每10张图像取1张图像
subsampled_coco = coco.get_subsampled_coco(subsample_ratio=10)

# 仅对包含标注框为category_id的图像进行下采样,category_i=-1时表示负样本
subsampled_coco = coco.get_subsampled_coco(subsample_ratio=10, category_id=0)

# 保存数据集
save_json(subsampled_coco.json, "subsampled_coco.json")
indexing coco dataset annotations...


Loading coco annotations: 100%|████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1512.19it/s]

上采样数据集

from sahi.utils.coco import Coco
from sahi.utils.file import save_json
coco_path = "coco_dataset.json"

coco = Coco.from_coco_dict_or_path(coco_path)

# 每个样本重复10次
upsampled_coco = coco.get_upsampled_coco(upsample_ratio=10)


# 仅对包含标注框为category_id的图像进行采样,category_i=-1时表示负样本
subsampled_coco = coco.get_upsampled_coco(upsample_ratio=10, category_id=0)


# 导出数据集
save_json(upsampled_coco.json, "upsampled_coco.json")
indexing coco dataset annotations...


Loading coco annotations: 100%|████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1503.51it/s]

1.3.3 coco数据集转换

导出为yolov5格式并分割数据集

from sahi.utils.coco import Coco

# 注意image_dir路径
coco = Coco.from_coco_dict_or_path("coco_dataset.json", image_dir="images/")

# 导出为yolov5数据集格式,train_split_rate设置训练集数据比例
# coco.export_as_yolov5(
#   output_dir="output/",
#   train_split_rate=0.85
# )
indexing coco dataset annotations...


Loading coco annotations: 100%|████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 1002.22it/s]

将训练集和验证集导出为yolov5格式

from sahi.utils.coco import Coco, export_coco_as_yolov5

# 注意image_dir路径
train_coco = Coco.from_coco_dict_or_path("train_split.json", image_dir="images/")
val_coco = Coco.from_coco_dict_or_path("val_split.json", image_dir="images/")

# 导出数据集
# data_yml_path = export_coco_as_yolov5(
#   output_dir="output",
#   train_coco=train_coco,
#   val_coco=val_coco
# )
indexing coco dataset annotations...


Loading coco annotations: 100%|████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 1002.34it/s]


indexing coco dataset annotations...


Loading coco annotations: 100%|████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1003.42it/s]

1.4 总结

目标检测过程中,通过对高分辨率小目标图像进行滑动窗口切片,能够有效提高大分辨率小目标图像的识别精度。但是滑动切片识别有需要注意的地方:

  • 需要图像数据集是否符合通用的高分辨小目标图像标准,如果对普通数据集进行切片识别容易拆分已有目标物体,这样做浪费推理时间也会导致最终检测结果精度不高。
  • 滑动切片对识别模型的精度有一定的要求,一般来说模型越大精度越高,但是切片识别所花费的推理时间也越长。所以需要平衡模型精度和模型推理时间,而且也要确定滑动切片的尺度。
  • 滑动切片识别在识别目标类别较少的任务中,识别精度更高,因为后处理能过滤很多重复识别检测框。

如果想了解其他的小目标识别方案,可以看看paddle家的paddledetection-smalldet。paddle提供了基于原图和基于切图的小目标识别方案,也提供了统计数据集尺寸分布的代码(该统计代码对某些特定的数据集效果不好,具体原因看看代码)。推荐看看PaddleDetection的小目标识别方案,做的很不错。

2 参考

  • sahi
  • sahi-demo
  • sahi-docs
  • Slicing Aided Hyper Inference and Fine-Tuning for Small Object Detection
  • sahi/slicing.py
  • sahi/models
  • sahi-docs-coco
  • cocoapi
  • paddledetection-smalldet

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/136764.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【小程序】自定义组件

文章目录组件的创建与引用自定义组件的样式自定义组件的数据、方法和属性data数据methods 方法properties 属性数据监听器纯数据字段组件的生命周期组件所在页面的生命周期插槽单个插槽多个插槽父子组件之间的通信behaviors组件的创建与引用 创建一个组件的步骤&#xff1a; …

发票额度报销最优排列组合问题

1、问题描述 因为我的公司每个月给员工会有一定的交通费额度&#xff0c;需要拿发票去报销才能获得的。要求的是发票总金额不能大于报销的额度。因此在实际报销的时候&#xff0c;你要一张张发票去排列组合经可能的把报销金额往报销额度那里去凑。比如你有1000元额度&#xff0…

Unity 3D JavaScript 脚本基础||Unity 3D C# 脚本基础

变量 数值变量。var a1000;var b3.1415926;字符串变量。 是由单引号或双引号括起来的 Unicode 字符序列。 布尔值。 只有 true 和 false 。用来描述某个事物为真或为假。 数组 是数据的集合&#xff0c;数组中的每一个元素都有自己独有的下标&#xff0c;下标从0开始计数。 表…

《收获,不止Oracle》读书笔记之第三章逻辑体系世界

1.数据库有序的逻辑体系 2.逻辑体系从老余养殖细细说起 推出的逻辑结构是&#xff1a;表空间&#xff08;tablespace&#xff09;、段&#xff08;segment&#xff09;、区&#xff08;extent&#xff09;、块&#xff08;block&#xff09;。Oracle server正是有条理地通过表空…

基础数学(七)——线性方程组的数值解法

文章目录考试要求基础知识一般求解思路消元法高斯消元法小主元导致的计算失误高斯列主元素消去法&#xff08;期末考试要求之一&#xff09;高斯消元法例题&#xff08;期末必考&#xff09;高斯消元法的优缺点减少fill-in现象&#xff08;了解&#xff09;矩阵分解Doolittle分…

【ROS】——常用命令(五)

文章目录前言1. rosnode1.1 rosnode list 列出活动节点1.2 rosnode ping 测试到节点的连接状态1.3 rosnode info 打印节点信息1.4 rosnode machine 列出指定设备上节点1.5 rosnode kill 杀死某个节点1.6 rosnode cleanup 清除不可连接的节点2. rostopic2.1 rostopic list(-v)2.…

【学习】深度强化学习

李宏毅深度学习一、深度强化学习Deep Reinforcement Learning (RL)什么是RL&#xff1f;&#xff08;三步骤&#xff09;计算loss计算A版本0版本1版本2版本32、梯度方法收集训练数据:探索3、actor criticMCTD版本3.5一、深度强化学习Deep Reinforcement Learning (RL) 什么是R…

【回答问题】ChatGPT上线了!给我推荐20个比较流行的图像语义分割模型

给我推荐20个比较流行的图像语义分割模型 在这里列出20个比较流行的图像语义分割模型&#xff1a;U-Net Mask R-CNN Fully Convolutional Network (FCN) SegNet DeepLab v3 PSPNet ENet ICNet RefineNet DenseASPP DenseNet LinkNet FPN BiSeNet ENAS Deeplab v3 GCN CRF-RNN …

Linux环境变量

文章目录什么是环境变量&#xff1f;什么是本地变量&#xff1f;如何获取环境变量&#xff1f;在shell中在程序中如何添加/删除环境变量&&本地变量&#xff1f;在shell中在程序中为什么环境变量能够被子进程继承&#xff1f;什么是环境变量&#xff1f; 环境变量是进程…

Vue初识系列【1】

文章目录一 前端体系1.1 前端三要素1.2 JavaScript 框架1.3 JavaScript 构建工具1.4 前端所需后端技术1.5 UI框架二 前后端分离史2.1 后端为主的 MVC 时代&#xff08;web1.0&#xff09;2.2 基于 AJAX 带来的 SPA 时代(web2.0)2.3 前端为主的 MV* 时代2.4 NodeJS 带来的全栈时…

OBS 进阶 音频面板优化

因为,面板高度就那么大,如果声音源很多的话,就有点乱。 优化目的:静音的,自动放在底部,这样,音频面板上面的都是没有静音的,也是我们最关注的部分。 目录 一、音频面板优化 1、不想要音频面板的title,将其去掉

【LeetCode每日一题】【2023/1/3】2042. 检查句子中的数字是否递增

文章目录2042. 检查句子中的数字是否递增方法1&#xff1a;直接遍历写法2&#xff1a;按本题特有条件方法2&#xff1a;栈方法3&#xff1a;std::stringstream写法22042. 检查句子中的数字是否递增 LeetCode: 2042. 检查句子中的数字是否递增 简单\color{#00AF9B}{简单}简单 句…

202301-第一周资讯

大家好&#xff0c;欢迎来到本周资讯&#xff0c;在过去的一周内呢&#xff0c;我们在示例DEMO、文档、教学视频上都有了较多的产出并且帮助大家解决了不少问题&#xff0c;赶紧看看上周成果吧&#xff01; 目录 DEMO 动态TopN报表 导出图文报告的脚本示例 Superpage pc端…

【FPGA】基本实验步骤演示 | Verilog编码 | 运行合成 | 设备/引脚分配 | 综合/实施 | 设备配置

写在前面&#xff1a;本章的目的是让你理解与门、或门和非门的行为&#xff0c;并使用 Verilog 语言实现多输入与门、或门和非门。在生成输入信号之后&#xff0c;你需要通过模拟来验证这些门的操作&#xff0c;并使用 FPGA 来验证 Verilog 实现的电路的行为。 0x00 引入&#…

Vue+Echarts监控大屏实例十六:Echarts对接天地图插件开发

一、实例概述 本实例实现echarts使用天地图组件的开发,通过修改echarts中百度地图及高德地图插件实现echarts中使用天地图的使用。本实例实现对于监控界面的相关开发资料,提供实例源码、开发过程视频及实现过程。   1. Echarts参考文档: echarts   2. 高德地图插件:ech…

P1455 搭配购买

题目描述 明天就是母亲节了&#xff0c;电脑组的小朋友们在忙碌的课业之余挖空心思想着该送什么礼物来表达自己的心意呢&#xff1f;听说在某个网站上有卖云朵的&#xff0c;小朋友们决定一同前往去看看这种神奇的商品&#xff0c;这个店里有 nn 朵云&#xff0c;云朵已经被老板…

非Web服务弱口令检查工具下载与使用

今天继续给大家介绍渗透测试相关知识&#xff0c;本文主要内容是非Web服务弱口令检查工具下载与使用。 免责声明&#xff1a; 本文所介绍的内容仅做学习交流使用&#xff0c;严禁利用文中技术进行非法行为&#xff0c;否则造成一切严重后果自负&#xff01; 再次强调&#xff1…

操作系统的运行机制和体系结构

文章目录&#x1f380;前言&#xff1a;本篇博客知识总览&#x1f3c5;运行机制&#x1f387;两种指令&#x1f387;两种状态&#x1f387;两种程序&#x1f3c5;操作系统的内核&#x1f387;内核概念&#xff1a;&#x1f3c5;操作系统的体系结构&#x1f3af;最常考点&#x…

DevOps - Jenkins可视化流水线(后端部分)

目录 &#x1f9e1;创建DevOps工程 &#x1f9e1;拉取代码 &#x1f9e1;项目编译 &#x1f9e1;构建镜像 &#x1f9e1;推送镜像 &#x1f9e1;部署到Dev环境 &#x1f9e1;邮件功能 &#x1f9e1;激活微服务 &#x1f49f;这里是CS大白话专场&#xff0c;让枯燥的学习…

zookeeper下载安装

1、环境准备 ZooKeeper服务器是用Java创建的&#xff0c;它运行在JVM之上。需要安装JDK 7或更高版本。 2、上传 将下载的ZooKeeper放到/opt/ZooKeeper目录下 #上传zookeeper altp put f:/setup/apache-zookeeper-3.5.6-bin.tar.gz #打开 opt目录 cd /opt #创建zooKeeper目录…