【学习记录】Dynaslam源代码魔改-替换MaskRCNN为YoloV5

这两天接了个小任务，需求是替换Dynaslam里面的动态物体识别模块，将MaskRCNN换为YoloV5，这里记录一下过程中遇见的问题。

一、运行Dynaslam

Dynaslam本身是一个基于ORBSLAM2的视觉SLAM框架，论文并没有仔细看过，简单来说就是在ORBSLAM的基础上，加了一动态物体的滤除，这里的滤除使用了两种策略：基于MaskRCNN和基于视觉几何。既然要替换使用的过滤网络，那么首先就是要跑起来这个Dyanslam，从代码来看，本身还是基于ORBSLAM的，但是加入了神经网络的模块，所以引入了很多Python相关的内容，这里配置主要参照下面的链接：
Dynaslam环境配置与代码替换

大多数的问题按照链接进行修改即可，这里补充一下几个链接里没有的问题：

scikit-image库

这个库主要的问题是明明安装上了但是依然显示找不到库，这里网上查了很多办法，有说换版本的有说更新的，本人用的是下面的指令进行的更新，在两台电脑上都修改成功了。

pip install scikit-image --upgrade --user

运行带有mask版本的Dynaslam

在运行Dyanslam的过程中，如果最后两个参数进行了输入，则表明运行时使用了MaskRCNN进行动态物体的过滤，但是在运行时经常会显示不能初始化，这里经过代码的排查，并不是参数或者设备性能的问题，是Dynaslam特征点提取策略的问题。Dynaslam本身是基于ORBSLAM的，在ORBSLAM的初始化时，要求两张图至少要有500对匹配特征点才可以进行初始化，但是在Dynaslam中，由于对场景内的动态物体进行了过滤，导致在提取特征点时原本出现在动态物体上的特征点被遮挡了，所以达不到ORBSLAM初始化的点对数要求，解决方法有两种，一个是修改yaml文件，让提取ORB特征点的时候尽可能提取更多特征点，另一个方法是直接修改初始化的代码，降低点对数要求，两种方法其实都是要让Dynaslam成功初始化。

二、配置Yolov5环境

这一步没有太大的问题，用anaconda创建一个新环境然后配置就可以了，下载yolov5的源码然后用里面的requirement.txt进行配置即可，需要注意的是，很多的环境都需要挂代理去下载，不挂的话要么龟速要么就直接显示查询不到库文件，关于Ubuntu下面如何配置代理文件可以参考下面的链接：Ubuntu环境下配置clash代理

三、代码的魔改

将MaskRCNN替换，其实本来并不是一个很麻烦的内容，从Dynaslam代码来看，只要修改调用的Python文件就可以了，改之前我也是这么想的，但改的过程啥错误都出来了。

Yolov5封装

在改Dynaslam之前，首先要把Yolov5的代码进行封装，具体来说就是让原本predict.py里面通过主函数调用的方法，转换为通过对象进行的调用，这里主要是涉及一些Python基础语法的问题，并且原本通过命令行读取参数的部分现在也用不上了，需要删除一部分函数，最后为了与Dynaslam的接口相对应，需要将传递的参数进行更换，不再使用文件名进行读取，而是直接传递一个numpy的图像。这里放一下封装好的Yolov5，要改的只有一个predict.py，其余并没有什么变化，使用时初始化一个Mask对象并调用GetDynSeg函数传递一张图像即可。

import argparse
import os
import platform
import sys
from pathlib import Path

import numpy
import numpy as np
import torch

FILE = Path(__file__).resolve()
ROOT = FILE.parents[1]  # YOLOv5 root directory
if str(ROOT) not in sys.path:
    sys.path.append(str(ROOT))  # add ROOT to PATH
ROOT = Path(os.path.relpath(ROOT, Path.cwd()))  # relative

from models.common import DetectMultiBackend
from utils.dataloaders import IMG_FORMATS, VID_FORMATS, LoadImages, LoadScreenshots, LoadStreams
from utils.general import (LOGGER, Profile, check_file, check_img_size, check_imshow, check_requirements, colorstr, cv2,
                           increment_path, non_max_suppression, print_args, scale_boxes, scale_segments,
                           strip_optimizer, xyxy2xywh)
from utils.plots import Annotator, colors, save_one_box
from utils.segment.general import masks2segments, process_mask
from utils.torch_utils import select_device, smart_inference_mode
from utils.augmentations import (Albumentations, augment_hsv, classify_albumentations, classify_transforms, copy_paste,
                                 cutout, letterbox, mixup, random_perspective)

class Mask(object):
    def __init__(self):
        self.weights = ROOT / 'yolov5m-seg.pt'  # model.pt path(s)
        self.source = ROOT / 'data/images' # file/dir/URL/glob/screen/0(webcam)
        self.data = ROOT / 'data/coco128.yaml'  # dataset.yaml path
        self.imgsz = (640, 640)  # inference size (height, width)
        self.conf_thres = 0.25  # confidence threshold
        self.iou_thres = 0.45  # NMS IOU threshold
        self.max_det = 1000  # maximum detections per image
        self.device = ''  # cuda device, i.e. 0 or 0,1,2,3 or cpu
        self.view_img = False  # show results
        self.save_txt = False # save results to *.txt
        self.save_conf = False  # save confidences in --save-txt labels
        self.save_crop = False  # save cropped prediction boxes
        self.nosave = False  # do not save images/videos
        self.classes = None  # filter by class: --class 0, or --class 0 2 3
        self.agnostic_nms = False  # class-agnostic NMS
        self.augment = False  # augmented inference
        self.visualize = False  # visualize features
        self.update = False  # update all models
        self.project = ROOT / 'runs/predict-seg'  # save results to project/name
        self.name = 'exp'  # save results to project/name
        self.exist_ok = False,  # existing project/name ok, do not increment
        self.line_thickness = 3  # bounding box thickness (pixels)
        self.hide_labels = False  # hide labels
        self.hide_conf = False  # hide confidences
        self.half = False  # use FP16 half-precision inference
        self.dnn = False  # use OpenCV DNN for ONNX inference
        self.vid_stride = 1  # video frame-rate stride
        self.retina_masks = False
        source = str(self.source)
        save_img = not self.nosave and not source.endswith('.txt')  # save inference images
        self.is_file = Path(source).suffix[1:] in (IMG_FORMATS + VID_FORMATS)
        if self.is_file:
            source = check_file(source)  # download
            # Directories
        self.save_dir = increment_path(Path(self.project) / self.name, exist_ok=self.exist_ok)  # increment run
        ( self.save_dir / 'labels' if self.save_txt else self.save_dir).mkdir(parents=True, exist_ok=True)  # make dir
        # Load model
        self.device = select_device(self.device)
        self.model = DetectMultiBackend(weights=self.weights, device=self.device, dnn = self.dnn, data=self.data, fp16=self.half)
        self.stride, self.names, self.pt = self.model.stride, self.model.names, self.model.pt
        self.imgsz = check_img_size(self.imgsz, s=self.stride)  # check image size
        # Dataloader
        self.bs = 1  # batch_size
        self.dataset = None
        vid_path, vid_writer = [None] * self.bs, [None] * self.bs

    def GetDynSeg(self, image):

        self.img_size = (640,480)
        im0 = image
        im = letterbox(im0, self.img_size, stride=self.stride, auto=False)[0]  # padded resize
        im = im.transpose((2, 0, 1))[::-1]  # HWC to CHW, BGR to RGB
        im = np.ascontiguousarray(im)
        self.model.warmup(imgsz=(1 if self.pt else self.bs, 3, *self.imgsz))  # warmup
        seen, windows, dt = 0, [], (Profile(), Profile(), Profile())
        with dt[0]:
            im = torch.from_numpy(im).to(self.model.device)
            im = im.half() if self.model.fp16 else im.float()  # uint8 to fp16/32
            im /= 255  # 0 - 255 to 0.0 - 1.0
            if len(im.shape) == 3:
                im = im[None]  # expand for batch dim

        # Inference
        with dt[1]:
            pred, proto = self.model(im, augment=self.augment, visualize=False)[:2]

        # NMS
        with dt[2]:
            pred = non_max_suppression(pred, self.conf_thres, self.iou_thres, self.classes, self.agnostic_nms,
                                       max_det=self.max_det, nm=32)

        for i, det in enumerate(pred):  # per image
            seen += 1

            imc = im0.copy() if self.save_crop else im0  # for save_crop

            annotator = Annotator(im0, line_width=self.line_thickness, example=str(self.names))


            if len(det):
                masks = process_mask(proto[i], det[:, 6:], det[:, :4], im.shape[2:], upsample=True)  # HWC
                det[:, :4] = scale_boxes(im.shape[2:], det[:, :4], im0.shape).round()  # rescale boxes to im0 size

                # Segments
                if self.save_txt:
                    segments = reversed(masks2segments(masks))
                    segments = [scale_segments(im.shape[2:], x, im0.shape).round() for x in segments]

                # Print results
                for c in det[:, 5].unique():
                    n = (det[:, 5] == c).sum()  # detections per class

                # Mask plotting
                annotator.masks(masks,
                                colors=[colors(x, True) for x in det[:, 5]],
                                im_gpu=None if self.retina_masks else im[i])
                masks_ = masks.permute(1, 2, 0)

                newmask = np.zeros((masks.shape[1], masks.shape[2]))
                for j, (*xyxy, conf, cls) in enumerate(det[:, :6]):
                    c = int(cls)  # integer class
                    mask=masks_[:,:,j]
                    mask=np.squeeze(mask,-1)
                    if(c==0 ):
                        newmask[mask == 1] = 1
                    import scipy.io as io
                    torch.set_printoptions(profile="full")
                return newmask

Dynaslam接口修改

Dynaslam修改，主要还是因为Python版本的问题，原本使用的MaskRCNN是Python2.7版本，换成YoloV5之后是Python3.7版本，所以需要改很多东西，这里很多东西改的稀里糊涂，简单记录一下还有印象的修改内容。

首先是Python的环境问题，在运行时要将原本的conda环境换成运行yolo的conda环境，缺哪些库就安装哪些库，除此之外，要修改Dynaslam里面的cmakelist，将一些原本指向Python2.7的路径换为Python3.7，这一步看似简单，耗费了一晚上的时间，很多路径问题到现在都没有搞清楚，但是代码确实是跑起来了。

其次是版本更换带来的写法问题，这个涉及一些Python和c++联合编程的知识，在c++里面初始化一个Python对象，在Python2.7里面对应的函数是PyMethod_New，但是在Python3.7里，这个函数被换成了PyInstanceMethod_New，如果换了版本，写法上也需要改，这是个大坑，如果对联合编程不熟悉（比如我），很容易忽略这里的错误。
在这里插入图片描述
还有一个印象比较深刻的bug，是调用Python对象的函数时，在c++的接口里预留了好多的函数，都可以实现调用Python对象的函数，不同的函数写法也是不一样的，主要问题在于，如何正确给函数传递self，也就是Python对象自身，在Python程序里，有时候我们需要self参数来读取对象自身的一些参数，但如果我们要通过c++进行调用，这个self的传递就成了个问题，这里我尝试了两种解决方案，一个是在传参时，将对象本身作为一个参数再次传递回去，比如说使用PyObject_CallMethod这个函数，这个函数的第三个参数是指定后续参数的类型，这时我们可以在这个字段加一个O，表示后续的一个参数是一个对象，然后把这个对象设置为自身，那么就相当于将自身传递给了函数，但这种写法会导致程序在运行时不能执行init函数，也就是初始化的对象没有init，进而导致后续的一系列错误，所以尝试的第二种解决方案，就是在创建对象后，单独调用它的构造函数，这里是参考的c++调用Python方法里面的内容，这种写法虽然不知道什么原理，但确实成功了。
在这里插入图片描述