Mediapipe实时3D目标检测和跟踪(自动驾驶实现)

news2024/11/29 12:36:15

🚀 导语

3D目标检测是根据物体的形状、位置和方向来识别和定位物体的任务。在2D目标检测中,被检测到的物体仅表示为矩形边界框。3D目标检测任务通过预测物体周围的包围框,可以获取物体的三维位置信息。

在这里插入图片描述

3D目标检测在各行各业都有广泛的应用。一些常见的用途包括:
🎯 机器人技术
🎯 自动驾驶车辆
🎯 医学影像

MediaPipe Objectron是由Google的MediaPipe团队开发的计算机视觉流水线,可以使用Objectron数据集实时实现3D目标检测和跟踪。该数据集包括自行车、书籍、瓶子、相机、谷物盒、椅子、杯子、笔记本电脑和鞋子等9种物体。

该流水线使用在合成数据上训练的机器学习模型来估计场景中物体的三维包围框和姿态。它接收来自相机或视频流的一系列帧作为输入,并输出一系列的3D目标检测和跟踪结果。Objectron利用相机校准、三维物体模型和深度估计等技术组合,实现了高精度的3D目标检测。

🚀MediaPipe实现3D目标检测跟踪算法原理

  1. 数据集和模型训练:数据集收集和标注:使用Objectron数据集,其中包含了物体的图像和相应的3D边界框和姿态标注。模型训练:使用机器学习模型,如卷积神经网络(CNN),通过输入图像进行训练,学习预测物体的3D边界框和姿态。
  2. 相机校准:
    • 内部参数估计:使用相机标定板等方法,通过观察2D图像中已知尺寸的物体,估计相机的内部参数,如焦距和主点坐标。
    • 外部参数估计:通过相机标定板的位置和姿态,结合已知的世界坐标系中的点与其在图像中的对应关系,估计相机的外部参数,包括相机的位置和姿态。
  3. 特征提取和匹配:
    • 特征提取:使用特征提取算法(如SIFT、ORB、SURF等),从图像中提取关键点或特征描述符。
    • 特征匹配:通过匹配不同帧之间的特征点或特征描述符,找到相应的匹配点对。
  4. 3D边界框和姿态估计:
    • 相机投影:通过将2D图像坐标转换为归一化设备坐标,将图像坐标与相机的内部参数关联起来。
    • 三角测量:通过对匹配的特征点或特征描述符进行三角测量,估计物体在3D空间中的位置。
    • 姿态估计:通过对物体的3D点进行旋转和平移操作,将物体的姿态(旋转角度)估计出来。
  5. 目标跟踪:
    • 特征匹配:通过在相邻帧之间匹配特征点或特征描述符,找到物体在不同帧之间的对应关系。
    • 运动模型:使用运动模型来预测物体在下一帧中的位置和姿态。
    • 滤波算法:使用滤波算法(如卡尔曼滤波器、扩展卡尔曼滤波器等)来平滑和修正跟踪结果。
  6. 结果输出:输出3D边界框和姿态信息:根据估计的物体位置、尺寸和姿态,生成输出结果,包括物体的3D边界框的中心坐标、宽度、高度以及旋转角度等信息。

🚀安装MediaPipe和OpenCV

pip install mediapipe
pip install opencv-contrib-python

下面我将使用MediaPipe在图像帧中检测3D物体,并使用OpenCV绘制其周围的三维边界框。

🚀 使用MediaPipe实现3D目标检测

import cv2
import mediapipe as mp
import time
mp_objectron = mp.solutions.objectron
mp_drawing = mp.solutions.drawing_utils

首先,我们需要导入Objectron解决方案和绘图工具,以便检测和绘制物体的3D边界框。

cap = cv2.VideoCapture(0)

然后,我们可以打开视频捕获设备。这将打开计算机上的网络摄像头,并将摄像头捕获的视频存储在cap变量中。

objectron = mp_objectron.Objectron(static_image_mode=False,
                            max_num_objects=5,
                            min_detection_confidence=0.5,
                            min_tracking_confidence=0.7,
                            model_name='Cup')

通过Objectron方法,我们可以对3D目标检测算法进行不同的配置。

  • static_image_mode: 基于我们将使用图像或视频进行3D检测(对于图像为True,对于视频为False)
  • max_num_objects: 定义我们想要在其周围绘制边界框的最大可识别对象数。
  • min_detection_confidence: 检测给定类别所需的阈值。
  • min_tracking_confidence: 在跟踪物体时避免误报的阈值
  • model_name: 定义我们将在3D目标检测模型中使用哪个类别,可以是’Cup’、‘Shoe’、‘Camera’或’Chair’。
while cap.isOpened():
    success, image = cap.read()

    image.flags.writeable = False
    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
    results = objectron.process(image)

    image.flags.writeable = True
    image = cv2.cvtColor(image, cv2.COLOR_RGB2BGR)
    if results.detected_objects:
        for detected_object in results.detected_objects:
            
            mp_drawing.draw_landmarks(image, 
                                      detected_object.landmarks_2d, 
                                      mp_objectron.BOX_CONNECTIONS)
          
            mp_drawing.draw_axis(image, 
                                 detected_object.rotation,
                                 detected_object.translation)

    cv2.imshow('MediaPipe Objectron', cv2.flip(image, 1))
    if cv2.waitKey(10) & 0xFF == ord('q'):
        break
cap.release()
cv2.destroyAllWindows()

当我们通过这个过程时,无法对图像进行写入操作(image.flags.writeable = False),这会稍微提高性能。

然后,我们可以检查图像帧中是否存在任何检测结果。如果有,我们可以绘制2D边界框的标记点,并通过添加附加轴来获取3D边界框。通过旋转,我们可以得到物体在图像帧中的旋转情况,然后我们还将指定物体在图像帧中的平移情况。

在结果中,我们可以获得3D物体检测结果。当我们打印它时,我们可以得到带有x、y、z轴的标记点,这些是检测到的物体的中心点,我们还可以以数组的形式获得检测到的物体的旋转、平移和缩放情况。

Results:

在这里插入图片描述
🚀当我们将3D边界框与2D边界框进行比较时,存在额外的参数。🏹 2D目标检测:

  • 边界框中心的X坐标
  • 边界框中心的Y坐标
  • 边界框的宽度
  • 边界框的高度

🏹 3D目标检测:

  • 边界框中心的X坐标
  • 边界框中心的Y坐标
  • 边界框中心的Z坐标
  • 边界框的宽度
  • 边界框的高度
  • 边界框的长度
  • Roll角度表示绕X轴的旋转
  • Pitch角度表示绕Y轴的旋转
  • Yaw角度表示绕Z轴的旋转

🚀Mediapipe实现自动驾驶功能

我使用了Mediapipe编写了一个小功能,与自动驾驶相关。该功能以第三人称视角为基础(类似于极品飞车游戏),通过分析车辆与行人之间的距离,来判断是否可能发生碰撞,并相应地引导汽车进行停车或转向的动作。

在这里插入图片描述

import cv2
import mediapipe as mp
import time

mp_objectron = mp.solutions.objectron
mp_holistic = mp.solutions.holistic
mp_drawing = mp.solutions.drawing_utils

cap = cv2.VideoCapture(0)

objectron = mp_objectron.Objectron(static_image_mode=False,
                                    max_num_objects=5,
                                    min_detection_confidence=0.5,
                                    min_tracking_confidence=0.7,
                                    model_name='Car')

holistic = mp_holistic.Holistic(static_image_mode=False,
                                model_complexity=2,
                                min_detection_confidence=0.5,
                                min_tracking_confidence=0.5)

# 车辆状态类
class CarState:
    def __init__(self):
        self.position = None
        self.rotation = None

# 行人状态类
class PedestrianState:
    def __init__(self, position):
        self.position = position

# 避障系统类
class ObstacleAvoidanceSystem:
    def __init__(self):
        self.car_state = CarState()
        self.pedestrians = []

    def update_car_state(self, car_position, car_rotation):
        self.car_state.position = car_position
        self.car_state.rotation = car_rotation

    def update_pedestrians(self, pedestrian_positions):
        self.pedestrians = []
        for position in pedestrian_positions:
            pedestrian = PedestrianState(position)
            self.pedestrians.append(pedestrian)

    def check_collision(self):
        if self.car_state.position is not None:
            for pedestrian in self.pedestrians:
                # 在这里实现碰撞检测逻辑
                # 根据车辆和行人的位置进行碰撞检测
                if pedestrian.position is not None:
                    distance = calculate_distance(self.car_state.position, pedestrian.position)
                    if distance < 2.0:  # 示例:定义碰撞距离为2米
                        return True
        return False

# 辅助函数:计算两个点之间的距离
def calculate_distance(point1, point2):
    x1, y1, z1 = point1
    x2, y2, z2 = point2
    distance = ((x2 - x1) ** 2 + (y2 - y1) ** 2 + (z2 - z1) ** 2) ** 0.5
    return distance

# 自动驾驶系统类
class AutonomousDrivingSystem:
    def __init__(self):
        self.obstacle_avoidance_system = ObstacleAvoidanceSystem()

    def process_frame(self, frame):
        frame.flags.writeable = False
        frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)

        # 对车辆进行检测和姿态估计
        objectron_results = objectron.process(frame)
        car_position = None
        car_rotation = None
        if objectron_results.detected_objects:
            for detected_object in objectron_results.detected_objects:
                car_position = detected_object.translation
                car_rotation = detected_object.rotation

                mp_drawing.draw_landmarks(frame,
                                          detected_object.landmarks_2d,
                                          mp_objectron.BOX_CONNECTIONS)

                mp_drawing.draw_axis(frame,
                                     detected_object.rotation,
                                     detected_object.translation)

        # 对行人进行检测和姿态估计
        holistic_results = holistic.process(frame)
        pedestrian_positions = []
        if holistic_results.pose_landmarks:
            for landmark in holistic_results.pose_landmarks.landmark:
                pedestrian_positions.append((landmark.x, landmark.y, landmark.z))

            mp_drawing.draw_landmarks(frame,
                                      holistic_results.pose_landmarks,
                                      mp_holistic.POSE_CONNECTIONS)

        # 更新避障系统的车辆状态和行人状态
        self.obstacle_avoidance_system.update_car_state(car_position, car_rotation)
        self.obstacle_avoidance_system.update_pedestrians(pedestrian_positions)

        # 检测碰撞
        if self.obstacle_avoidance_system.check_collision():
            # 在这里实现避免碰撞的控制逻辑
            # 示例:停车和避让行人
            control_command = ControlCommand(0.0, 0.0)  # 停车
        else:
            # 在这里实现正常行驶的控制逻辑
            # 示例:设定一定的车速和转向角度
            control_command = ControlCommand(0.5, 0.0)

        # 在图像上显示控制指令
        cv2.putText(frame, f"Speed: {control_command.speed} m/s", (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)
        cv2.putText(frame, f"Steering Angle: {control_command.steering_angle} deg", (10, 60), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)

        frame.flags.writeable = True
        frame = cv2.cvtColor(frame, cv2.COLOR_RGB2BGR)
        return frame
        
#主函数控制器
class MainController:
    def init(self):
        self.autonomous_driving_system = AutonomousDrivingSystem()

    def run(self):
        while cap.isOpened():
            success, frame = cap.read()
            if not success:
                break

            frame = self.autonomous_driving_system.process_frame(frame)

            cv2.imshow('MediaPipe Objectron', cv2.flip(frame, 1))
            if cv2.waitKey(10) & 0xFF == ord('q'):
                break

        cap.release()
        cv2.destroyAllWindows()

#主函数
if name == 'main':
    main_controller = MainController()
    main_controller.run()

这段代码是一个基于媒体管道(MediaPipe)的自动驾驶系统的简单实现。以下是代码的详细思路:

  1. 导入所需的库,包括cv2、mediapipe和time。
  2. 初始化MediaPipe的对象:Objectron和Holistic,用于检测和跟踪车辆和行人。
  3. 定义了三个类:CarState、PedestrianState和ObstacleAvoidanceSystem,分别表示车辆状态、行人状态和避障系统。
  4. ObstacleAvoidanceSystem类包含了更新车辆状态和行人状态的方法,以及碰撞检测的方法。
  5. 辅助函数calculate_distance用于计算两个点之间的距离。
  6. AutonomousDrivingSystem类是自动驾驶系统的主要类,包含了处理每帧图像的方法。
  7. process_frame方法中,首先将帧转换为RGB颜色空间,并通过Objectron检测和估计车辆的位置和旋转。
  8. 然后通过Holistic检测和估计行人的位置。
  9. 更新避障系统的车辆状态和行人状态。
  10. 进行碰撞检测,如果发生碰撞,执行停车和避让行人的控制逻辑;如果没有碰撞,执行正常行驶的控制逻辑。
  11. 在图像上显示控制指令,包括车速和转向角度。
  12. 最后,将处理后的帧显示在窗口中,直到按下键盘上的"q"键退出。
  13. 主函数MainController初始化自动驾驶系统,并运行主循环。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/646284.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(2023年最新版)史上最全Python/Java自动化测试学习路线图!没有之一!

废话少说&#xff0c;直接上干货&#xff01; 保证是你2023年看到最全最详细的自动化测试进阶学习路线全栈图&#xff01;&#xff01;赶紧保存&#xff01; 由于全图图片太大上传不了&#xff0c;这里就不展示了。需要的小伙伴们可以文末小卡片联系我 下面展示部分截图&#…

express的使用(四) nodejs转发表单到后台

原文链接 搬砖的林小白-express的使用(四) 个人博客地址&#xff0c;求关注&#xff0c;也希望大家在里面批评我的不足之处 看前提示 本篇所讲述的内容是node端转发前端发送过来的表单到第三方中&#xff0c;应用的场景有很多&#xff0c;如我们经常做的将文件存储到七牛云或…

Cesium教程(十八):可视域分析

Cesium教程(十八):可视域分析 三维可视域分析是计算从某点出发的视线在一定视角范围内能通视的区域。是一种常规的三维空间分析手段。Cesium没有封装完整的可视域分析方法,这里提供简单的可视域分析的简化实现方法。 效果预览 其中需要另外引入四个js文件。下载地址在文章最…

5年测试经验怎么着我也能要个20K吧?没想到被阿里P8问傻了····

都说金三银四是跳槽涨薪季&#xff0c;我也是着急忙慌的准备简历——5年软件测试经验&#xff0c;可独立测试大型产品项目&#xff0c;熟悉项目测试流程…薪资要求&#xff1f;5年测试经验起码能要个20K吧&#xff1f; 我加班肝了一页半简历&#xff0c;投出去一周&#xff0c…

软件测试如何提高自己的工作汇报能力?

汇报自己的工作是一件非常重要的事&#xff0c;但往往被一些人忽视掉。 我有个朋友&#xff0c;他带的组里有一个小伙子&#xff0c;技术能力不错&#xff0c;代码也写得干净漂亮&#xff0c;但是不喜欢汇报自己的工作成果&#xff0c;他的想法是&#xff1a;我做完的东西&…

【Spring源码解读四】IoC容器之AnnotationConfigApplication的refresh()刷新方法其三

finishBeanFactoryInitialization() freezeConfiguration() preInstantiateSingletons() getBean() 这一篇博文主要是记录refresh()方法中的finishBeanFactoryInitialization()方法。对于使用注解注入Bean的方式来说&#xff0c;这个方法是很重要的&#xff0c;它会初始化所…

使用Unity开发一个独立的区块链

Arouse Blockchain [Unity独立区块链] 这是一个学习性质的项目&#xff0c;使用了Unity进行独立区块链游戏的开发。使用此项目&#xff0c;将默认你有一定的Unity基础&#xff0c;如果你是Unity小白&#xff0c;可以先学习Unity&#xff0c;B站有大量的教材。 内容列表 项目的…

武职301-day01

文章目录 实现永和小票页面效果图问题分析开发分析开发步骤order.html页面 问题&#xff1a;HTML代码和CSS样式代码混杂在一起网页中使用样式style修饰常用2种方式自定义样式表base.css 作业 实现永和小票页面 效果图 问题分析 把一个大的开发任务&#xff0c;先进行任务分析…

web前端-ES6语法学习

Vue3.0的学习 ES6的模块化语法ES6 模块化规范的概述ES6 模块化的体验默认导出与默认导入按需导出 和 按需导入直接导入并执行模块中的代码 Promiseasync/awaitEventLoop宏任务和微任务 ES6的模块化语法 ES6中文教程网&#xff1a;https://www.w3cschool.cn/escript6/ ES6 模块…

Makerbase SimpleFOC ESP32 例程8 电机旋钮控制测试

Makerbase SimpleFOC ESP32 例程8 电机旋钮控制测试 第一部分 硬件介绍 1.1 硬件清单 序号品名数量1ESP32 FOC V1.0 主板12YT2804电机2312V电源适配器14USB 线156pin杜邦线2 注意&#xff1a;YT2804是改装的云台无刷电机,带有AS5600编码器&#xff0c;可实现360连续运转。 …

基于java springboot+mybatis OA办公自动化系统设计和实现

基于java springbootmybatis OA办公自动化系统设计和实现 博主介绍&#xff1a;5年java开发经验&#xff0c;专注Java开发、定制、远程、指导等,csdn特邀作者、专注于Java技术领域 作者主页 超级帅帅吴 Java项目精品实战案例《500套》 欢迎点赞 收藏 ⭐留言 文末获取源码联系方…

利用fiddler测试APP及高级应用

我们经常需要用到Fiddler做代理服务器对Web、APP应用进行抓包&#xff0c;以便我们对接口功能进行测试调试&#xff0c;定位问题等。这篇将讲述怎么通过Fiddler对APP进行抓包&#xff0c;以及简单介绍一些高级应用场景。 首先&#xff0c;附上Fiddler使用的环境配置清单&#…

社会心理学(2) 社会心理学的研究方法

下面我们来说 社会心理学的研究方法 那么 首先 要说方法论 有些心理学者 他不分方法和方法论 但是 我们还是将他分开 一般的理解 方法论和方法 具体做法不同 方法论 我们定义为 研究心理学的最高或最原则 指导思想 有了这个指导思想 我们就可以更好的决定 对研究的问题 用…

扫码点餐小程序是什么?为什么现在餐厅都在用扫码点餐?

开餐厅的你有没有遇见一种有这样的情况 爆单的时间点就那么一小段&#xff0c;但是人一多呢&#xff0c;出品和点单很容易混乱&#xff0c;从而流失很多客户。 针对与这种情况&#xff0c;便有了扫码点餐。 小程序是一种为餐饮商家提供的解决方案&#xff0c;它可以帮助商家…

k8s集群删除master节点

1.在另外的master节点执行以下命令 kubectl get node #查看需要删除的节点名称 kubectl delete node k8s-master01 #删除名为k8s-master01的节点 2.在k8s-master01清空集群配置信息 kubeadm reset --cri-socketunix:///var/run/cri-dockerd.sock #因为我使用的是1.…

Redis - 数据结构类型及使用场景详解

一. 简介 Redis 是由 Salvatore Sanfilippo 编写的一个key-value存储系统&#xff0c;是跨平台的非关系型数据库。Redis是一个开源的&#xff0c;使用C语言编写的&#xff0c;遵守BSD协议&#xff0c;支持网络&#xff0c;可基于内存&#xff0c;分布式&#xff0c;可选持久性的…

基于Java健身房管理系统设计实现(源码+lw+部署文档+讲解等)

博主介绍&#xff1a; ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ &#x1f345; 文末获取源码联系 &#x1f345; &#x1f447;&#x1f3fb; 精…

搭建Jmeter分布式压测与监控,轻松实践

对于运维工程师来说&#xff0c;需要对自己维护的服务器性能瓶颈了如指掌&#xff0c;比如我当前的架构每秒并发是多少&#xff0c;我服务器最大能接受的并发是多少&#xff0c;是什么导致我的性能有问题&#xff1b;如果当前架构快达到性能瓶颈了&#xff0c;是横向扩容性能提…

很详细的Django开发入门详解(图文并茂)

1.Django概述 Django是一个开放源代码的Web应用框架&#xff0c;由Python写成。采用了MTV的框架模式&#xff0c;即模型M&#xff0c;视图V和模版T。 Django 框架的核心组件有&#xff1a; 用于创建模型的对象关系映射&#xff1b;为最终用户设计较好的管理界面&#xff1b;…

一些可以参考的文档集合12

之前的文章集合: 一些可以参考文章集合1_xuejianxinokok的博客-CSDN博客 一些可以参考文章集合2_xuejianxinokok的博客-CSDN博客 一些可以参考的文档集合3_xuejianxinokok的博客-CSDN博客 一些可以参考的文档集合4_xuejianxinokok的博客-CSDN博客 一些可以参考的文档集合5_…