【深度学习:标记数据】为医生标记数据缓解疼痛

news2025/2/27 17:17:01

在这里插入图片描述

【深度学习:标记数据】为医生标记数据缓解疼痛

    • 问题
    • 实验
    • 结果
    • 结论

我开始在物理学方面进行学术研究,但在第一年就退学了(抱歉,休学了)我的博士学位,并在定量金融领域做了很长一段时间。因此,在我第一篇经过同行评审的已发表论文的所有可能主题中:投资组合优化、暗物质特征、密度泛函理论,我最终选择了……在结肠镜检查视频上绘制矩形的主题。我没想到事情会发展到这个地步,但我们到了。但实际上,在结肠镜检查视频上画方框是我研究过的最有趣的问题之一。

这篇文章的目的是回顾我们(包括我在 Encord 的联合创始人 Ulrik)最近发表的关于这个主题的论文:“新型人工智能驱动的软件显着缩短了计算机视觉项目中注释所需的时间”。这篇论文发表在《内窥镜国际公开赛》杂志上,可以在这里找到。这是在伦敦国王学院的合作者 Bu Hayee 博士和 Mehul Patel 博士的灵巧和耐心协助下共同编写的。

为了说服您在已经看到“注释”和“结肠镜检查”这两个词后继续阅读,我们可以首先声明胃肠病学领域对人类福祉非常重要。这既包括癌症发病率,也包括日常慢性疾病。来自 cancer.org:

在美国,结直肠癌是男性和女性癌症相关死亡的第三大原因,也是男性和女性癌症死亡的第二大常见原因。预计 2021 年将造成约 52,980 人死亡。

更普遍的是炎症性肠病(IBD)。2015 年,美国约有 300 万人被诊断出患有 IBD,这种疾病与呼吸系统、肝脏和心血管疾病等的可能性更高有关。

但胃肠病学对人工智能社区也非常重要。它是医疗人工智能商业采用的早期先锋之一。宾得(Pentax)、富士胶片(FujiFilm)和美敦力(Medtronic)等公司都是医疗设备公司的一部分,这些公司正在进入该领域,以建立自己的人工智能范围界定技术。这些模型可以对息肉进行实时检测,并在范围界定过程中充当胃肠病学家的助手,有时甚至可以捕捉到医生的盲点。

在这里插入图片描述

息肉检测在行动

这一领域的进展将成为持怀疑态度的医学界的灯塔,即人工智能不仅仅是数学家和计算机科学家的游乐场,而是一种直接影响人们生活的实用工具。

但是,有一个问题。

问题

与机器学习模型不同,机器学习模型向毫无戒心的注意力受害者提供狂欢的Netflix节目(错误的赌注是你最终观看了一集艾米丽在巴黎),错误或错误诊断溃疡性结肠炎对人们的健康有重大影响。因此,开发的模型需要像机器学习世界中那样万无一失。这需要大量的数据。

从经验上讲,模型往往需要不断增加的数据量来对抗性能停滞。获得 0% 到 75% 的模型准确率可能需要与 75% 到 85% 相同的数据量,这需要与 85% 到 90% 相同的数据量,依此类推。为了获得超过99%的准确率,使用我们目前拥有的方法和模型,您需要将大量数据投入到这个问题中。

问题在于,要使模型从这些数据进行训练,需要对其进行注释。这些注释只能由医生自己有效地完成,他们拥有正确识别和分类患者视频和图像的专业知识。这是对医生时间的巨大消耗。

一个高精度的内窥镜检查模型可能需要一百万个注释帧。假设保守估计每帧 20 秒,包括一到两名其他医生的审核,这相当于 230 天的医生时间,大约相当于一年的工作日。医生在这一年的工作时间里,最好用于治疗和护理病人(以及练习书写)。

这种机会成本正是创办 Encord 的最初动机。我们希望为任何需要进行数据注释的人节省宝贵的时间,医生就是最典型的例子。在建立了我们的平台后,我们想看看它是否真的有效。于是,我们做了一个实验。

实验

我们决定对我们的平台与使用最广泛的开源视频注释工具(CVAT)进行一次简单的 A/B 测试。开放的视频注释工具很难找到,但 CVAT 是 GitHub 上用户最活跃的平台之一,也是 GitHub 上的明星产品。

我们从开源胃肠道数据集(Hyper-Kvasir 数据集)中设置了一个数据样本来执行实验。从论文中:

利用 Hyper-Kvasir 数据集[7] 中的息肉视频子样本,要求五名独立标注者在数据集中的视频中识别出的息肉周围画出边界框。测试集包含 25,744 个帧。

实验装置为

  • 每位注释员将有两个小时的时间学习 Encord,两个小时的时间学习 CVAT
  • 注释者将在两个平台上以相同的顺序运行数据,并使用每个平台的任何可用功能
  • 注释者只能提交他们在流程结束时审查过并满意的图框
  • 两个小时结束后,我们将简单地计算每个平台上每个注释者认可的帧数

Encord 平台(论文中称为 CdV)的强大之处在于其快速训练和使用注释特定模型的能力,但在实验中,没有为注释者提供任何标签或模型种子。他们只能使用在实验时限内用自己标注的数据自行训练的模型。当然,通常情况下不会这样。如果你要标注成百上千帧的数据,你就已经有了模型和情报可以利用,但我们希望尽可能地增加不利因素,让标注者从冷启动开始。

结果

结果不相上下。摘自论文:

在 120 分钟的项目中,CVAT 的平均(±SD)标记帧数为 2241±810(不到总数的 10%),而 CdV 的平均(±SD)标记帧数为 10674±5388(p=0.01)。平均标记速度分别为 18.7/min 和 121/min(增加了 6.4 倍;p=0.04),而 CdV 的标记动态也更快(p<0.0005;图 2)。使用 CdV 时,5 位标注者中有 3 位完成了项目数据集的标注(平均耗时为 99.1±15.2 分钟),而使用 CVAT 时,所有标注者均未完成标注。

在使用 CVAT 时,大多数标注者都无法完成第三段视频的标注。与 CVAT 相比,Encord 能为每位注释者生成更多的标签。最令人鼓舞的是,注释者中最资深的博士,也就是使用任何注释软件经验最少的人,使用 Encord 的效率提高了 16 倍。这正是我们设计该平台的目标用户,因此看到这些结果非常令人鼓舞。这是实现我们假设的一个重大胜利。

简而言之,Encord 效率较高的原因只是大部分贴标工作实现了自动化:

标签制作者可以利用每个平台提供的任何功能采用自己的标签制作策略。在 CVAT 平台上,这包括绘制边界框的工具,以及使用边界框坐标线性插值法在帧间传播边界框的工具。在 CdV 平台上,标注者可以使用手工标注注释工具和 CdV 的嵌入式智能功能。这种嵌入式智能功能包括物体跟踪算法以及训练和运行卷积神经网络(CNN)来标注数据的功能。

即使在完全冷启动的情况下,Encord 的 "嵌入式智能 "也能自动完成实验过程中超过 96% 的标签制作:

使用 CdV 时,只有 3.44%±2.71% 的标签是由注释者手工绘制的。其余的都是通过模型或跟踪算法生成的。因此,在使用 CdV 的情况下,用较少的初始人工输入就能生成更多的标签(图 3)。自动生成的标签仍然需要人工审核和/或调整。对于模型生成的标签,标注者平均需要花费 36.8±12.8 分钟的时间逐帧查看并进行修正。

在这里插入图片描述

在我看来,最有趣的观察是在Encord平台下标签率的加速。对于CVAT,标签率在实验期间保持大致恒定。然而,使用Encord,在平台上每隔20分钟,注释速度中位数提高55%(!)。每个标签对下一个标签的影响微乎其微。希望随着更多的标签和更大的项目,这种效果将导致创建训练数据集的时间(和财务)成本急剧下降。

结论

虽然结果不错,但我们认识到还有很多工作要做。息肉检测是一项相对简单的标注任务,因此虽然对医生来说是一项昂贵的税收,但我们意识到还有更昂贵的税收需要我们去解决。我们的软件旨在处理任意复杂的标记结构,但围绕这种复杂性设计自动化是一个棘手但有趣的问题,我们正在努力解决。

尽管如此,我们已经证明,我们可以为医生节省大量的数据注释时间。给他们提供智能但易用的工具,他们就能节省自己的时间。有了这些,医疗人工智能下一次迭代的瓶颈就不需要是缺乏训练数据了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1477223.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从0到1实现五子棋游戏!!

Hello&#xff0c;好久不见宝子们&#xff0c;今天来给大家更一个五子棋的程序~ 我们今天要讲的内容如下&#xff1a; 文章目录 1.五子棋游戏介绍1.1 游戏玩法介绍&#xff1a; 2.准备工作2.1 具体操作流程 3.游戏程序主函数4.初始化棋盘4.1.定义宏变量4.2 初始化棋盘 5.打印…

git的使用 -- 代码托管平台阿里云

准备工作&#xff1a;git下载&#xff0c;环境配置git config --global user.name/user.email &#xff08;这个是注解不用加&#xff0c;这里是两行命令&#xff0c;前面相同/前后各是一个&#xff09; 注册一个网站码云、阿里云等等创建远程仓库配置SSH公钥 生成公钥 ssh-ke…

流程图怎么画?只需这几步就可以搞定!

你在工作中有没有遇到过下面这些问题&#xff1a; 思维混乱&#xff0c;想快速厘清一个项目的逻辑&#xff1b; 想让客户轻松接受自己的设计构思/产品理念等&#xff1b; 产品流程总是百密一疏&#xff0c;经常遗漏了某种用户需求&#xff1b; 想让小伙伴们快速理解一件事&…

2019年下半年教师资格证考试《综合素质》(中学)题

2.吴老师在指导青年教师时说道&#xff1a;“我们是生物老师&#xff0c;自己就知道生物的多样性和保护这种多样性的重要&#xff0c;所以对各有所长的学生&#xff0c;我们可不能做一个把学生修剪得整整齐齐的园丁。”这种说法表明教师劳动具有&#xff08; C&#xff09;。 A…

JavaScript 基础学习笔记(五):函数、作用域、匿名函数

目录 一、函数 1.1 声明和调用 1.2 形参和实参 1.3 返回值 二、作用域 2.1 全局作用域 2.2 局部作用域 三、匿名函数 3.1 函数表达式 3.2 立即执行函数 一、函数 理解函数的封装特性&#xff0c;掌握函数的语法规则 1.1 声明和调用 函数可以把具有相同或相似逻辑的代…

女性力量崛起,三八妇女节5大品牌创意案例!

随着女性意识的觉醒&#xff0c;越来越多的女性正在看见、勇敢表达自己&#xff0c;并努力提升自己、且坚定地爱自己&#xff01; 从近些年的三八妇女节主题活动中&#xff0c;我们能看到越来越多的品牌都在策划品牌、产品活动时&#xff0c;越来越注重聚焦女性成长、性别议题…

Shopify如何调取开放接口实现页面更新

Shopify提供了开放接口&#xff08;API&#xff09;&#xff0c;使开发人员能够通过编程方式与Shopify平台进行交互&#xff0c;并实现页面的更新。通过调用API&#xff0c;您可以获取和更新商店的数据&#xff0c;包括产品、订单、顾客信息等。下面是使用Shopify开放接口实现页…

【GB28181】wvp-GB28181-pro修改分屏监控为16画面(前端)

引言 作为一个非前端开发人员,自己摸索起来比较费劲,也浪费了很多时间 由于实际开发中,可能预览的画面多于8个,而wvp目前只支持8画面 本文快速帮助开发者修改分屏监控为多画面。例如16画面,20画面等 文章目录 一、 预期效果展示16分割画面20分割画面二、 源码修改-前端修改…

CV论文--2024.2.28

source:CV论文--2024.2.28 1、StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation 中文标题&#xff1a;StreamDiffusion: 一个用于实时交互生成的管道级解决方案 简介&#xff1a;我们介绍了StreamDiffusion&#xff0c;这是专为实时交互式图…

windows IIS 申请和配置https(SSL)的工具 win-acme

win-acme 是一个为Windows平台设计的工具&#xff0c;用于从Lets Encrypt自动获取和续期SSL/TLS证书&#xff0c;特别适合用于IIS&#xff08;Internet Information Services&#xff09;服务器。它的使用相对简单&#xff0c;提供了一个用户友好的命令行界面&#xff0c;以及一…

微服务API网关---APISIX

最近在做微服务调研&#xff0c;看到了apisix这个网关&#xff0c;于是进行了初步了解一下。 微服务是指&#xff0c;将大型应用分解成多个独立的组件&#xff0c;其中每个组件都各自的负责对应项目。 系统的架构大致经历了&#xff1a;单体应用架构–> SOA架构 -->微服务…

5G提速工业物联网发展

对于普通消费者来说&#xff0c;5G的概念可能就是更快的网速&#xff0c;5G带来的上网体验提升是最直观的&#xff0c;因为拿手机可以实时观看高清晰度的视频&#xff0c;且无需太久的等待时间。 而更低的时延与更高的可靠性对C端用户带来的体验改善&#xff0c;相对来说就小很…

文献阅读:Large Language Models are Null-Shot Learners

文献阅读&#xff1a;Large Language Models are Null-Shot Learners 1. 文章简介2. 方法介绍3. 实验考察 & 结论 1. 基础实验 1. 实验设计2. 实验结果 2. 消融实验 1. 小模型上的有效性2. ∅CoT Prompting3. 位置影响4. 组成内容 4. 总结 & 思考 文献链接&#xff1…

langchain加载模型时出现ConnectionError: (ProtocolError(‘Connection aborted.‘的解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

瑞_23种设计模式_组合模式

文章目录 1 组合模式&#xff08;Composite Pattern&#xff09;1.1 介绍1.2 概述1.3 组合模式的结构1.4 组合模式的分类1.5 组合模式的优点1.6 组合模式的使用场景 2 案例一2.1 需求2.2 代码实现 3 案例二3.1 需求3.2 代码实现 &#x1f64a; 前言&#xff1a;本文章为瑞_系列…

基于java+springboot景区行李寄存管理系统设计和实现

基于javaspringboot景区行李寄存管理系统设计和实现 博主介绍&#xff1a;多年java开发经验&#xff0c;专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《1000套》 欢迎点赞 收藏 ⭐留言 文末获取…

低代码平台与MES:智能制造的新篇章

随着工业4.0和智能制造的兴起&#xff0c;企业对于生产过程的数字化、智能化需求日益迫切。传统的MES系统实施周期长、成本高&#xff0c;成为许多企业数字化转型的瓶颈。而低代码开发平台的出现为这一问题提供了新的解决思路。 一、万界星空科技低代码平台的优势&#xff1a; …

Socket网络编程(一)——网络通信入门基本概念

目录 网络通信基本概念什么是网络&#xff1f;网络通信的基本架构什么是网络编程?7层网络模型-OSI模型什么是Socket&#xff1f;Socket的作用和组成Socket传输原理Socket与TCP、UDP的关系CS模型(Client-Server Application)报文段牛刀小试&#xff08;TCP消息发送与接收&#…

c#/ .net8 香橙派orange pi +SSD1306 oled显示屏 显示中文+英文 实例

本文使用香橙派orangepi pi 3ltsSSD1306 oled显示屏作为例子&#xff0c;其它型号的也是一样使用的 在nuget包中安装 Sang.IoT.SSD1306; 以下两个二选一 SkiaSharp;//在window下运行装这个 SkiaSharp.NativeAssets.Linux.NoDependencies;//在linux下运行一定要装这个 在c# .ne…

android高级面试题2020,这套Github上40K+star面试笔记

前言 这里整理的是一些与技术没有直接关系的面试题&#xff0c;但是能够考察你的综合水平&#xff0c;所以不要以为不是技术问题&#xff0c;就不看&#xff0c;往往有时候就是这样一些细节的题目被忽视&#xff0c;而错过了一次次面试机会。 想要成为一名优秀的Android开发&…