数据标注赋能机器学习进行内容审核

news2024/10/7 12:19:12

数据标注一直以来都是人工智能的基础,是机器学习得以训练的不可或缺的步骤。随着互联网的兴起,如何创建和维护一个健康的网络环境将成为互联网平台不断解决的问题,但对于与日俱增的用户增长和铺天盖地的网络信息,人工审核内容变得不切实际,企业纷纷转向机器学习的研发以便高效进行内容审核。

机器学习如何优化内容审核

互联网用户已经超过 45 亿,这个数字还在成指数增长。这些用户每天产生数十亿张图像、视频、消息、帖子和其他内容类型。必须以某种方式对这些内容进行把控,因为大多数互联网用户都希望在访问自己喜欢的社交媒体平台或在线零售商时获得安全、积极的体验。内容审核是针对这一目的的解决方案:它会删除所有隐私、粗话或毁谤、伪造、欺诈、有害或对企业不友好的数据。 传统意义上,各公司依靠人工来完成必要的内容审核,但随着使用量和内容的增长,这种方法不再经济有效。许多企业改为投资机器学习 策略,以创建可自动审核内容的算法。 借助人工智能进行内容审核,在线企业可以更快地扩展规模,并以对用户而言更为一致的方式优化内容审核。这并不能消除对人工审核员(人机协同)的需求,人工审核员仍能提供真实监控,在确保准确性的同时处理更多前后相关的更细微内容问题。但这的确减少了审核员需审阅的内容量,这是积极的一面:过多接触有害内容会对心理健康产生不利影响。将这项艰巨的任务交由机器完成,对公司、员工和用户都有好处。

内容审核在现实世界中的应用

各公司将基于机器学习的内容审核用于各种数字媒体的使用场景,从视频游戏到聊天机器人和聊天室。但是,常见的两大应用是社交媒体和在线零售。

社交媒体

社交媒体存在内容问题。仅 Facebook 就有超过 20 亿用户,他们平均每天观看 1 亿小时的视频并上传 3.5 亿张照片。要手动检查如此庞大的流量产生的内容量,需要雇佣足够多的人员,不但成本高昂,而且很耗时。AI 可以自动检查文本、用户名、图像和视频中是否包含仇恨言论、网络霸凌、隐私或有害内容、虚假新闻和垃圾邮件。然后,算法可以删除不符合公司条款和条件的内容或用户。

在线零售

内容审核不仅限于社交平台。在线零售商也会使用内容审核工具只向消费者显示高质量、对企业友好的内容。例如,酒店预订网站可以利用 AI 扫描所有酒店房间图像,并删除任何违反网站规则的图像(例如照片中不能出现任何人)。零售商还利用多种机器学习技术的组合来定制业务需求。

内容审核如何运作?

基于机器学习的审阅系统的内容队列和上报规则因公司而异,但通常会在第一步、第二步或两者中包括 AI 审核:

  1. 预审。AI 对用户内容进行审核后再发布。然后,将归类为无害的内容设置为对用户可见。被视为很可能有害或对企业不友好的内容会被删除。如果 AI 模型对其预测缺乏信心,则会标记该内容以进行人工审阅。
  2. 审核后。用户报告不良内容,然后由 AI 或人工进行审阅。如果由 AI 进行审阅,它将遵循第一步中所述工作流程,并自动删除任何被视为不良的内容。

根据媒体类型的不同,AI 将使用各种机器学习技术进行内容预测。

文本

应对不同场景进行文本数据标注,标记后的数据将应用于训练机器模型以便识别不同类型的文本内容。

  • 自然语言处理 (NLP):为了理解人类语言,计算机要依赖 NLP。它们可能会使用关键字过滤等技术识别不恰当的语言以进行删除。
  • 情感分析:互联网上的上下文很重要,情感分析可以帮助计算机识别讽刺或愤怒等语气。
  • 知识库:依靠已知信息数据库,计算机可以预测哪些文章可能是假新闻或识别常见骗局。

图像和视频

应对不同场景进行图像视频数据标注,标记后的数据将应用于训练机器模型以便识别不同类型的图像和视频内容。

  • 物体检测:图像分析可以识别图像和视频中不符合平台标准的目标对象,例如裸体。
  • 场景理解:计算机将学习理解场景中所发生情况的背景,从而推动更准确的决策。

所有数据类型

无论数据类型如何,各公司都可以使用用户信誉技术识别哪些内容可以信任。计算机会将曾经发布过垃圾邮件或露骨内容的用户归类为“不可信”,并对他们将来发布的任何内容进行更严格的审查。信誉技术还可以打击虚假新闻:计算机更有可能将来自不可靠新闻来源的内容标记为虚假内容。 幸运的是,内容审核不断产生新的训练数据。如果计算机将内容发送给人工审阅员,审阅员会将内容标记为有害或无害,然后将标注数据反馈给算法以提高将来的准确性。

克服内容审核的挑战

内容审核为 AI 模型带来了许多挑战。庞大的内容量需要在不牺牲准确性的前提下创建快速模型。开发准确模型的难点在于数据。数字平台内容的公共数据集数量有限,因为大多数数据是收集该数据的公司的保留财产。 还有语言问题。互联网是全球性的,这意味着内容审核 AI 必须识别数种不同的语言,以及使用这些语言的各种文化的社会背景。语言会随时间变化,因此定期使用新数据更新模型至关重要。 定义之间也存在不一致之处。网络霸凌是什么意思?裸体雕像应该被视为艺术还是露骨?在平台内保持这些定义的一致性很重要,这样才能使用户对审核流程保持信任。用户富有创造力,不断改进方法来发现审核中的漏洞。为解决这个问题,都必须不断重新训练模型,以解决骗局或虚假新闻等问题。 最后,要注意内容审核中的偏见。如果内容涉及语言或用户特征,则可能发生歧视。使训练数据多元化并教会模型了解背景对于减少偏见至关重要。 所有这些挑战似乎是打造有效内容审核平台不可逾越的障碍。但成功是可能的:许多组织都向第三方供应商求助,这些供应商可以提供足够的训练数据,还可以提供全球范围内大量讲各种语言的个人来标注这些数据。第三方合作伙伴还带来机器学习赋能内容审核数据标注工具所需的专业知识,可提供可扩展的高效模型。

澳鹏内容审核专家贾斯汀·亚当 (Justin Adam) 的观点

澳鹏依靠自身的专家团队帮助您构建先进的模型,确保您能够进行成功的内容审核、提供优质的客户体验并提高业务投资回报率。项目经理贾斯汀·亚当 (Justin Adam) 是我们团队的资深专家之一,他负责多个内容审核相关项目,确保客户在通过机器学习实施和改进内容审核时取得成功。贾斯汀对成功的内容审核项目的三大见解:

  • 根据现实世界的要求更新政策:每个内容审核决策都应遵循既定的政策;但是,政策必须迅速发展以弥补出现的空白、灰色地带或边缘案例,尤其是对于敏感话题。监控特定市场的内容趋势,发现政策空白,提供建议并部署政策变更,以确保所提供的数据是基于审阅员根据实时、全面的政策指南做出的决策。
  • 管理人口统计学偏见:当审阅员代表的是所审核市场中的一般人群时,内容审核有效、可靠也值得信赖。重要的是要定义所需的人口统计学信息,并处理多样性来源的各个方面,以使输入到模型中的数据不会受到人口统计学偏见的影响。
  • 通过质量管理策略和专家资源来提供支持:在当今的政治环境中,内容审核决策容易受审查的影响。有效识别和纠正错误,且重要的是防范错误需要全面的策略。我们通常会根据客户的具体需求建议并帮助实施适当的策略,包括组建一支由训练有素的政策主题专家组成的完整团队、建立质量控制审阅层次结构以及量身定制的质量分析和报告。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1017599.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【牛客网】BC146 添加逗号

一.题目描述 牛客网题目链接:添加逗号_牛客题霸_牛客网 描述: 对于一个较大的整数 N(1<N<2,000,000,000) 比如 980364535&#xff0c;我们常常需要一位一位数这个数字是几位数&#xff0c;但是如果在这 个数字每三位加一个逗号&#xff0c;它会变得更加易于朗读。 因此&a…

指针扩展之——函数指针

前言&#xff1a;小伙伴们好久不见&#xff0c;本篇文章我们继续讲解一个指针的扩展——函数指针。 一.何为函数指针 我们通过对指针的学习已经知道&#xff0c;凡是叫什么什么指针的&#xff0c;都是指指向这个东西的指针。 所以所谓函数指针&#xff0c;也就是指向函数的指…

001 linux 导学

前言 本文建立在您已经安装好linux环境后&#xff0c;本文会向您介绍Shell的一些常用指令 什么是linux Linux是一种自由和开放源代码的类UNIX操作系统&#xff0c;该操作系统的内核由林纳斯托瓦兹在1991年首次发 布&#xff0c;之后&#xff0c;在加上用户空间的应用程序之后…

TypeScript 从入门到进阶之基础篇(一) ts类型篇

系列文章目录 文章目录 系列文章目录前言一、安装必要软件二、TypeScript 基础类型1.基础类型之 数字类型 number2.基础类型之 字符串类型 string3.基础类型之 布尔类型 boolean4.基础类型之 空值类型 void5.基础类型之 null 、undefined类型6.基础类型之 任意类型 any &#x…

Dell戴尔笔记本电脑灵越系列Inspiron 5598原厂Windows10系统2004

戴尔灵越原装出厂系统自带显卡、声卡、蓝牙、网卡等所有驱动、出厂主题壁纸、系统属性戴尔专属LOGO标志、Office办公软件、MyDell等预装程序 链接&#xff1a;https://pan.baidu.com/s/1VYUa7u0-Az4c9bOnWV9GZQ?pwd550m 提取码&#xff1a;550m

常见的查找算法以及分块搜索算法的简明教程

顺序查找 最基本的查找算法 举例 // 顺序查找public static int searchSequence(int[] arr, int target) {int i 0;for (int arr2 : arr) {if (arr2 target) {return i;}i;}return -1;}二分查找 [! warning] 值得注意的是这个二分查找算法只对无重复元素的递增或递减的数组有…

常用的辅助类(必会)

1.CountDownLatch package com.kuang.add;import java.util.concurrent.CountDownLatch;//计数器 减法 public class CountDownLatchDemo {public static void main(String[] args) throws InterruptedException {//总数是6&#xff0c;必须要执行任务的时候&#xff0c;再使用…

ARM接口编程—ADC(exynos 4412平台)

ADC简介 ADC ADC(Analog to Digital Converter)即模数转换器&#xff0c;指一个能将模拟信号转化为数字信号的电子元件 ADC主要参数 分辨率 ADC的分辨率一般以输出二进制数的位数来表示&#xff0c;当最大输入电压一定时&#xff0c;位数越高&#xff0c;分辨率越高&#xf…

全国职业技能大赛云计算--高职组赛题卷①(私有云)

全国职业技能大赛云计算--高职组赛题卷①&#xff08;私有云&#xff09; 第一场次题目&#xff1a;OpenStack平台部署与运维任务1 基础运维任务&#xff08;5分&#xff09;任务2 OpenStack搭建任务&#xff08;15分&#xff09;任务3 OpenStack云平台运维&#xff08;15分&am…

LC142. 环形链表 II

题目大意 给你一个链表&#xff0c;要求判断是否有环&#xff0c;若有环&#xff0c;找出环的入口结点。 142. 环形链表 II 判断是否有环 判环比较简单&#xff0c;用一个一次走一个结点的快指针&#xff0c;和一个一次走一个结点的慢指针同时遍历链表&#xff0c;若两指针相…

第一个Three的demo实例

Three的第一个Demo 前言效果图1、导入threejs2、创建场景3、创建相机4、创建渲染器5、创建几何图形6、创建材质7、创建网格8、将网格添加到场景中9、设置相机的位置10、渲染11、整体代码 前言 创建第一个demo实例—旋转的方格 效果图 1、导入threejs import * as THREE from…

漏洞赏金猎人开源工具集合,自动辅助渗透测试工具

漏洞赏金猎人开源工具集合&#xff0c;自动辅助渗透测试工具。 公开收集的一个国外白帽子用的比较多的开源工具列表 这是一款半自动渗透测试的工具&#xff0c;当前版本多用于渗透测试的信息搜集&#xff0c;每周保持更新&#xff0c;最终的目标是类似于linpeas的全自动渗透测…

直接插入排序、希尔排序详解。及性能比较

直接插入排序、希尔排序详解。及性能比较 一、 直接插入排序1.1 插入排序原理1.2 代码实现1.3 直接插入排序特点总结 二、希尔排序 ( 缩小增量排序 )2.1 希尔排序原理2.2 代码实现2.3 希尔排序特点总结 三、直接插入排序和希尔排序性能大比拼 !!!3.1 如何对比性能&#xff1f;准…

4款视频号数据分析平台!

很多人在做视频号的时候就会有创作参考的需求&#xff0c;那么你们知道视频号中有哪些数据平台&#xff1f;今天就和大家来分享一下 接下来就总结一下视频号数据平台有哪些&#xff1f;排名不分前后。 1&#xff1a;视频号助手&#xff08;channels.weixin.qq.com&#xff09…

旋转的正方体-第15届蓝桥杯第一次STEMA测评Scratch真题精选

[导读]&#xff1a;超平老师的《Scratch蓝桥杯真题解析100讲》已经全部完成&#xff0c;后续会不定期解读蓝桥杯真题&#xff0c;这是Scratch蓝桥杯真题解析第151讲。 第15届蓝桥杯第1次STEMA测评已于2023年8月20日落下帷幕&#xff0c;编程题一共有6题&#xff0c;分别如下&a…

C 风格文件输入/输出---错误处理---(std::clearerr,std::feof,std::ferror,std::perror)

错误处理 清除错误 std::clearerr void clearerr( std::FILE* stream ); 重置给定文件流的错误标志和 EOF 指示器。 参数 stream-要重置错误标志的文件流 返回值 &#xff08;无&#xff09; 调用示例 #include <iostream> #include <cstdio>using names…

微服务保护-降级

个人名片&#xff1a; 博主&#xff1a;酒徒ᝰ. 个人简介&#xff1a;沉醉在酒中&#xff0c;借着一股酒劲&#xff0c;去拼搏一个未来。 本篇励志&#xff1a;三人行&#xff0c;必有我师焉。 本项目基于B站黑马程序员Java《SpringCloud微服务技术栈》&#xff0c;SpringCloud…

『C语言进阶』指针进阶(二)

&#x1f525;博客主页&#xff1a; 小羊失眠啦 &#x1f516;系列专栏&#xff1a; C语言 &#x1f325;️每日语录&#xff1a;上天是公平的&#xff0c;有付出就有收获 ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 前言 在上篇指针进阶中&#xff0c;我们对字符指针、指针…

计网 - 图解OSI 七层模型 和 TCP/IP 四层模型

文章目录 OSI 七层模型TCP/IP四层模型图解 OSI图解 TCP/IP小结 OSI 七层模型 OSI&#xff08;开放系统互联模型&#xff0c;Open Systems Interconnection Model&#xff09;是一个用于理解和描述计算机网络体系结构的标准化框架&#xff0c;由国际标准化组织&#xff08;ISO&…

基于Xml方式Bean的配置-beanName个别名配置

SpringBean配置详解 Bean的基础配置 例如前文涉及到的配置文件 <bean id"userService" class"com.example.Service.Impl.UserServiceImpl"/>此时存储到Spring容器&#xff08;singleObjects单例池&#xff09;中的beanName是userService&#xf…