数据标注平台如何保护用户数据安全?

news2024/11/14 6:19:57

近期,在《麻省理工科技评论》在一篇万字长文调查中,一位年轻女子坐在自家的马桶上的图片也被扫地机器人拍摄下来,并被流传到网上、大范围传播。

但事实上,这也并非是一件新鲜事了。例如,2020年秋,一系列从低角度拍摄的照片突然出现在了网络论坛上。

其内容全是家庭生活中场景——家具的陈列,电视播放的节目内容,甚至连家庭成员的脸都看得一清二楚。

比如下图,一个八九岁的男孩,正趴在走廊的地板上,并很高兴地注视着面前的这个物体。

根据爆料,这些图片全部由iRobot开发的Roomba J7系列扫地机器人拍摄,之后则会被发给 Scale AI 进行处理。Scale AI 是一家人工智能数据标注公司。

扫地机器人为何会拍下“主人家”的生活照片?这些照片又是如何被泄露出去的?

这里就不得不提到数据标注了。数据标注是IT互联网公司常见的一个职位,与之对应的是数据标注员或人工智能训练师。他们使用自动化的工具从互联网上抓取、收集文本、图片、语音等数据,然后对抓取的数据进行整理与标注,从而让人工智能机器进行学习,达到越来越智能的目的。

数据标注是一份低薪、需要大量人工的工作。但一二线城市人工成本较高、且缺少相应的人力。因此,数据标注公司或平台,会将这份工作外包出去,选择陕西、山西、贵州等偏远地区的人工,在降低人力成本的同时,也为当地解决了部分就业问题。

据了解,数据标注预计到2030年将达到133亿美元的市场价值。目前,国内从事数据标注行业的人群已达上千万,其中90%为数据标注员,这些数据标注员分布在全国各地、大大小小的团队内。他们中有职高学生,有尝试过40份工作的聋哑人,有从工地辗转而来的新生代农民工……

数据标注行业既然与“数据”有关,那么安全性一定是很多企业等各方关注的重点。尤其是随着数据安全法、个保法等法律法规的落地实施,从数据的采集、数据的标注,再到数据的保存,数据标注团队在每一个环节都必须保证数据不被泄露、不被窃取。

但是,数据标注团队对工作人员的行为安全管控一直存疑。比如,在此次事件中,用户的隐私照、家庭环境、家庭成员人脸等敏感信息泄露,也与工作人员有关。

2020年,Scale AI发布了一项全新的任务——Project IO。其特点是,视角从地面以大约45度向上,图像内容为世界各地的墙壁、天花板和地板,以及上面的各种东西,当然也包括人。通常来说,这些负责标注的工人会在Facebook、Discord和其他社交平台上建群,然后在其中讨论和工作有关的各种问题,比如分享处理延迟付款的建议,谈论报酬最好的任务,或请其他人帮忙等等。

数据标注员随意截图、分享平台内容,是很难被平台监测到的。因此,这成为数据表平台泄露用户隐私数据的主要原因之一。

那么,数据标注平台要如何在不侵犯工作人员隐私、在保证效率的同时,对平台的用户数据安全实施安全管控呢?

针对上述问题,数影方案做出了以下努力,以帮助数据标注平台/企业从源头上实现数据安全管控:

1. 在数据标注平台上部署数影安全网关,以较低成本实现了外包场地安全访问标注平台的需求;

2. 给外包员工开通数影账号,并把数据标注平台的账号绑定到数影账号上,外包员工打开数影办公空间,登录数影账号,点击标注平台,标注平台账号密码自动代填并登录,数据标注平台的账密不用告诉外包员工,保证平台账密安全;

3. 外包员工只能通过数影办公空间访问数据标注平台,基于数影办公空间防下载、防拷贝、防拍照、防截图等安全能力,确保数据标注平台上的数据不会被泄露。

数影之内是工作,数影之外是生活。通过以上努力,数影在兼顾员工工作效率、个人隐私的同时,实现员工安全、高效、智能工作,帮助数据标注平台以较低成本的外包的方式在大范围推广。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/137310.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

为什么MySQL 要选择 B+树

一、什么是索引 在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构。再直白点就是我们可以把索引理解成图书或者字典的目录。 既然索引是数据的一种存储结构,那么我们必然要对其进行存储,同时&…

你可以不用Git,但不能不会Git(二)基础(上)

目录 一.环境配置 二.本地初始化仓库 三.文件的两种状态 四.文件加入暂存区 五.文件提交与删除 1.提交文件 2.删除文件 一.环境配置 当安装Git后首先要做的事情是设置用户名称和email地址。这是非 常重要的,因为每次Git提交都会使用该用户信息。 设置用户信…

#G. 红旗招展

Description小J占山为王有一段时间了,他决定把自己的地盘打扮一下---将各种颜色的旗插在山头上当然某一座的山头只能用一种颜色的旗。整个地盘有N个山头,可看成是一棵有N个节点的树。小J还是有一点艺术细胞的,他不想整个地盘杂乱无章。于是他…

Kubernetes安装ingress-controller

IngressController 1. 安装 1.1 查看ingress-nginx的版本匹配 https://github.com/kubernetes/ingress-nginx/blob/main/README.md#readme 下载配置 wget https://raw.githubusercontent.com/kubernetes/ingress-nginx/controller-v1.1.2/deploy/static/provider/cloud/de…

【回答问题】ChatGPT上线了!给我推荐20个比较流行的图像实例分割模型

给我推荐20个比较流行的图像实例分割模型 U-Net Mask R-CNN FCN SegNet PSPNet DeepLabv3 DenseASPP LinkNet RefineNet ENet ICNet BiSeNet CRF-RNN GCN Tiramisu FRRN DeepLabv3 PANet MaskLab Hybrid Task Cascade给我推荐20个比较流行的图像实例分割模型源码 好的&#x…

java学习之类变量

目录 一、类变量的引出 需解决的问题 传统代码 代码问题 解决方法 运行结果 二、类变量的内存布局 特点 内存中的位置 三、类变量定义 四、类变量语法 五、访问类变量 六、类变量细节 第一条 第二条 第三条 第四条 第五条 第六条 第七条 一、类变量的引出 需…

PHP8---MySQL扩展

目录 一、MySQL扩展的介绍 二、PHP和MySQL连接的基本操作 (1)MySQL连接的准备工作 (2)插入删除操作 三、查询操作 (1)mysqli_fetch_assoc (2)mysqli_fetch_row (3…

19. 网站响应数据加一个简单的密,就能挡住80%的爬虫,你信吗?

本篇博客我们实现响应加密,由于本案例是JS逆向阶段的第一个案例,所以采用最基础加密手段。 爬虫训练场源码同步仓库为 GitCode 项目采集测试地址:爬虫训练场 爬虫训练场框架搭建Python Flask 端 Base64加密前台解密字符串渲染数据框架搭建 本…

Es之mapping

1)、字段类型 2)、映射 Mapping(映射) Mapping 是用来定义一个文档(document),以及它所包含的属性(field)是如何存储和 索引的。比如,使用 mapping 来定义…

深入解析Linux虚拟化KVM-Qemu分析之KVM源码

说明: KVM版本:5.9.1QEMU版本:5.0.0工具:Source Insight 3.5, Visio 1. 概述 从本文开始将开始source code的系列分析了;KVM作为内核模块,可以认为是一个中间层,向上对接用户的控制…

idea中热部署插件JRebel的激活方式

idea中热部署插件JRebel的激活方式 一、打开jrebel 激活面板,如图: 二、选中Team URL(connect to online licensing service) 1、在上面的框中输入激活的url地址 http://127.0.0.1:8888/132d042c-3b1a-4c45-9044-b7897c3de7882…

遗传算法改进(IGA)+python代码实现

遗传算法改进(IGA)python代码实现一、变异概率的改进(1)单点变异(2)多点变异(3)选择性的突变概率二、交叉概率的改进三、适应度函数的改进(1)sigmoid函数&…

PGL 系列(六)node2vec

node2vec DeepWalk存在的问题是比较简单直接,而图结构往往是一个复杂结构,需要考虑很多因素,在深度优先搜索方法之外,还有广度优先搜索,结合以上两种方式可以更好的探索图模型,即node2vec。

华为交换机配置

文章目录网络规划与设计机房连线图PON网络配置网络规划与设计 OLT: 网络光线路终端(Optical Line Terminal) ONU分为两种 MDU(Multi-DwellingUnit,多住户单元) MDU主要应用于FTTB应用类型下的多个住宅用户的接入,一般具有至少4个…

【JDK工具】jinfo、jps、jstack、jstat、jmap

目录一、前言二、关键工具2.1 jps 显示所有JAVA进程信息1. 参数信息2. 常用命令2.2 jinfo 查看虚拟机配置参数信息1. 查看虚拟机参数 jinfo -flags pid2. 查看虚拟机指定参数 jinfo -flag 具体参数 pid3. 查看环境变量 jinfo -sysprops pid4. 参数列表2.3 jstack1. 能排查哪些问…

springboot整合之Validated参数校验

特别说明:本次项目整合基于idea进行的,如果使用Eclipse可能操作会略有不同,不过总的来说不影响。 springboot整合之如何选择版本及项目搭建 springboot整合之版本号统一管理 springboot整合mybatis-plusdurid数据库连接池 springboot整…

JVM面试大总结

一、汇总 JVM是运行在操作系统之上的,它与硬件没有直接的交互。先说一下JVM的内存区域,当函数开始运行时,JVM拿到自己的内存将自己的内存区域进行了分割,分为五块区域:线程共享的有堆、方法区,线程私有的有…

Hadoop MapReduce 介绍

Hadoop MapReduceMapReduce核心思想设计构思什么是MapReduceMapReduce的特点MapReduce的不足(局限性)MapReduce组成Hadoop MapReduce实现流程map阶段执行过程Reduce阶段执行过程Shuffle机制Map端ShuffleReducer端的shuffleMapReduce核心思想 MapReduce的…

基于MVC的在线购物系统

摘 要本毕业设计的内容是设计并且实现一个基于net语言的在线购物系统。它是在Windows下,以SQL Server为数据库开发平台,Tomcat网络信息服务作为应用服务器。在线购物系统的功能已基本实现,主要包括首页、个人中心、会员用户管理、商品分类管理…

Mac操作系统配置Git

下载Git mac在安装git时,一般只需要一行指令brew install git 验证Git 在我们安装过Git之后,我们可以输入git --version进行验证。如果我们成功进行了安装之后,我们可以看到下图这样的结果。 配置Gitee 生成密钥对 首先我们通过cd ~/.…