警惕!AI正在“吞食”你的数据

news2024/11/25 6:46:29

      视觉中国供图

□ 科普时报记者 陈 杰

AI大模型的热度,已然开始从产业向日常生活渗透,并引起不小的舆论旋涡。近日,网友指出国内某智能办软件有拿用户数据“投喂”AI之嫌,引发口水的同时,再度把公众对AI的关注转移到数据安全上。

身处智能时代,我们在使用或跟AI交互时,该如何保护自己的数据安全?我们的个人数据可以被AI产品或平台随意收集和使用吗?科普时报记者就这些公众关心的问题采访了产业相关人士及行业专家。

AI普遍缺乏“营养”

此次舆论事件,以修改引发误会的隐私政策并承诺不会拿用户文档训练AI而暂告一段落。但清华大学人工智能研究所博士、独到科技CEO张文浩告诉记者,“以用户数据训练AI,在大模型行业普遍存在。”

今年7月份,谷歌及其AI子公司DeepMind、视频会议平台Zoom均因收集用户数据用以训练和开发AI产品而引发用户强烈担忧……

“数据被比作信息时代的‘石油’,重要性不言而喻。”文渊智库研究员王超告诉记者,用于训练数据的丰富程度和质量决定了AI的优劣,也只有优质海量的数据“投喂”,才能培养出更聪明、更先进的版本。

iEnglish智能英语学习解决方案技术研发负责人贾先好表示,2018年GPT迭代使用了1.1亿学习参数,到2020年GPT-3已达到惊人的1750亿参数。“这些迭代的背后是45TB的海量文本数据,AI其实是一场包含海量学习参数在内的纯粹工程化的胜利。”

当下,全球各大科技公司发布的AI大模型已超数百个,而用于训练这些大模型的数据虽然海量但缺少精细“营养”,这也让快速迭代中的AI普遍都“吃”得不怎么好。

用户的数据“真香”

训练AI所需的海量数据,目前主要的来源包括互联网抓取的数据、网络百科全书、书籍文献,以及一些开源数据集等公开数据。但新壹科技技术副总裁陈鹏认为,这些数据仅有数量优势,而缺少让AI变得更聪明的高质量数据。“鉴于用户数据的多样性、真实性,以及个性化等特征,很多公司和机构会收集一定的用户数据来进行训练,提高AI模型的准确性和可靠性。”

“在AI训练中,普遍使用的RLHF(基于人类反馈的强化学习)技术就需要在迭代过程中不断根据人类反馈来优化自身行为,有助于提高机器在不同场景下的泛化能力,使其行为更加符合人类期望。”张文浩表示,RLHF技术在模仿学习阶段需要使用用户的交互数据来改进其策略,这也是优化用户体验的一种方式。

用户数据之所以被AI相中,是因为这些数据的内容非常丰富,基本上涵盖了各个领域和主题,正是AI训练所急需的“精料”。

训练AI要守“底线”

对于AI而言,用户数据确实很“美味”,但对于用户而言,过度的采集可能对个人信息安全和财产安全造成不小的威胁。

“用户数据用于训练AI时会被分析和解读,并揭示出用户诸如个人喜好、行为习惯、健康状况等隐私信息。”陈鹏表示,这些信息一旦被非法利用,就会导致用户身份盗窃、网络诈骗等情形的发生。

中国广告主协会互联网电商分会秘书长张俊良提醒,用户数据被“投喂”给AI,非常容易带来用户核心信息的泄漏。“所以,我们在使用大模型或者跟大模型交互时,尽量避免透露自己的隐私信息。”

用户数据可以用于AI训练吗?陈鹏认为,过度收集用户数据不可避免地会面临诸如隐私安全、数据合规性的挑战。“不过,现在行业内已经开始通过数据脱敏、加密技术和审计技术等来保护用户数据隐私了。”

贾先好表示,在数据的生产、保存、读取、更改、迁移、存档等生命周期内,AI企业应该采取相应的安全措施,以确保这些数据不会被未经授权的访问、篡改或者滥用。

其实,今年8月15日起实施的《生成式人工智能服务管理暂行办法》就明确,应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形。

张文浩建议,各大科技公司应遵守相关法律法规,确保数据收集、处理和使用的合法性。“总之,企业在做AI训练时,应严格遵循个人数据使用‘最小化原则’,要守得住‘底线’。”

王超则认为,《生成式人工智能服务管理暂行办法》给国内AI产业指明了方向,也划定了范围。“但仅凭一部暂行办法并不能解决所有问题,AI是一次底层的技术革命,未来一定会碰到更多的问题,这就需要监管部门及时有效制定出监管措施,进一步规范产业的发展。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1258417.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AWR294x收发器的干扰抑制(TI文档)

摘要: AWR294x收发器是一种集成的片上雷达设备,不仅具有RF,模拟和ADC电路,而且在芯片上还有许多处理器核。它有一个专门的雷达信号处理加速器(称为硬件加速器或HWA),具有能够探测和减缓雷达-雷达干扰的特点。本文档介绍…

MySQL死锁,死锁产生的4个必要条件,死锁案例, 如何避免死锁

文章目录 MySQL死锁了怎么办(死锁的产生及解决方案)?1、 死锁与产生死锁的四个必要条件1.1 什么是死锁1.2 死锁产生的4个必要条件 2、死锁案例2.1 表锁死锁2.2 行锁死锁2.3 共享锁转换为排他锁 3、死锁排查4、 如何避免死锁5、死锁的排查6、 …

抖音餐饮门店点餐外卖小程序作用是什么

餐饮从业商家、各种餐品饮料线下门店众多,随着线上订餐、团购、预约、点餐等方式发展,线下门店经营痛点明显,不少商家选择搭建餐饮门店小程序一方面是品牌传播拓客及提升服务效率,另一方面则是赋能客户完善消费及覆盖进店前后路径…

教师如何高质量备课

备课是教学工作中不可或缺的一部分。高质量的备课不仅可以提高课堂效率,还可以更好地激发学生的学习兴趣和积极性。那么,如何高质量备课呢? 深入了解学生 备课的目的是教授知识,让学生掌握知识。因此,了解学生的需求和…

使用脚手架创建Vue3项目

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏: Vue ✨特色专栏: MySQL学习…

【MySQL | TCP】宝塔面板结合内网穿透实现公网远程访问

文章目录 前言1.Mysql服务安装2.创建数据库3.安装cpolar3.2 创建HTTP隧道4.远程连接5.固定TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址 前言 宝塔面板的简易操作性,使得运维难度降低,简化了Linux命令行进行繁琐的配置&#x…

多头注意力机制基本概念

文章目录 基本概念模型小结 基本概念 我们可以用独立学习得到的h组不同的 线性投影来变换查询、键和值。 然后,这h组变换后的查询、键和值将并行地送到注意力汇聚中。 最后,将这h个注意力汇聚的输出拼接在一起, 并且通过另一个可以学习的线性…

外汇天眼:嘿!他们说这个比赛有手就能赢,你敢不敢来试试?

在外汇市场的波涛汹涌中,一场引人注目的模拟交易比赛正在悄然展开,参与者们纷纷聚焦,听所有获奖的参赛投资者们说:这个比赛有手就能赢,你敢不敢来试试? 比赛规则简单而富有挑战性。你只需在外汇天眼APP开通…

【虹科干货】什么是软件成分分析(SCA)?

大家或许都发现了,开发人员愈发依赖开源代码来快速为其专有软件添加功能。据估计,开源代码占专有应用程序代码库的 60-80%。相伴而来的,除了更高的效率,还有更高的风险。因此,管理开源代码对于降低组织的安全风险至关重…

力扣:182. 查找重复的电子邮箱(Python3)

题目: 表: Person ---------------------- | Column Name | Type | ---------------------- | id | int | | email | varchar | ---------------------- id 是该表的主键(具有唯一值的列)。 此表的每一行都包含一封电子…

盛元广通实验室安全培训考试系统

盛元广通实验室安全培训考试系统是一种基于互联网和人工智能技术的在线考试平台,旨在旨在提供实验室安全教育和考核的全面解决方案。该系统可以帮助实现实验室安全培训考试的在线化、智能化和规范化,提高实验室安全意识和能力,保障实验室安全…

百度人工智能培训第二天笔记

参加了百度人工智能初步培训,主要是了解一下现在人工智能的基本情况,以便后续看可以参与一些啥? 下面就继续前一天的内容记录。 一、先做电动自行车的电梯里检测 先进行图片资料的上传与标注,这个昨天的最好也说了一下。 训练完后…

马斯克发布一封指控 Sam Altman 的匿名信引发猜测,OpenAI “宫斗大戏”终迎结局?

就在昨晚,持续了数日的 OpenAI 宫斗大戏,似乎终于要大结局了——OpenAI 官宣:Sam Altman 将回归 OpenAI,重新担任 CEO! “我们已达成原则性协议,Sam Altman 将重返 OpenAI 担任 CEO,新的初始董…

Temu要求提交RSL Report 铅镉或RSL-Phthalate邻苯报告如何办理

Temu要求提交RSL Report 铅镉或RSL-Phthalate邻苯报告如何办理 Temu要求提交RSL Report 铅镉或RSL-Phthalate邻苯报告如何办理 RSL Report是欧盟REACH法规要求的一种资质报告,旨在确保产品不含对人体有害的化学物质。在珠宝首饰行业中,RSL Report认证是…

(京东大数据分析)10月运动鞋服消费数据采集:服饰销量同比增长20%

10月份,在双11大促节的加持下,消费市场中不少品类的销售成绩均呈现增长。鲸参谋发现,运动鞋服消费类目也受到了市场及消费者的特别青睐,消费数据也有了明显增长,下面我们来看一看运动鞋服市场在10月的销售详情。 首先来…

成为一名优秀教师的关键要素

在教育领域,要想成为一名优秀的教师可是需要多方面的素质和技能的。以下是我总结出的几点关键要素,供大家参考。 热爱教育事业 首先对教育事业充满热爱和热情。只有对事业有强烈的兴趣和热爱,才能在漫长的工作中保持耐心、专注和投入。热爱教…

经典的Shiro反序列化漏洞复现

目录 0x01、前言 0x02、环境搭建 0x03、漏洞原理 0x04、漏洞复现 0x05、漏洞分析 5.1、加密 5.2、解密 0x06、总结 0x01、前言 相信大家总是面试会问到java反序列化,或者会问到标志性的漏洞,比如shiro反序列化,或者weblogic反序列化漏…

EasyExcel生成多sheet页的excel

一、controller层 ApiOperation(value "明细查询导出") PostMapping(value "/SummaryDetailExport") public void summaryDetailExport(RequestBody SearchDTO dto, HttpServletResponse response) throws IOException {reportService.deptPackagingSum…

sql中的left join, right join 和inner join,union 与union all的用法

left join, right join 和inner join:这些都是SQL中用来连接两个或多个表的操作。 union,union all:用于合并两个或多个 SELECT 语句的结果。 但是有时候,对于Select出来的结果集不是很清楚。 假设我们有两张表。pers…