马斯克要告微软 拒绝AI训练“白嫖”数据

news2024/11/15 21:03:40

“现在是诉讼时间。”4月20日,推特被微软踢出其数字营销平台后,新掌门人马斯克立马发推回击称,微软用推特的数据做“非法训练”。这一怼,直接揭开了AI大模型开发商与数据源的利益之争。

此前,在线社区论坛Reddit与程序员社区Stack Overflow先后宣布,将向使用平台API训练数据的公司收费;环球音乐集团直接表示,将阻止AI从其版权歌曲中抓取歌手的声音。

在此之前,AI大模型开发商都在低成本地使用互联网公开的内容数据训练自家的大模型,如今,各种科技巨头们加持的大模型纷纷开始商业化,互联网内容平台们突然反应过来,不能让这些巨头们薅羊毛“白嫖”数据了。

当推特将API收费门槛摆在微软面前时,AI大模型训练要给付的成本就不止芯片算力和研发算法的人才了,现在还要加上“为数据付费”。

马斯克直怼微软“非法训练”

“他们非法使用推特的数据进行训练。现在是诉讼时间。” 4月20日,“宇宙顶流”马斯克直接在推特上明示要告微软。他以推特CEO的身份亲自下场,以此直怼微软把推特踢出Microsoft Digital Marketing Center(微软数字营销中心)的做法。

这个“中心”是干嘛的呢?它其实是微软利用大数据和AI技术开发的一个广告和营销的管理平台,聚合了包括推特、脸书、Ins等海外所有主流的社交平台,方便企业主们在一个平台上完成广告和营销活动的推送,还能管理各种账号、分析推流数据。你刷微博、微信朋友圈时突然冒出的广告,就有类似微软这种工具的贡献。

微软这个数字营销中心能实现这些功能,很重要的一环是接入了这些社交平台的API,这是企业主推送广告、分析数据的基础。

结果,马斯克收购推特后,直接把推特API的企业套餐初始订阅费用定为4.2万美元/月,折合人民币28.9万元,以这个价格能获得2500万条推文,一条差不多1块多钱了。如果每月支付12.5万美元,能获得 1 亿条推文,后续还会按照使用量加钱。

推特API的新收费标准直接劝退了不少小公司,连财大气粗的微软数字营销中心都直言“要价太高”,于是,直接把推特踢出了管理库。这意味着,借助微软这个平台执行广告和营销计划的广告主们,没法在推特上搞投放了。

原本这是企业主、分发平台、渠道商之间的广告业内事,马斯克跳出来了,直指微软用推特的数据搞非法训练。

 马斯克称微软用推特数据“非法训练”

谁都知道,爆火的ChatGPT背后有微软的资本加持。而马斯克和GPT大模型的开发方OpenAI不仅渊源颇深,还积怨许久。

2015年,马斯克与Sam Altman等6人共同创立OpenAI人工智能实验室,致力于建设开源的、研发人工智能的非营利机构,来抗衡当时在人工智能领域大有一家独大之势的谷歌。为此,马斯克捐了1亿美元,承诺未来继续捐9亿。结果不到2年,马斯克就退出了OpenAI董事会,这里既有烧钱开发大模型短期没烧出成果的问题,也有马斯克和Altman对OpenAI的管理权之争。

马斯克退出1年后,即2019年3月,OpenAI成立子公司OpenLP,将其定位为“有限营利机构”,重组后的OpenAI很快拿到了来自微软的10亿美元投资。谁也没想到又一个3年过去后, OpenAI站上了全球科技舞台的最前沿。

ChatGPT爆火后,当初为OpenAI掏过钱、站过台的马斯克频频表达怨念。

2月17日,马斯克发推指称OpenAI从开源、非营利变成了微软控制的“闭源、追求利益最大化”的公司;后来还多次在公开场合强调人工智能对人类社会的潜在危害,甚至认为“风险比飞机、汽车、毒品更大”;3月29日,那封科技大佬联署签名“暂停AI巨型实验”的公开信上,他也第一时间签名表态。

马斯克为人工智能的健康发展操碎了心,看上去,这位将巨型载人飞船送入太空的现实版“钢铁侠”似乎不打算跟风人工智能了。

然而,4月17日,马斯克在媒体采访中披露,将推出一款生成式AI大模型TruthGPT。很快就有媒体爆料,马斯克买了1万个英伟达A100芯片。这是AI大模型训练的重要硬件。

撕微软非法训练数据,怼OpenAI变成逐利公司,无论马斯克如何批评这两家公司,这下也难掩他对人工智能的兴趣了。左手拦下推特数据低成本外流,右手高价囤芯片,在AI大模型赛道上,马斯克开始跑马圈地。

多平台API拟收费 AI训练成本被推高

不过,最近要向AI大模型开发商们收取API费用的平台不止推特。

4月18日,海外最大的社区论坛Reddit宣布,将向使用其API做数据训练的公司收取数据使用费。Reddit暂未公布具体收费标准,业内推测,Reddit很可能会按数据数量分等级收费,这也是业内的常规做法。此外,程序员问答网站Stack Overflow也计划向AI巨头收取训练数据费用。

 Reddit更新数据API条款防大公司薅羊毛

要知道,研发AI大模型,算法、算力和算据这“三算”缺一不可。以OpenAI训练GPT-3.5为例,这个模型容纳了多达45TB的文本语料,这些语料既包括书籍期刊等出版物的内容,也包括社交平台、问答网站、论坛小组等在线数据中的用户生成内容。而从OpenAI的公开信息看,该公司并没有提及获取线上数据是否支付过费用。用“爬虫”爬、和第三方合作、以及购买都有可能是OpenAI 获得数据的方式。

此前,各个生成式大模型似乎都在没啥限制地使用互联网上的公开内容,影响大模型性能的要素就集中在算法和算力差异上。从推特、Reddit等平台明确为API收费后,大模型开发商自在地使用数据的好日子到头了。

2019年之前,OpenAI是非营利机构,如今,ChatGPT都有Plus收费版了,更别提该公司还开通了API的付费渠道。当前,OpenAI的估值接近300亿美元,研究机构PitchBook预测,该公司今年的收入将达到2亿美元,明年会翻五番。

社交平台们明确API收费,剑指大模型开发商,双方也正式变成了“商业对商业”的关系,收费与付费实属正常。这也意味着,AI大模型成为科技巨头们狂卷的赛道后,像Reddit这样的海量内容平台将增加商业来源,数据将成为重要要素。

以成立于2008年的Reddit为例,它是全球互联网中最有活力的社区之一,目前日活达到3.3亿,大量的用户创建了超过14万个活跃社区,帖子总量超3.6亿。尤其在很多小众领域,Reddit论坛贡献了很多有价值的讨论内容。换句话说,Reddit提供了英语互联网中最重要的语料库。

OpenAI的CEO Sam Altman也表示,公司在积极与内容公司进行合作,并愿意“为高质量数据支付高价”。

尽管Altman宣称“目前没在训练GPT-5”,但OpenAI应该不会停下数据训练的脚步,因为GPT-4仍有很多需要打磨的地方,比如通识知识的准确性、对人类语言的理解进化等等,这些仍然需要语料数据的持续投入。

放眼全球,研究AI大模型的公司还不止OpenAI一家,海外有谷歌,国内有百度、华为、阿里。可以预见,切入大模型赛道的公司,都将面对数据所有者的收费关卡,训练成本将水涨船高。

另一个值得深思的问题是,Twitter也好,Reddit也罢,他们手握数据向大模型开发公司收取价格不菲的费用,那么,为这些平台贡献了海量内容和数据的用户又得到了什么?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/458775.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

黑马redis实战篇-商铺缓存

目录 五、实战篇-商户查询缓存 5.1 什么是缓存 5.2 添加Redis缓存 1、不添加redis时,数据查询的作用模型: 2、添加redis时,数据查询的作用模型: 3、业务流程图:​编辑 4、代码实现 5、练习题 5.3 缓存更新策略…

【Android FrameWork (三)】- SystemServer

文章目录 知识回顾启动第一个流程initZygote的流程 前言源码分析1.system_server2.SystemServer.main3,startBootstrapServices4,startService 拓展知识LoadApkcontext 对于Android context 大家是怎么理解的?LocalServices.java: addServece方法中 ArrayMap和HashM…

Matlab 绘制双纵轴三纵轴图

三纵轴图 三坐标的图在前文中有所介绍;这次主要讲绘制双轴。 matlab 绘制三坐标(轴)图 绘制双纵轴图: yyaxis 简单用法 在MATLAB中,yyaxis可以用于绘制具有两个不同y轴的图形。以下是yyaxis的简单用法: 1.首先&am…

UG NX二次开发(C#)-UIStyler-找不到指定的Dlx文件的错误解决方法

1、项目场景: 在UG NX二次开发过程中,我们为了更好的操作,采用UI Styler设计了软件界面,然后按照UI Styler的编程流程成功的生成了dll,但是在采用Ctrl+U或者用“文件“->“执行”->"NX Open"执行dll时,遇到如下图所示的错误页面,提示内容为:找不到指定…

成就更强大的自己

每一次低谷,都会酝酿向上的力量。 每一次痛苦过后,都会洗涤掉心理深处的灰尘。 人生的路上,坎坷前行,只有保持积极向上的态度,才能把坎坷化为坦途。 走过一段路后,才发现,当内心强大、修养、爱…

Android之 颜色选择器

一,简介 1.1 计算机的颜色通常有两种表示方式: 光源模式RGB(Red红, Green绿, Blue蓝),数值0-255 印刷模式CMYK(Cyan青, Magenta品红, Yellow黄, Black黑),数值1-100 任何颜色都是由RGB或CMYK混合出来的,再加上透明度…

2023年产业基金研究报告

第一章 行业概况 1.1 概述 产业基金,又称为产业投资基金,是一种由政府、企业、金融机构等出资设立的,专门用于支持和促进特定产业发展的投资基金。产业基金通常以股权投资和长期投资为主,旨在推动产业结构升级、促进科技创新、提…

算法刷题|139.单词拆分、多重背包

单词拆分 题目:给你一个字符串 s 和一个字符串列表 wordDict 作为字典。请你判断是否可以利用字典中出现的单词拼接出 s 。 注意:不要求字典中出现的单词全部都使用,并且字典中的单词可以重复使用。 思路:字符串s就是我们的背包…

【移动端网页布局】流式布局案例 ① ( 视口标签设置 | CSS 样式文件设置 | 布局宽度设置 | 设置最大宽度 | 设置最小宽度 )

文章目录 一、视口标签设置二、CSS 样式文件设置三、布局宽度设置1、设置布局宽度2、设置布局最大宽度3、设置布局最小宽度4、查看网页最大最小宽度5、布局宽度设置 四、代码示例1、主界面标签2、CSS 布局设置 一、视口标签设置 参考 【移动端网页布局】移动端网页布局基础概念…

打造卓越游戏 | 2023 Google 游戏开发者峰会

一款游戏从初始构想的开发到辉煌赛季的策划,开发者们每时每刻都在倾注心血潜心钻研,Google 也致力于在整个开发和发布生命周期中为您提供帮助。我们很高兴能在今年如约而至的 Google 游戏开发者峰会中与您分享诸多更新,展示我们为助力您打造精…

JavaScript常用方法整理

文章目录 前言1.栈方法:push()、pop()2.队列方法:unshift()、shift()3.indexof()、lastIndexOf()、includes()4.操作方法:concat()、slice()、splice()5.Array.isArray()6.排序方法:sort()、reverse()7.转换方法:toString()、join…

input 元素 change 事件失效,失去焦点的时候才执行?什么原因导致?如何正确使用?

具体问题如标题所示&#xff0c;不再过多水字数&#xff0c;请看下面的代码&#xff1a; <input :class"[custom-form-item-input, (isFocusUserName && !userName) ? custom-form-item-input-err-active : ]"autoCompletenew-password type"text&…

带着疑问学C语言-C语言常用变量

目录 目录 一、声明变量和定义变量的区别是什么&#xff1f; 二、什么常量&#xff0c;如何区分常量和变量&#xff1f; 三、各数据类型所占的内存是多少&#xff1f; 四、字符与字符串的差别有哪些&#xff1f; 五、为什么会发生数据溢出&#xff0c;如何避免数据溢出&am…

springboot整合juit和springboot整合mybatis和springboot整合ssm

springboot整合juit 先看一眼包路径&#xff0c;发现main程序的路径和测试类的路径是一样的 启用新注解&#xff1a;SpringBootTest代替了之前sm整合juit时的 RunWith(SpringJUnit4ClassRunner.class) //spring配置类 ContextConfiguration(classes config.class)新的如此…

数字北京城,航行在联通2000M的“大运河”

前故宫博物院院长单霁翔&#xff0c;在《大运河漂来紫禁城》一书中提到过&#xff0c;紫禁城里的石材、木材&#xff0c;甚至每一块砖&#xff0c;都是通过大运河&#xff0c;跋山涉水来到北京的。某种程度上说&#xff0c;北京城的繁荣与这条纵跨南北的“中华大动脉”密不可分…

OpenGL入门教程之 变换

引言 这是一个闪耀的时刻&#xff0c;因为我们即将能生产出令人惊叹的3D效果&#xff01; 变换 向量和矩阵变换包括太多内容&#xff0c;但由于学过线性代数和GAMES101&#xff0c;因此不在此做过多阐述。仅阐述包括代码的GLM内容。 GLM的使用 &#xff08;1&#xff09;GLM…

拓扑排序例题 P4017 最大食物链计数

拓扑排序例题 P4017 最大食物链计数 题目链接&#xff1a;P4017 最大食物链计数 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 最大食物链计数 题目背景 你知道食物链吗&#xff1f;Delia 生物考试的时候&#xff0c;数食物链条数的题目全都错了&#xff0c;因为她总是重…

陆奇博士4月23日深圳奇绩创坛分享会PPT及核心观点:新范式、新时代、新机遇(附PPT下载链接)...

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年3月份热门报告合集 【限时免费】ChatGPT4体验&#xff0c;无需翻墙直接用 ChatGPT调研报告&#xff08;仅供内部参考&#xff09; ChatGPT的发展历程、原理、技术架构…

记录-使用双token实现无感刷新,前后端详细代码

这里给大家分享我在网上总结出来的一些知识&#xff0c;希望对大家有所帮助 前言 近期写的一个项目使用双token实现无感刷新。最后做了一些总结&#xff0c;本文详细介绍了实现流程&#xff0c;前后端详细代码。前端使用了Vue3Vite&#xff0c;主要是axios封装&#xff0c;服务…

Unity之OpenXR+XR Interaction Toolkit接入Pico VR一体机

一.前言 Pico VR 一体机是目前国内比较流行的VR设备之一&#xff0c;PICO成立于2015年3月&#xff0c;于2021年9月并入字节跳动。最新推出的Pico4一体机售价只有2400左右&#xff0c;这让很多家庭都入手了Pico设备&#xff0c;VR一体机的功能包括&#xff1a;VR全景视频&#…