40岁高中老师开源的数据集LAION,改变了生成式AI的未来丨智源大会嘉宾风采

news2024/12/28 20:50:00

导读

如今,拥有超过50亿个图文对的 LAION数据集已经成为生成式AI未来的中心ーー而随之而来的关于如何监管人工智能的争论也日益激烈。

在德国北部城市汉堡郊区的一栋房屋前,一个信箱上用铅笔潦草地写着一个单词——“ LAION”。这唯一的记号表明,这栋房子属于一个特殊的人。正是他,在人工智能繁荣时期在数据收集方面做出了巨大的努力,引起了全世界的关注。这个人就是来自德国的高中老师Christoph Schuhmann,LAION(Large-scale AI Open Network,“大规模人工智能开放网络”的简称)正是他热衷的项目。近期,Schuhmann接受了美国彭博社的采访,谈到了他关于开放数据集的观点。智源社区对采访进行了不改变原意的编译。

41e796fd76293fb036414788f70098d4.png

Christoph Schuhmann

LAION组织者和创始人,在维也纳大学获得计算机科学与物理学学位。 此前曾在维也纳演员工作室学习方法派表演。他是著名开源社区LAION(代表作是赫赫有名的数据集LAION-5B)的组织者,近期开源Open Assistant。

LAION

LAION是一个拥有全球成员的非营利组织,旨在向公众提供大规模的机器学习模型、数据集和相关代码来解放机器学习研究。团队著名研究成果LAION-5B是为AI图像生成发展做出巨大贡献的超大数据集。今年4月,LAION 发布了世界最大 ChatGPT 开源平替——OpenAssistant,它一个基于聊天的开源助手,旨在为开发者提供一个可以轻松与第三方应用程序接口、数据库和互联网进行交互的大型语言模型。通过对Open Assistant的定制和修改,开发者可以更便捷地从各种来源获取所需信息,提高工作效率。

▲ Christoph Schuhmann将作为本次智源大会嘉宾参与邀请报告与线上论坛环节,敬请期待。扫描下方二维码,免费报名2023智源大会。

bc665c4fb8b153424fcdcc5d5aef6e72.png

要点速览

◆ 如果这些数据集中至一家、两家或三家公司,将对社会产生非常不利的影响。

◆ 一开始我非常怀疑Emad的动机,但大约四周后,我们获得了云上的 GPU资源,这些资源通常需要花费大约9000到1万美元。

◆ 任何互联网上免费的东西都是公平竞争。

◆ 相比于图像中涉及的偏见问题,我更关心让数据“获得自由”。

◆ 如果我们试图放慢速度并过度监管,最终会有很大的危险,即只有少数大公司能够负担得起满足所有正式要求。

Schuhmann平时的工作是向德国一所高中青少年教授物理和计算机科学,他和一小拨儿志愿者一起建立了世界上最大的免费人工智能训练数据集,如今这些数据集已经被用于文生图的生成器,包括谷歌 Imagen 和Stable Diffusion。 

像 LAION 这样的数据集是AI文图生成器的核心,这些生成器依赖于数据集,处理大量用于解构和生成新图像的视觉材料。去年年底,文生图产品首次在公众视野中亮相,迎来了范式转变: 它将科技行业的人工智能军备竞赛推入了超光速的时代,并引发了大量道德和法律问题。

在几个月内,生成式AI公司 Stability AI 和 Midjourney 等纷纷因为盗版问题面临诉讼,批评人士对这些公司采用的数据集中涉及暴力、色情和其他有问题的图像发出了警告,同时这些图像被指引入了几乎不可能减轻的偏见。但这些都不是Schuhmann所关心的,他只是想让数据“获得自由”。

一万美元的捐赠,让数据“获得自由”

Schuhmann现年40岁,不仅是高中教师,还是位受过两年专业训练的演员,他在两年前组织创建了 LAION,创建之初,他正在一个为 AI 爱好者提供服务的 Discord 服务器上闲逛。OpenAI的DALL-E第一个版本发布后,Schuhmann深受启发,同时也担心它会鼓励大型科技公司将更多数据私有化。他的想法是: “我立刻明白,如果这些数据集中至一家、两家或三家公司,将对社会产生非常不利的影响。”

作为回应,他和Discord上的其他成员决定创建一个开源数据集来帮助训练文到图的扩散模型,这是一个长达数月的过程,类似于用数百万张闪存卡教一个人学习一门外语。该小组使用加州非营利组织 Common Crawl 收集到的原始 HTML 代码来定位网络上的图片,并将它们与描述性文本关联起来,过程中没有使用任何手工或人工监管。 只花了几周的时间,Schuhmann和他的同事就有了300万个图文对。三个月后,他们发布了4亿个图文对的数据集。这个数字现在已超过50亿,LAION 成为了最大的免费文图数据集。

随着 LAION 声名鹊起,这个团队却继续无偿工作,并在2021年收到了来自机器学习公司“Hugging Face”的一次性捐赠。突然有一天,一位前对冲基金经理Emad Mostaque闯进了他们的Discord 聊天室。Emad主动提出将负担计算资源的费用,不附加任何条件。他想推出自己的开源生成式AI业务,并希望利用 LAION 来训练他的产品。LAION团队最初对这个提议嗤之以鼻,甚至觉得他是个疯子。

add17c14de50627984a87e3adae5b3f9.png

前对冲基金经理Emad Mostaque,Stability AI创始人

“一开始我们非常怀疑,”Schuhhmann表示,“但大约四周后,我们获得了云上的 GPU资源,这些资源通常需要花费大约9000到1万美元。” Emad于2022年推出Stability AI时,他使用了 LAION 的数据集来训练Stable Diffusion,并雇佣了该组织的两名研究人员。一年过去了,Stability AI目前正在寻求40亿美元的估值,这主要归功于 LAION 提供的数据。而对Schuhmann来说,他并没有从LAION那里直接获利,而且也对实际利益不感兴趣。“我还继续在高中教书,拒绝了各类公司的工作邀请,因为我希望能保有自己的独立性。”

数据就是新石油,任何互联网上免费的东西都是公平竞争?

像 LAION 数据集中的许多图像和链接已经遍布互联网了,有些甚至已经存在了几十年。人工智能的繁荣揭示了它的真正价值。数据集越大、越多样化,其中的图像质量越高,人工智能生成的图像就会越清晰、越精确。

这种实现方式反过来又引发了一系列法律和道德问题,即公众可以获得的材料是否可以用来为数据集提供信息ーー如果答案是肯定的,那么创作者是否应该得到报酬。

为了打造 LAION,创始人从 Pinterest、 Shopify 和亚马逊网络服务(Amazon Web Services)等公司获取视觉数据——这些公司没有评论 LAION 使用其内容是否违反了其服务条款。同时还包括YouTube上的缩略图、 DeviantArt 和 EyeEm 等平台的图片、美国国防部等政府网站的照片,以及《每日邮报》和《太阳报》等新闻网站的内容。

如果你问Schuhmann,他会说,任何互联网上免费的东西都是公平竞争。但是欧盟目前没有人工智能法规,即将出台的人工智能法案将在今年夏初敲定其措辞,该法案并不会针对版权材料是否可以包含在大数据集中做出裁决。相反,立法者正在讨论是否要纳入一项条款,要求人工智能生成器背后的公司披露哪些材料被用在了训练他们产品的数据集中,从而让这些材料的创作者有机会采取保护行动。欧洲议会议员Dragos Tudorache告诉媒体,这项规定背后的基本理念很简单: “作为生成式人工智能的开发者,有义务对算法训练中所使用的受版权保护材料进行记录和透明化。”

a677a5856533220a7ec19623c4e17d24.png4月20日,Christoph Schuhmann在汉堡的一个公园里

这样的监管对Stability AI来说不是问题,但对其他文到图生成器来说可能是个问题ーー“没人知道OpenAI用什么来训练的 DALL-E2,”Schuhhmann引用它作为科技公司如何锁定公共数据的一个例子。这也将颠覆目前数据收集的现状。  

虽然 LAION 还没被直接起诉,但它已经在两起诉讼中被点名: 一起指控Stability AI和Midjourney使用艺术家的版权图片来训练模型,另一起指控是Getty Images状告Stability AI,声称1200万图片被 LAION 搜刮去训练Stable Diffusion。

因为 LAION 是开源的,所以不可能知道其他哪些公司或者有多少公司使用了这个数据集。谷歌已经承认,它聘请了 LAION 来帮助训练其 Imagen 和 Parti 的文生图模型。Schuhmann认为,其它大型企业也在悄悄做着同样的事情,只是没有公开而已。

过度监管会带来危险

Schuhmann坐在客厅里,看着儿子玩《我的世界》(Minecraft) ,他把 LAION 比作“信息技术海啸”之上的一艘“小型研究船”,采集下面的样本向世界展示。

“这只是互联网上公开数据的一小部分,”他在谈到 LAION 的数据集时说。“这些数据事实上很容易获取,有来自捐赠者的1万美元预算,我们这群人真的做到了。”

但是,公众可以获得的东西并不总是公众想要的,也不总是允许公众合法看到的。除了诸如猫和消防车的 SFW 照片外,LAION 的数据集还包含数百万张色情、暴力、儿童裸体、种族主义、仇恨符号、受版权保护的艺术品以及从私人公司网站上搜刮来的作品。Schuhmann说,他不知道在 LAION 的数据集中有任何儿童裸体,尽管他承认没有深入研究这些数据。他说,如果得到有关此类内容的通知,他将立即删除指向这些内容的链接。

Schuhmann在开始组装数据集之前咨询了律师,并运行了一个自动化工具来过滤非法内容,但他更感兴趣的不是清理 LAION 的数字资产,而是从这些资产中学习。“我们本可以从公布的数据中过滤掉暴力,”他说,“但我们决定先不这样做,因为这将加快暴力检测软件的开发。”LAION 确实提供了一个删除选项来请求删除照片,但目前数据集已被下载了数千次。

Stability AI方面表示,它是在 LAION 数据集的一个精选子集上训练了Stable Diffusion。该公司在一封电子邮件中写道,试图“给这个模型提供一个比最初版本的 SD 更加多样化和广泛的数据集”,并补充说他们已经试图“使用 LAION 的 NSFW 过滤器删除成人内容”  。

开源AI的拥护者也警告说,在未经管理的数据集上训练AI意味着什么。Hugging Face机器学习和社会团队负责人Yacine Jernite表示,基于受污染数据的生成式AI工具将反映其偏见。“模型会非常直接地反映它所接受的训练。”

这不仅仅是社会的决定。欧洲的监管机构正在起草法规,以引导人工智能的使用,他们正在努力应对这样一个事实: 为当前人工智能繁荣而挖掘的数据,多年来一直是处于一个法律灰色地带,直到现在才受到严格审查。

但是Schuhmann认为,数据集不应该被监控。在他看来,人工智能所遇到最坏的情况是大型科技公司通过让他们的开发的工具符合监管框架,来排挤其他开发人员。 “如果我们试图放慢速度并过度监管,”他警告说,“最终会有很大的危险,即只有少数大公司能够负担得起满足所有正式要求。”

更多内容 尽在智源社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/463927.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

jupyter notebook 打开指定文件路径

1 按住winR键,开打运行界面 winR 2 在运行界面输入cmd,进入控制命令行窗口 cmd 4 激活conda环境 conda activate 5 输入要打开的指定路径 #c:\Users\test为要打开的指定路径,用户按需修改即可jupyter notebook c:\Users\test 正常来说,输…

服务注册于发现-Consul

Consul是HashiCorp公司推出的开源工具,用于实现分布式系统的服务发现与配置。 Consul是分布式的、高可用的、可横向扩展的。它具备以下特性 : 服务发现:consul通过DNS或者HTTP接口使服务注册和服务发现变的很容易,一些外部服务,例…

佳能驱动支持,佳能打印机驱动无法安装的解决方法

随着打印机设备的普及,不少用户都会选购一台佳能、惠普、爱普生、兄弟等品牌的打印机,虽然安装打印机及打印机驱动并不难,但也会出现无法安装的情况,只有打印机驱动安装好了才能正常使用佳能打印机设备。以佳能打印机为例&#xf…

关于Vue3刷新页面报错404的解决方法

最近正在写VUE3项目时,遇到了一个问题,页面一刷新就出错。 如下: 查看控制台报错信息是404。 这时候怎么刷新页面都没有用,只能重新输入地址,一想到每次代码发生改变我都要输入一遍地址,那心情都不好了。在…

MongoDB管理神器来袭!NexNoSqlClient让你的效率翻倍!

背景: 如果你在日常工作中需要经常使用MongoDB,那么你一定体验过这样一些痛点;繁琐的脚本编写,冗长的命令行操作,复杂的数据建模和索引等等。这些问题不仅让我们的工作效率低下,还容易出现错误和漏洞,给数…

JavaWeb搭建| Tomcat配置| Maven依赖|这一篇就够了(超详细)

🙈作者简介:练习时长两年半的Java up主 🙉个人主页:老茶icon 🙊 ps:点赞👍是免费的,却可以让写博客的作者开兴好久好久😎 📚系列专栏:Java全栈,计…

此主机支持 AMD-V,但 AMD-V 处于禁用状态

此主机支持 AMD-V,但 AMD-V 处于禁用状态问题解决 文章目录 此主机支持 AMD-V,但 AMD-V 处于禁用状态问题解决1、问题原因2、题解决办法 1、问题原因 我win 10 系统电脑安装VMware虚拟机后,在启动虚拟机时提示以下这个错误: 此主…

54页数据中台解决方案(ppt可编辑)

本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除。 1.3 数据中台是一套解决方案 数据中台是一套可持续“让企业数据用起来”的机制,是一套解决方案,不仅是一个平台。让数据更加灵活地支撑前端业务&…

基于单片机的恒温箱系统设计

以前课设做的小温度传感系统,分享一下! 想要直接用的可以去我资源界面下载,传送门。   老规矩先上效果 本系统以AT89C52、DS18B20温度传感器、DS1302实时时钟、LCD1602液晶显示屏模块、蜂鸣器、固态继电器模块等元件构成一个自动恒温加热装…

windows下Qt程序打包简易流程

还记得刚工作那会儿在接触qt不久后想让编译出来的exe文件能够脱离环境运行,比如写个小软件能让其在其他人电脑上动起来,满足一下小小的虚荣心。当时好像挺麻烦的(或许当时自己还是了解的太少),有个同事告诉了我一个办法…

NUMA详解

目录 NUMA简介 NUMA开启与关闭 查看系统是否支持 关闭方法 numactl --hardware介绍 没有安装numactl工具下查看NUMA架构节点数: 查看每个NUMA节点的CPU使用情况: 看每个NUMA节点的内存使用情况: 查看NUMA下指定进程的运行情况 创建…

企业如何选择一款适合自己的信息化管理系统?

信息化这个词近年来已经说“烂”了,在这个信息化快速发展的时代,企业信息化管理系统已经成为了企业发展的必要条件之一。 但是,随着市场上信息化产品的爆发式增长,企业在选择适合自己的信息化管理系统时,常常会感到眼…

博弈论又称对策论的入门及在军事博弈问题上的简单实战

学习知识要实时简单回顾,我把学习的博弈论简单梳理一下,方便入门与复习。 博弈论模型 博弈论简介 社会及经济的发展带来了人与人之间或团体之间的竞争及矛盾,应用科学的方法来解决这样的问题开始于 17 世纪的科学家,如 C.&#…

Etcd 可视化管理工具,GUI 客户端

Etcd Assistant——Etcd 可视化管理工具,GUI 客户端 下载地址:http://www.redisant.cn/etcd 主要功能: 支持多标签页,同时连接到多个集群以漂亮的格式显示JSON、XML、MessagePack、十六进制等数据格式浏览、创建、编辑、删除键…

blender的一些使用

导入一个glb文件 可能整体是一个模型 我是看视频 看到可以建筑模型分成了两部分(顶面和侧面) 然后就一直尝试 首先需要学会的是如何在blender 中修改材质 先按tab 进入编辑模式 选第三个面选择 然后选择一个面以后 选择材质 那个圆的 然后加号 新建…

IEEE旗下SCI审稿流程及状态详细解读 (附科协高质量IEEE期刊目录)~

能够成功发表一篇IEEE旗下SCI论文 (尤其是TRANS系列) 是很多电气电子工程、计算机及通信领域科研工作者的梦想。很多学者初次投稿IEEE后,会不停登录投稿系统查看状态,其实不必如此心急,只需掌握几个重要的时间节点,定期登录系统查…

想提高应用程序的用户满意度——APK体积包优化少不了

作者:子不语Any 前言 减少应用程序安装包的大小,不仅仅减少用户的网络数据流量,还减少了下载等待的时间。毋庸置疑,尽量减少程序安装包的大小是十分有必要的。 通常来说,减少程序安装包的大小有两条规律:…

springboot+vue.js高校教材教学资源平台设计与实现

基本事件流: 1)用户进入用户注册界面,本用例开始; 2)系统显示需要填写的注册信息表单; 3)用户填入所有注册信息,点击提交后发送并审核; 4)系统处理相应操作&a…

centos配置nacos集群

nacos配置集群 1.官方文档地址 https://nacos.io/zh-cn/docs/cluster-mode-quick-start.html 2.环境准备 1.64 bit OS,支持 Linux/Unix/Mac/Windows。(至少3台,或者通过修改端口在一台服务器 启动多个nacos进行测试)。 2.64 bit …

*2.5 迭代法的收敛阶与加速收敛方法

学习目标: 了解迭代法的基本概念和原理。学习者需要理解迭代法的基本概念和原理,包括迭代过程、迭代格式、收敛性等基本概念。 熟练掌握迭代法的收敛阶和收敛速度。学习者需要了解迭代法的收敛阶和收敛速度,掌握如何计算迭代法的收敛阶和收敛…