导读
当下,AI开源已经成为了人类开源创新的主战场,是超大规模人类智力协同的最佳组织形式。得益于开源协作持续不断地推进,AI在这个时代飞速发展。可以说如果没有开源社区建设,就不会有今天人工智能的成就。
在2023智源大会AI开源论坛上,智源研究院的研究者同海内外同行一起,围绕AI开源,探讨从代码与数据的开源到大模型的机遇与挑战等热门话题。
嘉宾名单
杨轩 | Linux基金会亚太区副总裁
堵俊平 | LF AI & DATA基金会董事主席、Datastrato创始人
林咏华 | 智源研究院副院长兼总工程师
刘广 | 智源研究院自然语言与多模态组负责人
杨熙 |智源研究院智能评测组负责人
黄靖雅 | Hugging Face机器学习工程师
胡晓曼 | 华为MindSpore开源生态总监
张军 | 百度飞桨框架产品负责人、开放原子开源基金会TOC委员
郭人通 | Zilliz合伙人&产品总监
黄世宇 | 第四范式强化学习科学家、OpenRL Lab负责人
徐楠 | 中科院自动化所副研究员、中科闻歌产研中心副总经理
《AI与数据开源挑战与机遇》
堵俊平丨LF AI & DATA基金会董事主席、Datastrato创始人
当前,AI正处在技术奇点时刻,从Machine Learning和Deep Learning到近些年的Transformer和Attention,人工智能仿佛一直在积蓄着力量。而ChatGPT的出现,让AI的生态再一次蓬勃式地迅猛发展。目前的趋势是,模型的规模决定着其能力的边界:较小的模型仅仅可以完成简单的阅读理解,而大模型则可以进行代码的开发和文档的生成。可以预见,随着模型和算力的提升,AI在未来可能会产生自我意识,完成更为复杂的工作。
ChatGPT的出现,引导AI开源生态出现的变化是,开发者越来越喜欢调用开放的大模型API接口,而不是直接加载预训练模型。根据统计数据,从去年年底到今年五月,在NLP领域对大模型API的访问量增长了13倍。此外,模型的成熟度也从去年的20%上升到了33%,显示了AI模型在整个行业内越来越偏向实际落地应用。
模型固然重要,但其只是数据在某个切面上的一个投影,业界应该增强对于数据的关注。尤其是关注数据的质量和数量、数据购买交易的合规性和商业应用限制壁垒的打通。
从专业角度来看,数据的质量比数量更为重要。未来的数据标注方式,应要引入更多自动化标注方式,增强数据的质量。而对于数据的合规治理以及全域范围内的数据共享,更是开源社区需要关注的问题。
最后,堵俊平表示,虽然当前问题和挑战冗余,但是也意味着更多的机会涌现的可能。随着大语言模型的蓬勃发展,世界各地的同行们拥有了更多开拓应用场景的可能。希望各位优秀的同行一起协作,创造出伟大的技术和产品。
智源FlagOpen大模型技术开源体系
开启大模型时代新Linux生态建设
林咏华丨智源研究院副院长兼总工程师
刘广丨智源研究院自然语言与多模态组负责人
当下,智源研究院致力于打造并开源一批基础大模型以及相关的训练算法、数据处理、模型评测工具等,覆盖自然语言处理、视觉和多模态等领域。
林咏华表示,智源在今年2月推出的FlagOpen 大模型开源技术体系,涵盖了数据处理、模型评测和底层系统评测等方面的开源项目,未来也将集成多种深度学习框架并支持多种硬件设备加速,帮助开发者打磨优秀的AI工具。希望 FlagOpen 开源技术体系能够成为大模型时代的基础设施,打造 “新Linux”生态。
大模型技术开源的底层逻辑在于推动社会资源的合理使用,促使开发者不是总拘泥在一个特定问题上重复造轮子,而是借助具备基础能力的大模型,集中精力打磨实际的应用。
同时,智源非常关注模型的商用许可问题,此次开源的悟道·天鹰Aquila系列模型都具有商用许可的License,意在解决企业在使用大模型开发应用时的商用许可顾虑,加速大模型技术的产业落地。
最后,刘广表示,大模型算法开发和维护的时间成本、人力成本、经济成本极高,主要有这几方面的原因,一是框架不统一,使得模型的开发难以兼顾各大架构;二是开源模型的质量无法提前预估,各种算法、模型、数据的质量不一;三是工程浩大且算力成本高昂,同时开源的模型和算法项目往往有多种复现方式,试错成本也相当高。
因此,智源开源了FlagAI项目,并于去年捐赠至 LF AI&DATA 基金会,FlagAI 是大模型、训练算法及优化工具的一站式、高质量开源项目,集成了多种并行训练优化方法,统一微调接口,统一推理接口,底层兼容更多深度学习框架和硬件平台,目的是大幅降低大家使用大模型的门槛。同时,我们希望吸引更多的优秀人才加入开源社区,一起完善大模型技术的基础设施。
FlagEval大模型评测开源项目
杨熙丨北京智源人工智能研究院技术平台智能评测组负责人
ChatGPT的诞生,掀起了新一轮大模型的浪潮。早在两三年前,学术界和产业界就开始布局大模型。
基础大模型最早是在NLP领域爆发的,对其评测的难点有如下几个方面:
第一语言大模型难以度量,很难制定准则评估其能力上限;第二,大模型并不是为单一任务设计,而是为了适配多个下游任务,使得传统的评测体系失效;第三,大模型训练成本高航,训练急需与评测结合,“边训练边评测”,将实时测试的结果反馈给训练过程,帮助其把握训练方向;最后,大模型评测所需算力要求变高,导致大家无法广泛地对大模型进行评测,缺少中立的权威榜单。
针对上述问题,智源发布开源评测工具FlagEval。FlagEval支持多个国产芯片和深度学习框架,对大模型的“能力-任务-指标”做三维立体的拆解,目前包含 22 个主观&客观评测集,84,433道评测题目。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学与闽江学院共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集。更多维度的评测数据集也在陆续集成中。
大模型的评测虽有初步的探索成果,但还有漫长的路要走。FlagEval评测体系及相关研究还需要继续深入,当前对模型能力的覆盖程度仍有很大的进步空间,能力框架还需要进一步完善。目前主观评测尚未覆盖的能力维度,如“领域综合能力”和“通用综合能力”,也会在下一个版本中进行迭代升级。FlagEval 还将持续探索语言大模型评测与心理学、教育学、伦理学等社会学科的交叉研究,以期更加全面、科学地评价语言大模型。
AI快速增长年
来自Hugging Face开源社区的新进展
黄靖雅丨Hugging Face机器学习工程师
Hugging Face的理念,是打造民主化的机器学习,这意味着四点:第一,开源是信条;第二,高质量且易用;第三,与不同的个人与组织合作;第四,人工智能的道德标准永远是指导开源开发过程。
过去一年里,Hugging Face持续在机器学习、道德伦理、风险管控等工作内容上推进,包括参与机器学习、道德伦理标准的讨论与制定。
Hugging Face中的Transformers工具库目前已经扩展到100多种模型结构;Dataset库和Evaluate库则可以帮助开发者快速地完成数据获取和模型评估;Accelerate库是简化的分布式训练和推理库,可以从软件角度实现模型训练的加速功能,Optimum库则从硬件性能出发,加快模型的训练和推理。后续,HuggingFace也将同业界一道,增加更为丰富的模型评测指标,以求多视角地评估一个模型的优劣。
从2022年以来,伴随着Stable Diffusion模型的开源,Hugging Face同样开源了文生图和文生视频的库。在ChatGPT发布之后,一些组织也在Hugging Face上发布了性能可以与其媲美的大语言模型。此外,包括语言模型的界面开发Hugging Chat、代码生成数据集StarCoder等也都欢迎使用和反馈。
黄靖雅表示,AI开源的要义在于,第一,要让每个从业者参与进来,构建活跃的开源生态,形成良好的互动环境,共同制定AI工具开发的标准;第二,AI的快速发展让人应接不暇,开源社区可以极大降低开发者对于新算法的使用门槛。
AI大语言模型开源生态发展与大模型平台构建
胡晓曼丨华为昇思MindSpore开源生态总监
从1956年达特茅斯会议到去年的ChatGPT的横空出世,AI的发展经历了从感知理解世界到生成创造世界的变化。大语言模型是一个量变到质变的产物,当其规模突破一定的阈值之后,模型的能力会涌现和顿悟。AI的产业链可以拆解为三个部分:第一是模型供给,第二是模型定制,第三是内容分发。在上下游的各个赛道,模型的发布都呈现着百花齐放的状态。各家公司纷纷提出自家的竞品,参与到市场化的大模型服务的竞争中去。
在华为AI大模型全景架构中,最底层的是昇腾系列的硬件,包括芯片和服务器集群;而在中间层是华为开源的AI框架——昇思MindSpore;基于AI框架,开发了一系列工具套件,简化开发流程;最上层则是大模型的统一服务平台,为上下游的厂家提供全套大模型服务。
MindSpore是华为2020年3月开源的全场景AI框架,支持自动并行、动静态图结合、二阶优化、全场景部署、全战协同加速等几大关键特性。目前我们发布了多种工具组件,如MindFormers集成了主流大语言预训练模型,MindPet微调工具也支持多种参数微调算法,在部署方面,MindSpore Lite则可以帮助用户快速将模型部署到各种端侧。昇思MindSpore作为AI框架,不仅链接南北生态,同时也构建出一个贯穿产学研的生态圈,截止2023年5月底,昇思MindSpore累计下载量已突破474万,社区贡献者1.3万,服务企业数5500+,发表顶会论文超900篇等,成为国内最活跃的AI开源社区。
胡晓曼表示,模型的发展离不开应用,如今大模型的应用需要一个能打通全流程的大模型平台来承载,助力伙伴落地。如果要打造一个大模型平台,必然离不开充足的算力资源和全流程的易用工具。对于不同类型的企业来说,平台的商业模式则极为重要,是决定服务的企业用户数和能否长久运转的关键因素,目前平台的发展仍处于早期,未来应该能看到更多的大模型平台,服务各类AI企业。
An Open Source Framework For Distributed ML
Jun Gong丨Anyscale Ray Data团队成员
Jun Gong表示,Ray最早起源于伯克利的两位博士。源于对现实的需要,他们早先尝试将远端的服务器和本地端进行互联,实现训练数据与代码的交互。时至今日,Ray的开源框架已经包含了所有端到端机器学习的重要部分,包括数据预处理、模型的训练和部署。Ray的宗旨是,在纷繁复杂的行业内,实现库与库的交流结合,提供用户流畅的服务。Ray的设计者认为,下一代的AI应用将与环境存在连续的交互,并从这些交互动作之中进行学习。这些应用必然将越来越多地在动态环境中来完成任务,根据环境的变化作出反应,并执行一系列的动作来达到一个长期的目标。
Ray的设计大道至简,用户只需要在Ray封装的函数中加入装饰器,就可以将其变为远程分布式训练的服务。这套框架最为重磅的用户是OpenAI,在开发GPT4的时候,开发者使用了Ray灵活的开源框架,极大地提升了开发的效率,为该公司腾出更多时间和精力专注于模型的关键能力。究其原因,是因为Ray在底层逻辑中尽量减少不同语言之间的通信,大大地提升了数据和模型交互的效率。
产业级深度学习开源开放平台飞桨
及其开源社区
张军丨百度飞桨框架产品负责人、开放原子基金会TOC委员
百度的PaddlePaddle致力于打造全面通用的AI开源框架,服务于CV、NLP和语音技术的开发。在这套框架基础之上,百度已经开源了600多个算法模型,致力于打造一套建立于这个框架之上的模型宇宙,让开发者在这其之上将AI落到实处。
在ChatGPT诞生之前,百度已经尝试使用大模型解决实际的业务问题,包括核心的搜索业务。PaddlePaddle可以支持十几个甚至是上百万词表的输入,这与现在语言大模型背后的技术是很相似的。
如今,飞桨的生态遍布公司内外。百度内部基于飞桨集群大约有20万个训练业务,每天服务近60亿次请求。此外,如中国商飞和工商银行使用飞桨服务于各自的需求。百度也将持续通过竞赛或者其他活动,吸引来自社会各界的人士参与到开源社区的贡献当中。
张军表示,百度尝试将大模型落地与AI框架的推动并行化,让用户在调用大模型的同时,为AI框架的更迭也贡献一份力量。
向量数据库:面向AIGC的海量记忆体
郭人通丨Zilliz合伙人及产品总监
Zilliz是全球范围内最早进行向量数据库开发的团队。以ChatGPT为代表的AIGC大模型带火了向量数据库这一新概念。非结构化的数据在AI大模型的背景之下,以其强大的表征能力作为数据分析和应用的主要手段,慢慢走向了这个时代的数据库生态核心位置。
非结构化数据本身的语义信息蕴含在其数据内部,需要神经网络将其映射到一个高维空间中,才能完成对数据的理解和查询。向量数据库的作用,是为大语言模型提供长期的记忆和知识库的数据,解决其对具体业务的适配和对接能力。一言以蔽之,大模型和向量数据库,类似于分析推理单元与记忆存储单元之间的关系,这样的关系,有可能在落地的时候进一步激发模型的能力。
GPTCache是一项非常有意义的工作。直接调用大模型是十分昂贵的,这项工作的意义在于,当对话到来的时候,首先访问系统缓存中是否存在这一问题。只有当缓存中没有出现这一问题时,才会调用大模型的接口。这一设计可以极大地增强用户使用模型的体验感,同时降低模型服务商的运营成本。
Open RL通用的开源强化学习框架
黄世宇丨第四范式强化学习科学家,Open RL Lab负责人
强化学习是机器学习三大训练范式之一,其最终目的是实现通用人工智能。当下的许多智能体,如机器人、自动驾驶和游戏,都是基于强化学习的方式训练得到的。GPT大模型的训练,也是基于强化学习实现的,因为这种训练方式可以极大地节省训练数据的开销,解放开发团队的劳动力,让他们关注更有意义的内容。
OpenRL的设计思想力求简洁。在安装时,支持在终端使用pip命令行或者docker进行工具的安装。对于专业的算法研究员,OpenRL支持对底层代码或者已封装的模块进行修改,以适配他们各自的任务。OpenRL是第一个在50个支原体上完成多支原体强化学习的框架,未来还将支持更多支原体个数进行强化学习的训练。
黄世宇表示,未来,OpenRL也将保持对开源的专注度,将最新的模型和实验结果通过GitHub等方式分享给各界同行,共同推动AI的发展。
浅谈大模型及演进技术发展应用
徐楠丨中科院自动化副研究员,中科闻歌产研中心副总经理
GPT相关的大模型为社会带来的最大变化,是使得知识获取和调用变得更加简单和低成本。从一个更高的角度分析,GPT是一个集成了人类过往对于AI探索的里程碑,它为人类对于统一知识的表征推理提供了一条可行的思路——大模型。ChatGPT在算法、算力和数据这三个AI要素上,都做到了行业内的极致水准,由此催生了模型能力的涌现顿悟。
未来的企业界和学术界,在大模型的趋势之下,都应该注重将信息技术应用和创新生态打造与大模型演化趋势的结合。将下游的业态与模型能力的提升不断对齐,以便大模型能够更好地赋能产业。
中科闻歌致力于打造面向企业垂直领域应用的专属大模型,可以提供领域内知识问答和复杂场景的信息抽取。即使企业侧提供的文档是离线的,雅意大模型也可以通过自身集成的API实时读取这些文档,并进行整合梳理,更新迭代自身的知识库。
根据科技部发表的《中国人工智能大模型的地图研究报告》,显示了目前国内超过一半的大模型都实现了开源。中科闻歌作为一家科技企业,也坚持开源开放的情怀,愿意在大模型这条路上贡献经验和数据。因此,雅意大模型进行了全面的开源,包括代码、模型,以及在面向包括金融、媒体、安全、舆情等领域高质量的数据。
徐楠表示,除了探索面向领域的大模型,中科闻歌也积极构建通用的基础大模型。
圆桌讨论:AI与Data开源的趋势与展望
李晨(主持人) | Zilliz 开发者关系及市场运营负责人
堵俊平 | LF AI & DATA基金会董事主席、Datastrato创始人
杨轩 | Linux基金会亚太区副总裁
孟伟 | 中兴通讯开源战略总监 LF AI & Data新当选董事主席
杜霖 | 倍赛科技创始人兼CEO
赵菲菲 | 中科院副研究员、中科闻歌创始合伙人
Q:在如今的大模型时代,如何看待整体的竞争格局?开源又会扮演什么角色?
堵俊平认为,当前各大公司都在“秀肌肉”式地发布自家的AI大模型,需求市场也真实存在具体的业务需要,这样的互动模式可能带来科技革命的引爆。开源一定是未来,因为大模型类似于早年的操作系统,拥有一个开放包容的生态显然有利于整个业态的持续发展。但是大模型的开源存在协作困难的问题,模型在具体业务的实际表现难以通过简单的代码评测出来。因此在开源社区内部,需要所有开源贡献者共同努力,创造出更为切实可行的开源共享新思路。
孟伟认为,当前,开源的大语言模型的商用性不强,其在实际的业务场景的表现往往不能令人足够满意。这主要由于供给模型训练数据集大多来源于通用场景,缺乏针对性的数据。
赵菲菲认为,当前的大模型主要分为通用的大模型和领域内的大模型,现在开源模型的主要集中于前者。这类大模型基于大规模的算力和数据,可以让业内同行在其之上开发应用来指导具体工作,是一个极具未来性的工作方向。领域内大模型存在诸多问题,包括数据的收取和模型的版权问题。中科闻歌在舆情、文宣和金融等方面将持续发力。
杜霖认为,未来的大模型,会出现开源和闭源两大阵营,随着生态的发展,开源阵营会因为有更多的贡献者加入而变得丰富。无论是开源还是闭源,大模型可能会面向更多To C的领域,因为拥有比较直观的通用解决方案。当下的开源生态更多的是算法的开源,而真正打造大模型核心能力的还是数据。
杨轩认为,开源是一种开发者创新的模式,ChatGPT打开了一个时代,但是其注定解决不了很多专用的问题。未来,或许每个企业都会拥有属于自己的大模型生态,用于服务自己的客户群体,极大地降低运营成本。未来的大模型一定是以企业为单位的,会存在一个极大的蓝海等待所有开源厂商共建。
Q:开源的数据对AI的发展有哪些重要的意义?又会在大模型时代催生出哪些机遇和挑战?
堵俊平认为,从某种意义上,数据是第一位的,而模型可以看作数据的一个投影。从另一个层面上分析,数据的开源和共享是一个很大的难点,各大企业和组织对其有一种天然的保护性。未来一种可预见的数据共享方式,是让绝对敏感和重要的数据存放在私域中,而另一部分可以用作商业买卖。此外,即使是现有的开源数据集,在商用之前,也应讨论其法律和伦理的边界,提前规避风险和责任。
孟伟认为,数据的合法合规流通是社会各界需要共同努力解决的问题。未来或许会有第三方代理机构,帮助商业用户承担起规避风险的职能。
赵菲菲副研究员认为,私有化大模型是一个蓝海,但是私有的数据共享的确是一个需要解决的问题。未来,或许会出现数据交易所,专门面向数据确权、质量审核等工作,政府也或许会推行专门的《数据安全法》,保障数据的合理流通和使用。
杜霖认为,行业会划分为两个阵营的数据,一种是公有的数据,一种是私有的数据,二者通过第三方平台的方式,促成交易与交换。
Q:如何看待近期一些开源项目的翻车问题?开源项目应该如何做到商业化?
堵俊平认为,模型开源相较于传统的开源方式引入了一些限制条款,其初衷不一定是不利的,至少要比完全闭源更有利于产业的发展。因此,在开源项目开始追求商业变现的问题上,应当给予更多理性的眼光。
孟伟认为,企业的本质还是追求实际的利益,有些开源项目在达到一定规模之后,开始向用户收取一定的费用,是一种在乌托邦的理想状态和企业的生存状态之间挣扎的妥协。
杜霖认为,开源和商业化不能混为一谈。如果要开源,就应该秉承初心,而不是通过半路改变license的方式追求商业变现。
杨轩认为,开源并不意味着公益免费,企业收取费用是自己的权利,这也是对自己心血和投资人利益的一种尊重,不该受到过多指责。
- 点击“查看原文” ,观看完整大会视频回放 -
具身智能与强化学习前沿进展丨2023智源大会精彩回顾
大模型与人类的未来丨基于认知神经科学的大模型论坛精彩回顾