6月9日,2023北京智源大会,将邀请这一领域的探索者、实践者、以及关心智能科学的每个人,共同拉开未来舞台的帷幕,你准备好了吗?与会知名嘉宾包括,图灵奖得主Yann LeCun、图灵奖得主Geoffrey Hinton、OpenAI创始人Sam Altman、图灵奖得主Joseph Sifakis、诺贝尔奖得主Arieh Warshel、未来生命研究所创始人Max Tegmark、2021年科学突破奖得主David Baker、2022吴文俊最高成就奖得主郑南宁院士和中国科学院院士张钹等。目前已正式开放大会线上报名渠道。大会将同步向全球线上直播。
北京智源大会倒计时:7天
AI开源论坛 | 6月10日下午
AI开源技术和数据资源的共享已经成为推动AI发展的关键力量。伴随着深度学习、机器学习等人工智能技术的不断进步,越来越多的开源工具、框架以及大规模的开源数据集涌现出来,为 AI 的研究和应用提供了丰富的土壤,推动了AI在语言、视觉、语音以及跨模态等领域的进步。特别地,开源大模型,如GPT、LLaMA等,在众多的下游任务中取得了重大突破,这为AI的未来发展打开了新的可能。可以预见,AI开源技术与数据将会在未来继续为学术界和工业界带来更多的机会和挑战。本次论坛邀请了AI开源和数据领域的知名专家,他们将就AI开源技术与平台建设、数据资源的管理和应用等问题进行深入的探讨,并带来一系列精彩的报告。
论坛议程
论坛主席
堵俊平,LF AI & DATA基金会董事主席
堵俊平,LF AI&DATA基金会主席(2022-2023)。Apache基金会成员、Apache Hadoop等项目的核心PMC 以及Committer。曾任世界五百强公司高管、硅谷著名创新公司的研发负责人等职务,在云计算、大数据和AI开源领域等领域具有长期的经验与影响力。
主持人
杨轩,Linux基金会亚太区副总裁
杨轩,Linux基金会亚太区副总裁,主要负责人工智能、开源安全、边缘计算以及开源人才发展等领域的生态发展。在软件行业拥有超过20年的经验,曾在多家大型国际软件企业和组织担任中国区首席代表, 在企业管理软件、应用开发、企业数字化转型实践、以及开源社区运营和治理等方面有丰富的经验。
演讲主题及嘉宾介绍(按照发言先后顺序)
1、AI与数据开源:挑战与机会
议题简介:当下,AI与大语言模型迎来了爆发式的发展。在模型生态蓬勃发展的背后,做为模型最核心基础的数据,其痛点也不断被持续的发掘出来。如何获取高质量的数据,把模型与数据统一规范化治理,以及解决跨区域与跨云的数据与模型孤岛问题等成为各大企业在探索发挥AI模型价值的重大障碍,业界也亟需标准化的解决方案。演讲者将阐释各大痛点背后的实际影响,业界当前及潜在的应对方式,以及未来可能出现的技术趋势。
演讲嘉宾:堵俊平
2、智源FlagOpen大模型技术开源体系,开启大模型时代“新Linux”生态建设
议题简介:FlagOpen(飞智)大模型技术开源体系是由智源研究院与多家企业、高校和科研机构共建的一站式、高质量的大模型开源开放软件体系,包括大模型算法、模型、数据、工具、评测等重要组成部分,旨在建设大模型领域的“新Linux”生态。基于FlagOpen,国内外开发者可以快速开启各种大模型的尝试、开发和研究工作,企业可以低门槛进行大模型研发。同时,FlagOpen大模型基础软件开源体系正逐步实现对多种深度学习框架、多种AI芯片的完整支持,支撑AI大模型软硬件生态的百花齐放。本次报告将分享FlagOpen开源体系的最新成果和未来计划。
林咏华,北京智源人工智能研究院副院长兼总工程师
林咏华现任北京智源人工智能研究院副院长兼总工程师, 主管大模型研究中心、人工智能系统及基础软件研究、产业生态合作等重要方向。IEEE女工程师亚太区领导组成员,IEEE女工程师协会北京分会的创始人。曾任IBM中国研究院院长,同时也是IBM全球杰出工程师,在IBM内部引领全球人工智能系统的创新。从事近20年的系统架构、云计算、AI系统, 计算机视觉等领域的研究。本人有超过50个全球专利,并多次获得ACM/IEEE最佳论文奖。获评2019年福布斯中国50位科技领导女性。
3、FlagEval:大模型评测开源项目
议题简介:模型评测是模型生产生命周期中非常重要的一环,随着近年来基础模型相关理论和技术的高速发展,但传统的评测方法和基准在基础模型评测上正面临失效的困境,因此研发面向基础模型的评测方法和工具就显得更为重要。FlagEval 大模型开源评测体系创新构建了“能力-任务-指标”三维大语言模型评测框架,尝试细粒度的刻画基础模型的认知能力边界。
杨熙,北京智源人工智能研究院技术平台智能评测组负责人
杨熙,北京智源人工智能研究院技术平台智能评测组负责人。北京大学博士,中科院计算所博士后。FlagEval核心贡献者,主要研究多领域、多维度的基础模型评测方法及工具。
4、AI快速增长年 - 来自HuggingFace开源社区的新进展
议题简介:过去的一年是人工智能领域高速发展的一年,我们看到了Stable diffusion和ChatGPT等令人兴奋的工作。HuggingFace开源社区在这精彩的一年中,同样与我们的合作伙伴以及社区贡献者加快了开发步伐,以保证更多人能受益于当下最前沿的机器学习技术。让我们一起总结HuggingFace在大型预训练模型、开源工具、机器学习应用及道德监管等方向的进展,并共同讨论HuggingFace的下一步。
黄靖雅,HuggingFace机器学习工程师
黄靖雅是一名机器学习工程师,是Transformers开源库的扩展库Optimum的主要开发者及维护者。她在HugginFace负责模型加速训练和高效部署, 以及HumatchggingFace开源生态系统与新兴AI加速器的集成。自加入HugginFace,她领导了HuggingFace和微软ONNX Runtime团队的深度学习模型优化合作以及与亚马逊训练芯片Trainium以及推理芯片Inferentia的集成等工作。
5、AI大语言模型开源生态发展与大模型平台构建
议题简介:AI目前正处于螺旋上升式发展历史和重大变革机会,从感知理解世界到生成创造世界的AI增长曲线中,大规模语言模型(LLM)所涌现出来的超预期表现,使得LLM成为新的技术演进方向。尤其在商业化落地过程中,也对算力集群软硬件提出全新挑战。本次分享将会详细介绍AI大语言模型的开源生态发展,以及昇思大模型平台架构设计及应用,聚焦讨论行业机会和落脚点问题。
胡晓曼,华为MindSpore开源生态总监
胡晓曼,华为昇思MindSpore开源生态总监,昇思大模型平台负责人,LF AI & DATA基金会Outreach委员会Chair,中国电子学会专家库成员,Tiny MS开源项目负责人,华为科技女性代表之一。
6、Ray: 人工智能的开源计算框架
议题简介:Ray作为高速发展的开源项目,专注于解决人工智能和机器学习的核心问题,在OpenAI, Uber, 蚂蚁金服,字节跳动等公司均有产品级的部署。Ray提供数据预处理,模型训练,参数调优,推理,强化学习等多种模块。本次分享介绍Ray的发展历史,核心模块,以及开源社区的最新动态。
苏成,Anyscale Ray Data 团队经理
苏成,Anyscale公司团队经理,负责Ray Data数据预处理模块。开源项目Ray committer。专注于解决人工智能中数据读取和预处理的痛点问题。曾就职于Meta数据架构部门,参与Spark, Hive, Hadoop等多个开源项目开发。
7、产业级深度学习开源开放平台飞桨及其开源社区
议题简介:飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个自主研发、功能完备、 开源开放的产业级深度学习平台,集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体。目前,飞桨累计开发者535万,服务企业20万家,基于飞桨开源深度学习平台产生了67万个模型。本议题介绍飞桨平台及其开源社区建设的思考。
张军,百度飞桨框架产品负责人、开放原子开源基金会TOC委员
张军,现任百度飞桨资深工程师,是飞桨(PaddlePaddle)开源社区的maintainer之一,长期的开源贡献者,同时,也是开放原子开源基金会技术监督委员会成员。张军在自然语言处理、云计算、深度学习等领域,拥有五十余件发明专利。曾经是百度深度学习框架、百度翻译的核心研发工程师,目前主要负责飞桨开源框架的产品设计和开源社区建设。
8、向量数据库:面向AIGC的海量记忆体
议题简介:目前AIGC技术生态已经开始从模型扩散到基础软件,向量数据库,作为链接AI模型与海量非结构化数据的桥梁,正发挥越来越重要的作用。本次分享将介绍 LLM + VectorDB + Prompt 架构,以及向量数据库如何为大模型赋能。
郭人通,Ziiliz合伙人&产品总监
郭人通博士是 Zilliz 的合伙人兼产品总监,他专注于开发以 AI 为中心的数据分析基础软件与系统。他是 Milvus 项目的系统架构师和 PMC 成员,以及Towhee 项目的创始人,目前是 Zilliz 的产品负责人。他毕业于华中科技大学,获得计算机软件与理论博士学位。他的研究成果曾发表于 SIGMOD,VLDB,USENIX ATC,ICS,IEEE TPDS 等国际顶级会议和期刊。
9、OpenRL:通用的开源强化学习框架
议题简介:强化学习作为机器学习领域中重要的训练范式,在机器人、自然语言、内容生成、自动驾驶、推荐系统中都发挥着极其重要的作用。OpenRL作为一个通用强化学习框架,通过统一的训练接口,同时支持单智能体,多智能体,自然语言等任务的训练。另外,OpenRL提供易用且可定制化的编程模式,既方便入门用户快速上手,又能为专业人员提供灵活的配置方式。未来,OpenRL将会在促进强化学习智能体开源和应用方面做出更多贡献。
黄世宇,第四范式强化学习科学家,OpenRL Lab负责人
黄世宇,第四范式强化学习科学家,开源强化学习OpenRL创始人。本科与博士均毕业于清华大学计算机系,导师是朱军和陈挺教授,本科期间在CMU交换,导师为Deva Ramanan教授。主要研究方向为强化学习,多智能体强化学习,分布式强化学习。曾在ICLR、CVPR、AAAI、AAMAS等顶级会议发表多篇学术论文。其领导开发的TiZero谷歌足球游戏智能体曾在及第平台上取得排名第一的成绩。黄世宇也曾在腾讯AI Lab、华为诺亚、商汤、瑞莱智慧等工作。
10、浅谈大模型及演进技术发展应用
议题简介:目前,大众对于ChatGPT的理解依然是一个黑盒,就像一个冰山一样,我们能看到能使用的只是它的一角,真正ChatGPT做大语言能力的涌现都只是一个猜测,并没有好的证明,但是它为我们探索知识统一表征和推理和世界认知和建模等问题解决提供了一条道路。中科闻歌在大模型方面做了多年的探索和尝试,主要面向多模态的内容理解和多模态的内容生成。目前,基于多年积累的高质量领域数据训练了面向媒体、安全、金融等领域的大语言模型,即雅意(YaYi)大模型。
徐楠,中科院自动化所副研究员、中科闻歌产研中心副总经理
徐楠博士,中科院自动化研究所副研究员、中科闻歌产研中心副总经理,在ACL、AAAI、SIGIR、CIKM、TMM、IEEE Intelligent Systems等人工智能领域顶级学术会议和期刊上发表论文10余篇,申请发明专利20余项。科技部国家重点研发计划重点专项方向负责人,中国科学院特别研究助理资助,国家青年科学基金课题负责人。
11、圆桌对话:AI与Data开源的趋势与展望
圆桌论坛主持人:
李晨:Zilliz开发者关系及市场运营负责人
圆桌论坛嘉宾:
堵俊平:LF AI & DATA基金会董事主席
杨轩:Linux基金会亚太区副总裁
李晨:Zilliz开发者关系及市场运营负责人
孟伟:中兴通讯开源战略总监、LF AI & Data董事会成员
杜霖:倍赛科技创始人兼CEO
李晨,Zilliz开发者关系及市场运营负责人
Linux Foundation APAC Evangelist。曾任开源中国社区负责人,Linux Foundation 开源软件学园运营负责人。多年来从事开源项目和社区的组织、管理工作,有着丰富的市场和运营经验,策划及参与执行多个国内外顶级基金会在国内的落地和生态拓展工作。
孟伟,中兴通讯开源战略总监、LF AI & Data董事会成员
孟伟,中兴通讯股份有限公司开源战略总监。从2016年开始,他就牵头中兴通讯人工智能领域的预研工作。他致力于AI和5G方向的研究,并在2018年被选为联合国国际电信联盟ITU-T ML5G WG3主席(机器学习应用于5G网络架构组)。同时他当选中国人工智能产业发展联盟总体组副组长及Linux AI & Data基金会董事会成员。孟伟先生先后担任Linux基金会ODL项目的PTL及Adlik项目的mentor,并且在IETF及ITU-T立项及发布多项国际标准,涉及人工智能及网络功能虚拟化方向。同时,他以第一作者获得中国及国际专利授权30余件。
杜霖,倍赛科技创始人兼CEO
本科毕业于上海交通大学ACM试点班,清华大学-欧洲工商管理学院INSEAD高级工商管理硕士TIEMBA。连续创业者,曾先后创立并成功退出数字营销公司Puda Tech、极限钓鱼品牌 M&W Jigging。
相关阅读
2023智源大会议程公开 | 生成模型论坛
2023智源大会议程公开 | 基于认知神经科学的大模型
大模型浪潮下的平台、框架、AI编译器和芯片架构 | 智源大会AI系统论坛Geoffrey Hinton、姚期智、张钹、Sam Altman等专家共话AI安全与对齐丨2023智源大会议程公开
扫码二维码或点击「阅读原文」报名线下参会&线上直播