学者观察 | 联邦学习与区块链、大模型等新技术的融合与挑战-北京航空航天大学童咏昕

news2024/10/5 5:37:33

导语

当下,数据已成为经济社会发展中不可或缺的生产要素,正在发挥越来越大的价值。但是在数据使用过程中,由于隐私、合规或者无法完全信任合作方等原因,数据的拥有者并不希望彻底和他方共享数据。为解决原始数据自主可控与数据跨区域流动之间的矛盾,联邦学习这项技术应运而生。

在北京航空航天大学教授童咏昕看来,联邦学习和区块链技术在打破多方数据孤岛、实现数据共享的场景中都发挥了重要作用,实现了“原始数据不出域,数据可用不可见”的效果。以我国自主创新的区块链软硬件技术体系“长安链”为例,通过与联邦学习技术的深度融合,突破了数字经济中的数据“暗区”,实现了数据价值的释放,通过垂域大模型等场景应用,提升了数字经济的活力。

图片

学者寄语

面向国家数字经济发展重大战略需求,联邦学习与区块链等新技术的融合发展大有可为!希望长安链可以不断开拓创新,更进一步。

——北京航空航天大学  教授  童咏昕

理解联邦学习

联邦学习是一种隐私保护的分布式机器学习技术。通俗的理解好比小羊吃草,传统的机器学习方式是把数据汇集到一起再进行处理,就像各个牧场把草集中到一个地方喂小羊,小羊生长越来越健壮,也就是模型越来越强大。联邦学习就好比牵着小羊去各个牧场吃草,让羊越来越健壮,数据不动模型动,数据虽不出域但同样释放价值。

如今,联邦学习已经在智慧金融、智慧医疗、智慧城市等领域展现其应用价值。例如金融联合风控、疾病联合预测等,我们日常生活中经常使用的手机地图聚合网约车平台,也是联邦学习和时空数据挖掘的典型应用:各平台以联邦学习的方式在敏感数据不出域的条件下实现跨平台信息共享,合理地分配各平台订单及运力。

联邦学习与区块链,“正交”技术深度融合

联邦学习与区块链是“正交”的两个方向。区块链就像去中心化的账本,它解决的是多方协作的可信问题。联邦学习本质上是分布式机器学习的一类,使数据在不出本地的前提下联合学习。虽然从理论基础上来讲这两个技术是正交的,但是二者存在很多共性:都是分布式的计算,都能够实现数据共享。因此,二者的融合点在于可信联邦学习。

联邦学习与区块链的融合点在于可信联邦学习。联邦学习中最有代表性的算法为联邦平均算法(FedAvg),其中所有中间结果(梯度)均需上传传到中心服务器进行计算,所以从根本上它依然是一个中心化的分布式计算方法,算法的安全性依赖于中心服务器的可信度。而区块链之所以受到大家欢迎,是因为在很多业务场景中去中心化的技术框架更具可信度。区块链与中心化的联邦学习互补成为去中心化的联邦学习,这是非常有价值的。

至此大家可能不禁要问:为什么在现在有影响力的联邦学习开源社区里几乎没有基于区块链的联邦学习项目?我认为是因为缺少区块链领域的顶尖的研究机构对区块链和联邦学习深度融合的探索,这是一片蓝海。目前,未来区块链与隐私计算高精尖创新中心正在围绕长安链进行开拓,着力研发出有效的、开源的、联邦学习与区块链深度融合的系统,有希望填补这块空白。当然,这对系统构架来讲难度很高,比如,区块链的吞吐量和联邦学习的大梯度之间怎么耦合,才能既不浪费计算资源又能控制通信量,其中有非常多的工程和科学的问题需要解决。我们来自多个方向的科学家正在持续攻关。 

联邦学习与大模型,互补放大价值

联邦学习与大模型的结合是近期热门的研究问题。大模型是生成式学习中的前沿技术,很多人认为把数据汇在一起训练大模型已经非常耗费硬件资源和算力,采用联邦学习这种分布式方式联合多方数据进行训练,增大通信量是不是画蛇添足?其实不然。

现在的大模型训练主要使用的是公开的公有域数据,但高质量的数据往往存储在不对外公开的私域里,比如涉及隐私的政务数据,科研机构的数据,行业数据,这些数据质量更高,但无法在保持数据自治权的前提下轻易共享参与到基础通用大模型的训练中。联邦学习会对基础通用大语言模型训练产生助力,用私域的高质量数据解决公域数据质量不足的问题。

两种技术的另一个结合点是垂域大模型。基础大模型的体量非常庞大,例如meta开源的Llama 2有着百亿的参数量,我们国家的大型科技企业也拥有100亿参数级别的大模型。大模型对于算力的要求非常高,500张显卡已经是基础配置,每张显卡价格数万元,训练成本高昂,一般的科研机构或者高校很难持续投入。而在基础大模型之上注入特定领域数据使领域内的系统更智能,这样的垂域大模型正在构筑未来“办公自动化”的新形态。例如走失人口或犯罪分子的追踪任务,只需要在公安系统中输入相关的嫌疑人特征,系统就能够联合当地所有摄像头数据库,通过大模型进行人员锁定;又如一些基础的公文撰写任务,办公人员仅需简单描述一下需求之后可以自动生成,大幅提升了效率。在这个过程中,联邦学习技术使得行业高价值数据得以充分利用,同时又确保了数据不出域。因此联邦学习和大模型的技术融合在很多领域大有可为,相信未来一两年之内会不断涌现成熟的产品。

面向未来的联邦学习,须跨多道栏

机构数据共享仍需引导激励。联邦学习是一种作用于生产关系的技术,越面向多个参与主体的时候越能发挥更大的价值。在当前的法律和隐私保护框架下,如何能更好地推动跨机构间的合作是联邦学习面临的问题。

首先,联邦学习等技术领域亟待建立完备的法律基础。“数据可用不可见、原始数据不出域”是一个描述性术语,从计算机语言来讲“差分隐私保护”、“匿名化”、“脱敏”“安全多方计算”都是密码学或隐私计算相关的术语,而在监管与合规的过程中计算机技术术语与法律术语之间存在理解的壁垒,无法达到法律条款与技术之间的映射,这催生出了一个很火的方向“计算法学”,为联邦学习等隐私计算相关技术夯实法律基础,以应对多方机构间的权益纠纷,这是需要学者和法律工作者们共同推动的工作。

此外,政府单位或者行业协会需要引导、推动建设激励机制。解决数据自治和跨域协同之间矛盾的根本在于有一个好的激励机制,联邦的过程存在多方博弈,这种博弈存在着竞争与合作,双方在博弈的过程中是非理性的,每一方都想少输出、多获益。建设一个好的激励机制,以保证贡献数据多、价值大的主体能够获益多,将会促进数据要素价值流通的实现,营造良性的数字经济发展环境。

联邦学习理论研究仍需夯实基础。目前我国联邦学习技术处于领跑状态。这一技术最早是在国外提出,随后国内一批学者很快就参与到联邦学习的研究中,并在其技术发展中起到了引领作用,具有较强的国际影响力。比如,联邦学习在IEEE的第一个国际标准就是由我国牵头制定,第一本联邦学习英文教材也来自我国,谷歌学术上被引用量最高的论文也来自我国。

我国联邦学习的飞速发展在于国家对于数字经济的高度重视。“个人信息保护法”使个人数据隐私和安全保护有了法律基础,连续发布的“数据二十条”等政策为构建数据基础制度体系指明了方向,各地数据交易所的建设为联邦学习提供了天然的应用土壤,联邦学习成为了数据要素流通与交易有代表性的交易范式之一。此外,国家近年来大幅推动数字化转型,智慧政府、智慧城市、智慧交通等产业也在为新的信息技术应用提供了机会,联邦学习在应用方面相较其他国家有很大优势。

虽然在技术及应用上我国已取得了一些成绩,但仍存在问题:我国在该领域的研究优势主要集中于应用,在基础理论研究上与国外还有较大差距。

因此,我国联邦学习的发展仍需持之以恒加强基础理论研究。通过建立合作与交流平台,推动国内外高校、科研机构和创新中心间的知识共享与学术交流;为年轻人提供更多的学术机会和支持,为联邦学习培养人才后备军;鼓励学者进行基础研究、创新研究,设立奖项或资助计划以激励学者进行高水平的学术研究,培养出优秀的学术人才。要让更多的人加入到联邦学习的基础理论研究中来,还需要政府、高校、科研院共同营造领域内更加良好的学术氛围。

「数据新动能」学者观察

数据作为数字经济发展的核心引擎,如何激发动能、释放价值,驱动数字经济高质量发展?长安链开源社区发起的「数据新动能」学者观察栏目邀请专家学者分享数字经济、数字技术的研究、思考与展望,共同探索数字经济“密码”。

 拥抱区块链技术,探索数字经济“密码”

聚焦数字经济发展

追踪尖端学术前沿

探讨新潮科技理念

捕捉鲜活产业动态

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1191772.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mysql 和 Redis 数据如何保持一致

先阐明一下Mysql和Redis的关系:Mysql是数据库,用来持久化数据,一定程度上保证数据的可靠性;Redis是用来当缓存,用来提升数据访问的性能。 关于如何保证Mysql和Redis中的数据一致(即缓存一致性问题&#xf…

企业实施MES管理系统会增加哪些工作量

随着制造业的快速发展,越来越多的企业开始关注如何通过技术手段提高生产效率和质量。MES管理系统作为支撑企业生产管理的关键系统,受到很多企业的青睐。然而,对于是否部署MES管理系统,很多企业存在顾虑,担心其会增加工…

Python 3D建模指南【numpy-stl | pymesh | pytorch3d | solidpython | pyvista】

想象一下,我们需要用 python 编程语言构建某个对象的三维模型,然后将其可视化,或者准备一个文件以便在 3D 打印机上打印。 有几个库可以解决这些问题。 让我们看一下如何在 python 中从点、边和图元构建 3D 模型。 如何执行基本 3D 建模技术&…

overflow: auto滚动条跳到指定位置

点击对应模块跳转页面,滚动到对应模块,露出到可视范围 代码: scrollToCurrentCard() {// treeWrapper是包裹多个el-tree组件的父级元素,也是设置overflow:auto的元素let treeWrapper document.getElementsByClassName(treeWrapp…

Kafka JNDI 注入分析(CVE-2023-25194)

Apache Kafka Clients Jndi Injection 漏洞描述 Apache Kafka 是一个分布式数据流处理平台,可以实时发布、订阅、存储和处理数据流。Kafka Connect 是一种用于在 kafka 和其他系统之间可扩展、可靠的流式传输数据的工具。攻击者可以利用基于 SASL JAAS 配置和 SAS…

赞不绝口!飞凌嵌入式全新子品牌ElfBoard好评如潮

飞凌嵌入式凭借十多年的企业级板卡开发与服务经验,深挖嵌入式学习市场的需求和痛点推出全新子品牌ElfBoard,旨在为嵌入式学习爱好者创造更具价值的学习体验。 ElfBoard旗下ELF 1及ELF 1S两款新品已经上市1个月了,两款开发板产品凭借高性价比…

假如我们进入了时间循环,那么如何在时间循环里做最优决策?

👨‍🎓博主简介 🏅云计算领域优质创作者   🏅华为云开发者社区专家博主   🏅阿里云开发者社区专家博主 💊交流社区:运维交流社区 欢迎大家的加入! 🐋 希望大家多多支…

温湿度监测更方便,食品物流很多都这样做!

在当今高度技术化的社会,温度监控不仅仅是一项科技应用,更是各行各业中确保稳定运作和产品质量的重要环节。 温度监控系统的应用不仅有助于维护生产条件,提高效率,还对确保产品质量和符合行业标准起着至关重要的作用。 客户案例 …

直播实时数仓基于DataLeap开放平台在发布管控场景的业务实践

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 背景 业务背景 随着字节业务的高速增长,业务场景越来越丰富,业务基于数据做的决策也越来越多,对数据的时效性要求也越来越高。…

CSDN中调整图片和文本样式

1.调整图片比例 插入图片后,觉得图片比例不协调,想改小点。只需要在文件后缀加个参数即可:?pic_center 60x。 NOTE:等号左边一定要加个空格,否则格式不生效 2.修改字体颜色 如上 NOTE:等号左边一定要…

搭建完全分布式Hadoop

文章目录 一、Hadoop集群规划二、在主节点上配置Hadoop(一)登录虚拟机(二)设置主机名(三)主机名与IP地址映射(四)关闭与禁用防火墙(五)配置免密登录&#xff…

Linux Centos配置邮件发送

Linux Centos配置邮件发送 这里使用的是外部发送邮件方式,也就是使用自己的账号发送 第一步 首先要开启STMP授权码,以QQ邮箱为例 配置文件 vim /etc/mail.rc找到之后在最下面添加如下 #邮箱set from3324855376qq.com #默认smtp发送,stmp…

简单聊聊java中各种常量池

一 引子 小试身手 首先我们来看一道题 Integer i1 127; Integer i2 127;System.out.println(i1 i2); //这种调用底层实际是执行的Integer.valueOf(127),里面用到了IntegerCache对象池//值大于127时,不会从对象池中取对象 Integer i3 128; Integ…

4S店汽车行业万能通用小程序源码系统 在线预约试驾+购车计算器 源码完全开源可二次开发

随着互联网技术的发展和普及,越来越多的消费者开始依赖于互联网进行消费。传统的汽车销售模式也正在经历着数字化转型,以适应消费者需求的变化。这款小程序源码系统就是为帮助汽车4S店等销售商实现数字化转型而开发的。 以下是部分核心功能的代码模块&a…

合成数据在医疗保健行业的案例研究

从机器人辅助手术到医学成像技术,人工智能在医疗保健领域的应用正在迅速改变医疗保健行业,并改善服务成本和服务质量。例如,埃森哲表示,到 150 年,人工智能临床健康应用每年可以为美国医疗保健行业节省 2026 亿美元。 …

C++中的函数重载:多功能而强大的特性

引言 函数重载是C编程语言中的一项强大特性,它允许在同一个作用域内定义多个同名函数,但这些函数在参数类型、个数或顺序上有所不同。本文将深入探讨函数重载的用法,以及它的优势和应用场景。 正文 在C中,函数重载是一项非常有…

Spring Security使用总结八,Security的第二个功能授权,不同的角色访问不同的资源

前面五章基本都是给认证做铺垫的,这一章是security的另一个硬菜:授权,你在我这里注册,成为唯爱痞,我给你个令牌,你可以访问我资源,但是不能所有资源都给你,于是就有了授权,你只能访问我让你访问的资源,我不让你访问的资源,你一点都别想看。这里就出现了角色,不同的…

一个不用充钱也能让你变强的 VSCode 插件!!!

今天给大家推荐一款不用充钱也能让你变强的 vscode 插件 通义灵码(TONGYI Lingma),可以称之为 copilot 的替代甜品 💪 前言 之前一直使用的 GitHub Copilot,虽然功能强大,但是收费相对来说有点贵&#xf…

C 语言 while 和 do...while 循环

在本教程中,您将在示例的帮助下学习在C语言编程中创建while和do ... while循环。 在编程中,循环用于重复代码块,直到满足指定条件为止。 C语言编程具有三种类型的循环。 for循环 while循环 do... while循环 在上一教程中,我…

解决:AttributeError: ‘WebDriver‘ object has no attribute ‘find_element_by_xpath‘

解决:AttributeError: ‘WebDriver’ object has no attribute ‘find_element_by_xpath’ 背景 在使用之前的代码通过selenium定位元素时,报错:selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to l…