▏摘要
中国电信是中国三大运营商之一,为响应国家“东数西算”工程的全新数据中心形态,中国电信引入隐私计算平台,对内实现数据确权跟踪、对外实现数据共享交易,盘活中国电信分布在全国不同区域的数据资源和算力资源,通过数据开放、算力输出以及中国电信在AI领域的算法模型实践,赋能电信各省分公司和外部政企客户。
▏关键发现
• 隐私计算技术可实现各个数据协作方之间的安全可信,将智算中心升级为信算中心,形成一种集安全存储、可信计算、高性能、大规模为一体的新型可信信息基础设施;
• 在选择隐私计算技术路线时,出于对机器学习算法支持、计算密集度、安全信任方等考量,中国电信选择软硬件结合的可信执行环境(TEE)技术,兼容CPU与GPU,满足大规模数据训练推理的高性能需求,同时,信任基础建立在国产化技术路线之上,可以满足国产化替代的发展趋势;
• 各省分公司只需要部署异构加速隐私计算一体机,预装隐私计算核心架构和数据共享交易平台,则可以自动接入到中国电信区块链基础设施和数据流通的数据和算力调度网络中,实现快速部署和无缝扩容。
分享专家:周岳骞,冲量在线产品总经理
作者:沙丘社区分析师团队
01
案例企业
中国电信集团有限公司(以下简称“中国电信“)成立于1995年,是国有特大型通信骨干企业,连续多年入选世界500强企业。截至2021年底,拥有固定电话用户1.07亿户,移动电话用户3.72亿户,宽带用户1.70亿户,集团公司总资产9,078亿元,员工总数40余万人。
02
项目背景
2022年3月,十三届全国人大五次会议审查的计划报告提出,实施“东数西算”工程,把东部密集的算力需求有序引导到西部,使数据要素跨域流动,打通“数”动脉,织就全国算力一张网。中国电信作为三大运营商之一,作为重要的网络和算力基础设施的建设和运营方,自然承担起“东数西算”赋予的课题和任务。
对于中国电信本身而言,“东数西算”意味着内部和外部的两大需求:
内部:各省分公司之间通过一套平台实现算力和数据的统一调度和管理。中国电信内部各省分公司之间本身存在着算力和数据的不对等,内蒙、青海、宁夏等西部省份和地区,能源土地资源的成本较低,算力更多;而东部省份和地区的业务更加繁忙,有更多的业务数据。对此,中国电信推出数算云网战略,旨在打造全国算力和数据的一张网,实现整体算力和数据的调度。
外部:既能满足各省分公司对政企客户服务的需求场景,又能加大对各省分公司与外部政企合作时的数据安全合规保护要求。中国电信在各个省份都有外部政企合作方,合作方在使用中国电信算力和数据的同时,自身对数据安全存在诉求,中国电信在对外进行数据和算力的输出时也有着合规性的考量。随着《数据安全法》和《个人信息保护法》的推出和落实,中国电信对于全国省分公司的要求越来越严格。
基于以上两大需求,中国电信希望引入隐私计算平台实现各个数据协作方之间的安全可信,将智算中心升级为信算中心,形成一种集安全存储、可信计算、高性能、大规模为一体的新型可信信息基础设施。
隐私计算平台帮助各省分公司解决AI场景下数据、算法、建模的分离问题,具体包括两类场景:
第一,建模过程。智算中心拥有中国电信以及政企客户提供的数据、大量的异构芯片资源以及AI算法,模型训练方利用相关资源进行模型训练,但不希望输出的标签数据、用户身份数据等被沉淀。对于中国电信而言,托管在平台上的算法以及样本数据也不希望被模型训练方拿走,最终通过智算中心输出的只是建模结果。
第二,预测过程。政企客户在智算中心完成模型训练之后,希望将模型托管在智算中心平台上,然后对自身业务或用户提供API接口服务。用户在使用过程中,接口调用会涉及到真实的业务数据,在通过API方式调用模型的过程中,业务数据最终会传输到智算中心的加速芯片中进行运算,然后输出标签。在这个过程中,需要保证待预测的数据在预测过程中不能落盘,实现预测过程中样本数据与模型、算力提供方之间的分离。
03
解决方案
在实现智算中心升级的过程中,中国电信与冲量在线、中科海光等合作,共同推动国芯隐私计算及区块链技术的落地应用。
冲量在线是一家专注于数据流通与隐私计算解决方案的科技创新企业,拥有高新企业认证,在隐私计算一体机、可信执行环境、区块链增强的隐私计算等领域位均居于行业领先地位,也是隐私计算行业中最早拥抱信创生态并全面完成适配的企业。
中国电信、冲量在线、中科海光的合作最早可追溯于2020年,现已经历四个发展阶段:
阶段一:核心模块研发。冲量在线基于中科海光自研CPU芯片及自研的TEE技术CSV,自主研发了基于国产芯片的数据互联与隐私计算平台,并于2021年6月与中科海光联合推出了隐私计算软硬件一体机产品。
阶段二:数信链网产品。基于国产隐私计算一体机与区块链基础设施,电信研究院与冲量在线、海光信息联合研发了支持数据确权、定价、交易、隐私计算的数信链网产品,并在中国电信内部各省分公司进行试点和应用。
阶段三,异构加速创新。隐私计算技术在实际生产落地过程中存在着应用场景和性能规模方面的瓶颈,TEE技术无法满足异构场景下的需求,结合海光信息的异构加速芯片DCU,冲量在线与海光信息联合研发了TEE直通异构加速芯片的驱动及应用技术,将原本只能适用于CPU芯片上的CSV技术与海光芯片DCU直通,将原本由TEE保护的在CPU和内存当中的安全可信计算环境拓展到GPU中,利用GPU资源加速TEE中的隐私计算,推出全国产化的异构加速隐私计算一体机。
阶段四,信算落地应用。数信链网产品在北京电信部署落地,并结合北京电信智算中心的先进算力和算法积累,推出了基于隐私计算的AI开放应用平台,帮助北京电信实现数据资产与AI能力的开放运营,赋能北京电信的政企客户进行智能化转型。
可信执行环境(TEE)最早由CPU芯片厂商制定细节标准,无法覆盖智算中心的GPU资源。
2022年3月,英伟达率先推出首款能够支持隐私计算的H100 GPU芯片,提供PVle和NVLink通道保证CPU和GPU之间的通信完全加密,屏蔽CPU和GPU进行密文传输过程中的信息供给,能保证数据传输过程中的安全性;内置定制可信根,保证每个GPU芯片独立、无法被篡改,一旦被篡改,芯片的可信根就不再可用,保证硬件本身的安全性;此外,支持基于度量的可信启动和GPU远程认证,意味着运行在CPU当中的算法可以被数据提供方所度量,数据提供方可以从远端验证H100的芯片是否合规、是否被篡改过、是否内置可信根。基于CUDA生态,用户开发的深度学习和机器学习算法无需做任何更改,就可以在由TEE加密的GPU的可信执行环境中运行。
基于国际厂商推出基于TEE的异构加速方案,冲量在线与中科海光于2022年6月推出国内首个支持隐私计算的GPU芯片方案:通过海光DCU芯片与海光CPU芯片上的TEE直通,可以在CPU和GPU当中共同建立完整的可信执行环境,可信执行环境以CPU中的TEE为核心接收外部的算法、数据和模型,通过加密通道使用GPU的算力资源进行推理和训练,最后结果通过CPU中的可信执行环境对外输出。
该方案具有如下优势:
第一,在整个机器学习的训练和推理过程中,数据无需落盘,保证数据不存在隐私泄露的困扰;
第二,基于海光GPU CUDA的兼容,保证上层基于等TensorFlow、PyTorch等深度学习框架上的AI应用和隐私计算算法不需要修改;
第三,结合异构硬件加速卡,支持AI异构加速;
第四,全面国产化替代,CPU层面通过海光CPU替代英特尔CPU、GPU层面通过海光GPU替代英伟达GPU,实现端到端的软硬件全国产化。
在选择隐私计算技术路线时,中国电信考虑了基于软件的多方安全计算、联邦学习或基于硬件的可信执行环境。最终,中国电信选择了可信执行环境的技术路线,考虑因素如下:
第一,可信执行环境对于机器学习的支持更加友好,未来拓展更加便捷。无论是多方安全计算还是联邦学习,算法本身的开发语言、代码、开发框架都需要改造,例如多方安全计算需要用到多方安全计算所提供的算子重构算法;联邦学习需要基于联邦学习的框架重写原有机器学习算法。而可信执行环境由于本身是一个黑盒,不需要干预算法,原有机器学习算法、深度学习算法可以在无需改造的情况下,直接在可信执行环境当中运行。
第二,可信执行环境可支持亿级以上大规模数据。北京电信希望通过智算中心承载外部政企客户的诉求,每个节点能支持千万级甚至亿级别的大规模数据。可信执行环境的性能损耗可以控制在5%~10%,保证计算密集度不会有太大损耗,多方安全计算和联邦学习对计算密集度的损耗都相对较大。
第三,安全信任方可转移到芯片厂商。多方安全计算和联邦学习的安全信任方是在软件层面,或者说在加密算法层面,而可信执行环境的安全信任方可以转嫁给芯片厂商。引入国产芯片厂商一方面风险共担,另一方面保障信任基础建立在国产化技术路线之上,满足国产化替代的发展趋势。
目前,隐私计算平台在中国电信已经落地和正在落地的应用场景如下:
第一,金融风控。在保护用户隐私数据的前提下,帮助金融机构训练高准确率的用户金融风险评分模型,对可能发生的金融违约和欺诈行为进行预测,从而有效降低坏账率并做好风险预警。
第二,医疗药研。促进医疗结构与医院间的数据合作,通过“真实世界数据研究”推动药品研发和上市。严格遵循医疗数据保护规范,实现用户隐私数据完全脱敏且全流程隐私计算。
第三,双碳经济。通过智能水表、智能电表等物联网IT设备采集企业用电、能耗和生产经营数据,在隐私计算平台上进行建模,促进“双碳经济”中碳足迹数据的存证和交易,实现企业能耗、生产、经营数据的隐私保护,并通过数据流通促进监管机构和金融机构对绿色经济的管理和扶持。
第四,疫情防控。在做好个人信息保护的基础上实现大数据支撑的疫情联防联控,通过数据隐私共享流通,实现跨机构的联合排查和精准定位,同时充分保护居民个人隐私安全。
第五,治安舆情。通过电信业务数据、互联网行为数据、社交媒体舆情等融合分析,实现公共安全事件的有效预测和防范,实现治安情报分析中的多方双向隐私保护。
第六,跨省电信业务。实现中国电信各省分公司的数据互联互通,实现各省分公司数据所有权的保护和数据资产激活,支撑各类跨省电信业务的便捷开展与高效互通。
随着未来智算中心以及中国电信数信链网平台在各个省分公司的推广,每个省分公司只需要部署异构加速隐私计算一体机,预装隐私计算核心架构和数据共享交易平台,自动切入到中国电信区块链基础设施和数据流通的数据和算力调度网络中,实现快速部署和无缝扩容。
04
价值与效果
通过数信链网平台,中国电信对内实现数据确权跟踪、对外实现数据共享交易,并搭建智算中心的AI隐私计算开放平台,以SaaS化的方式提供隐私计算API管理。
目前,“数信链网”已经在中国电信及多个省分公司试点应用,承载了数万次内外部的数据交易流通和AI建模,总计运行的数据量超过百亿级别;支持北京电信的数据输出和智算AI开放业务,已支撑40余个AI训练的场景,包含千万用户量级的数据和数十种AI算法。