8月28日,由国家数据局主办、贵州省人民政府承办的2024中国国际大数据产业博览会在贵阳盛大开幕。期间,2024中国国际大数据产业博览会领先科技成果发布会在贵阳国际生态会议中心举行。百度智能云千帆大模型数据安全解决方案,凭借大模型全生命周期的数据安全高效保护,在数百个成果申报中脱颖而出,荣获数博会2024优秀科技成果。
2024中国国际大数据产业博览会领先科技成果发布会
2024数博会领先科技成果的评审由两位院士领衔,数十位国内互联网大数据领域的权威专家共同参与,组建评审专家委员会。评审过程严格遵循公平公正原则,按照科学性、创新性、前瞻性和引导性等评审标准进行。2024数博会领先科技成果从人工智能大模型、大数据、区块链、云计算、5G、互联网、物联网、数据安全等领域征集到的275项重大科学发现、重大理论成果中层层筛选。其中,百度安全为百度智能云千帆大模型用户打造的百度数据保险箱产品(Baidu AI Realm),提供端到端的数据密态管控与数据安全合规能力,覆盖大模型语料数据安全管理、大模型训练数据安全管控、大模型推理安全服务、大模型微调数据安全管理、大模型私有化数据资产保护等大模型全生命周期各个环节,实现“环境可信、数据可动、使用可控”的数据安全创新体验,获得数博会2024优秀科技成果的认可。
百度智能云千帆大模型数据安全解决方案获优秀科技成果
为积极落实《中华人民共和国数据安全法》、《工业和信息化领域数据安全管理办法(试行)》、《生成式人工智能服务管理暂行办法》等数据安全相关要求,防范大模型全生命周期各阶段相关数据安全风险,增强大模型业务开展过程中数据安全综合能力,百度数据保险箱将前沿的数据安全和隐私保护技术与大模型生态相结合,基于“数据可见不可用,数据主权可控”的原则,针对异构多云环境下,以“零信任、零改造、全流程”为理念,建立全流程密态数据围栏,确保数据在数据围栏中始终保持密文状态流通,同时基于最细粒度数据权限管控原则,通过“环境清单、数据清单、程序清单”实现进程级的数据权限动态访问控制。
大模型全生命周期数据安全与模型保护机制
百度数据保险箱包含三种核心能力:
1)基于文心大模型的智能分类分级:依托文心大模型强大的语义理解能力与逻辑推理能力,基于大模型的智能数据分类分级代替基于正则表达式的传统分类分级方案,实现大规模数据分类分级的自动化与智能化,极大提高数据分类分级的效率,降低数据安全合规成本,为分类分级落地实施奠定良好基础。
2)大模型数据全流程密态管理:针对大模型场景下的标注类数据、语料类数据、日志类数据,提供包括FUSE文件透明加解密、Parquet数仓透明加解密、CASB数据库透明加解密等多种加密方案,从而实现百度智能云千帆大模型数据全流程密态管理,有效管控大模型数据安全风险,避免大模型核心生产工艺和企业机密数据资产泄漏。
3)大模型运行时安全管控:对百度智能云千帆大模型平台基础环境进行数据安全风险评估形成环境清单,为大模型关键程序进行数据安全风险评估形成程序清单,为核心数据资产进行数据安全风险评估形成数据清单,同时基于零信任等数据安全管控理念,为百度智能云千帆大模型平台提供运行时安全管控机制,实现大模型在生产、流转、部署等流程中数据资产、模型资产有效保护。
在人工智能不断迭代与发展的场景下,需要使用大量数据进行模型的预训练及微调对齐。这些数据主要包括公开数据、企业自有数据、合法的外采数据、自动合成数据及人工标注数据。在模型训练时需要大量的人力、数据、机器资源,而通过这些数据训练出来的模型,既包含企业敏感信息,又是企业的核心数据资产,将是企业科技实力与核心竞争力的重要组成。但数据和模型本身,具备天然的可复制性,很容易被内部人员或外部人员窃取,从而导致数据、模型泄露等事件的发生。这不仅会导致核心数据资产的流失,还可能导致企业竞争力下降或者产生舆论事件,被通报或处罚。
百度安全持续在数据安全领域积极探索,落实端、管、云三位一体的数据安全保护理念。基于百度数据保险箱,对内可以实现高价值数据、模型资产的全链路保护,防止企业核心资产泄露;对外在数据出域、模型端侧部署等场景,可以实现数据、模型的「可见不可用,可见不可得」,保证数据、模型处于可控状态,从而实现一体化高价值数据、模型资产保护方案。以百度数据保险箱为核心提供了一整套大模型数据安全保护方案,具有进程级权限管控,实现对数据使用过程的精细化管理;利用硬件级安全可信技术,构建可信的数据处理环境;采用立体化安全防护,在数据围栏内实现密文数据的自由流动;引入自然人粒度鉴权,对全流程操作进行可信审计。通过这些能力形成了百度数据保险箱端到端的大模型数据安全生态,有效应对了数据与模型在使用、存储、流转各个环节的安全风险,为大模型产业健康发展提供了坚实保障。
百度安全将继续与行业共享技术进步成果,共同治理和验证,进一步巩固和扩大数据安全工作的成果,打造更多行业最佳实践标准和产品,帮助更多企业在数字经济建设及智能化转型中进一步释放数据要素价值。