柴洪峰院士:大模型赋能金融科技思考与展望

news2024/9/21 15:37:51
本文整理自7月7日世界人工智能大会“AI生成与垂直大语言模型的无限魅力”论坛上中国工程院院士、复旦大学金融科技研究院院长柴洪峰《大模型赋能金融科技思考与展望》的主题分享,从金融垂直模型构建、金融知识图谱与大模型融合以及金融大模型的监管三个方面进行介绍。

随着金融科技的蓬勃发展,金融行业正经历着一场革命性的变革。金融垂直领域模型构建与金融数据的结合成为推动金融科技创新和发展的重要动力。通过整合跨学科研究和系统方法,能够探索金融系统的整体性和复杂性,超越单点技术突破,从而推动金融科技的突破性进展。大数据、人工智能和机器学习等技术的发展,使人们能更快速、高效地获取、分析、存储、共享和整合各种异构数据。

然而,金融垂直领域的大模型应用仍面临一些挑战。金融数据和知识的私密性限制了共享和构建大规模数据集的能力。此外,金融数据的多模态特性增加了模型处理和建模的复杂性。为了克服这些难题,加强产学研的合作势在必行,共同构建更强大的金融垂直领域基础模型,提升大模型对多模态数据的表达能力。

一、构建金融垂直领域模型

金融数据与通用大模型的结合

金融科技的崛起正在改变金融行业的面貌,实现金融科技突破对于推动金融领域的创新和发展至关重要。而整体思维和系统认知是实现金融科技突破的首要前提,金融系统是一个开放复杂巨系统,已经很难依靠“点”上的技术突破实现整体提升。所以需要将跨学科的研究和系统方法作为解决重大关键问题的首选项。

系统认知就是要从系统要素构成、互作机理和耦合作用来探索问题的解决途径。金融与实体经济是一个生命共同体,金融领域的科学突破必须突破单要素思维,从资源利用、运作效力、系统弹性和可持续性的整体维度进行思考。

数据科学和信息技术是金融领域的战略性关键技术,数据科学和分析科技的进步为金融领域的研究和知识应用提供了重要的突破机遇。大数据、人工智能、机器学习等技术的发展提供了更快速的收集、分析、存储、共享和集成异构数据的能力和高级分析方法。数据科学和信息技术能够极大提高对复杂问题的解决能力,在动态变化条件下,自动整合数据并进行实时建模,促进形成数据驱动的智慧管控。

人机混合智能技术将成为推动金融领域进步的创新驱动技术。人机混合智能技术包括自然语言处理、机器学习、计算机视觉、语音识别和智能推荐等多个领域。这些技术的发展使得人和机器间的交互变得更加智能化,人机混合智能在金融领域的应用也越来越多,最新的大模型技术,如ChatGPT、MOSS、ChatGLM等,是和目前的金融垂直领域结合的热点。

金融数据底座的构建可以包括各类金融实时数据,各类需解析的文档数据、各类非结构化数据以及信息高度浓缩文本。通过庞大的金融垂直类数据为金融大模型提供数据支撑。

对于金融垂直领域大模型的构造需要解决的关键问题有如下三点:

  1. 多源、异构金融数据金融数字底座构建、金融数据安全共享使用。

  2. 金融数据底座与大模型的融合技术,解决通用大模型在垂直领域知识匮乏、知识关联问题,同时实现模型根据数据实时更新、不断迭代。

  3. 基于金融科技底座的大模型对于金融科技多领域的应用赋能,展现金融垂直领域涌现能力。

然而目前大模型在金融垂直领域仍未挖掘出涌现效应,一方面是由于金融数据及知识的私密性导致难以共享,无法构建一个庞大的数据集,对此可以增强产学研的联动性,共同构建更强的金融垂直领域基座模型。另一方面由于金融数据模态更多,难以进行统一的处理建模,而如今的大模型对此种多模态的表达能力仍有待加强。

二、关于知识图谱与大模型的融合

知识驱动与数据驱动的交互

在过去的研究中,我们构建金融知识图谱系统,其过程多为从研报、财报等各类非结构化文本信息中抽取多源异构知识,通过实体对齐、实体消歧等知识融合方法完善庞大复杂的金融知识图谱,并通过分布式图数据库存储图数据,便于后续分布式图算法的开发与应用,这些已构建的金融知识图谱在大模型时代仍有其不可替代的应用。

知识图谱是过去对显示知识的一种符号化表达,大模型是新兴对隐性知识的表达。在大模型时代,也不能完全摒弃已构建的海量知识图谱,知识图谱能够指导大模型对行业进行正确精准的认知,提高其理解、推理决策的能力,同时知识图谱及专家知识库解决问题的范式需要基于统计学习的大模型范式相融合,才能更好推动领域内涌现能力的出现,我们需要把以知识图谱为代表的知识驱动方法,基于利用静态以及动态的知识图谱,与以大模型为代表的数据驱动方法进行持续交互,运用多种模式,以达到知识图谱与大模型的完美结合。以人机结合方式解决现实中的复杂问题,在认知的过程中,通过人机协同挖掘一些很难由人类或计算机单独发现的新知识。

   三、关于金融大模型的监管     

从安全角度解决大模型的部署问题

金融数据和垂直领域大模型密切相关,存在数据安全、大模型安全可信和伦理等问题,同时金融领域也涉及敏感信息和决策,因此对于金融大模型的监管必不可少:

  1. 建立监管框架与标准,确保大模型在金融领域的应用符合法规与道德要求,通过政产学研的合作制定相关的政策和指南。

  2. 对于金融大模型的部署与使用,需要协同共治,提升透明度,保证数据质量和可解释性的机制。这可以帮助用户与监管机构理解模型的决策依据,并确保其不带有偏见或歧视性。

  3. 监管机构还应加强对于金融大模型的审查和风险评估,对于关键人物和系统,应建立审查和测试的机制,确保其性能和安全性。

具体来讲可分为数据安全与版权安全两个方面:

数据安全

  1. 大模型的复杂性和规模增加了攻击者进行攻击的可能性。同时,大模型的训练过程涉及更多的数据和计算资源,这也无恶意攻击者提供了更多的机会来入侵和篡改数据模型。目前大模型极易通过对抗攻击、后门攻击、模型窃取等手段而遭受威胁,需要寻找有效的方法规避风险。

  2. 大模型在辅助金融场景知识问答的过程中,由于无法对用户身份进行识别,容易产生高等级或机密信息泄露等风险,需要对大模型训练过程中的数据安全等级做严格的界定。

版权安全
在金融垂直领域大模型开源的情况下,被恶意窃取并进行微调的现象时有发生,可利用特定的数据进行输入,模型识别到这一特定的输入,就会给出不同于正常类的输出,通过这一行为来判断模型的归属问题。最后,柴院士表示,站在新的历史起点上,在新的历史方位和发展格局中,复旦大学金融科技研究院将针对金融科技发展的科学问题,聚焦国家重点关键性、基础性、牵引性战略需求任务,发挥产学研协同优势,攻关金融为实体经济服务的关键技术,对上海国际金融中心、科创中心建设贡献复旦力量。

作者介绍

柴洪峰

中国工程院院士、复旦大学金融科技研究院院长、教授,博士生导师

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/819344.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据Flink(五十五):Flink架构体系

文章目录 Flink架构体系 一、 Flink中的重要角色 二、Flink数据流编程模型 三、Libraries支持

风辞远的科技茶屋:来自未来的信号枪

很久之前,有位朋友问我,现在科技资讯这么发达了,你们还写啊写做什么呢? 我是这么看的。最终能够凝结为资讯的那个新闻点,其实是一系列事情最终得出的结果,而这个结果又会带来更多新的结果。其中这些“得出”…

Ae 效果:CC Kernel

颜色校正/CC Kernel Color Correction/CC Kernel CC Kernel(CC 卷积核)效果主要用于图像的卷积处理,通过在卷积矩阵中设置不同的权重值,可以实现图像的锐化 Sharpen、模糊 Blur、查找边缘 Find Edges以及浮雕 Emboss等效果。 ◆ …

电脑剪辑视频的软件有哪些?试试这几种视频剪辑工具

视频剪辑可以帮助人们在不同情境下更好地理解和消化视频内容。通过剪辑,可以去除不必要的素材并突出重点,使观看者能够更快地获取信息,并且更容易保持注意力的集中。此外,剪辑可以提高视频质量,例如通过添加音乐、图形…

CAD如何转成JPG图片?学会这招轻松完成转换

当我们使用CAD软件创建设计或模型时,这些文件可能会很大且难以共享。将它们转换为图片可以使它们更易于使用和查看。图片格式通常支持各种软件和平台,这使得它们更容易被打开和共享,而不需要安装CAD软件。此外,图片文件通常比CAD文…

Java多线程面试21题

并行和并发有什么区别? 并行是指两个或者多个事件在同一时刻发生;而并发是指两个或多个事件在同一时间间隔发生。 并行是在不同实体上的多个事件,并发是在同一实体上的多个事件。 在一台处理器上“同时”处理多个任务,在多台处理…

【C++医学影像】支持三维影像后处理PACS系统源码

PACS系统源码是按照DICOM3.0和HL7标准,遵循IHE标准工作流程,以医学影像的采集、传输、存储和诊断为核心,集流程质控、患者信息管理应用和患者关注服务于一体的,覆盖放射、超声、内窥镜和病理等科室的C/S架构的综合医院应用系统。集成三维影像…

sublime配置less的一些坑(1)

仅在sublime的Install Package安装保存less报错 在sublime的Install Package安装less 打开sublime软件,按住CtrlShiftP组合键,弹出的界面中选择Install Package 选中后enter或者回车。等会弹出一个弹窗,大致意思是说你已经成功安装了package control。如果你在此之前已经安装了…

美团店铺营销要领|成都优优聚

装修风格直接影响店面的收费水平和顾客的层次,而店面的形象则是实力的外在体现。 室内设备布局、物品摆放、POP广告等是否有精心策划?另外,有些商店的LED液晶屏非常有用,因为它们随时都是商店的广告,所以在装修时一定要…

深度学习实战 | 开发一个围棋智能体

01、数据模型 神经网络的训练过程需要将HD5文件中的样本数据解析出来。数据集中的棋盘局面可以提取后直接输入卷积网络进行特征提取。从属性中取出样本标签用于神经网络的损失计算和反向传播。如图1所示,落子方信息从属性中提取后不用参与棋盘局面的特征提取&#…

【无标题】BTY-DNS推广机制及首次空投规则

BTY-DNS,致力于创建Web3领域中的去中心化身份(DID)。 BTY-DNS的.yuan域名自开放上线以来,获得广大用户的喜爱与勇跃注册,目前.yuan的域名注册量已近千个。BTY-DNS具有推广奖励机制,同时对于持有DNS的用户将…

vscode里安装Go插件和配置Go环境

vscode是一款跨平台、轻量级、插件多的开源IDE,在vscode不仅可以配置C/C、Python、R、Ruby等语言的环境,还可以配置Go语言的环境。这里介绍在vscode里安装Go语言的插件和配置Go语言环境,系统是Win10 64位。 1、下载Go安装包和配置GOROOT、GO…

《统计学》贾俊平 第八版 第6章 统计量及其抽样分布

这里写自定义目录标题 1、统计量的概念2、为什么要用统计量3、常用统计量4、由正态分布导出几个重要分布(1)抽样分布(3)t分布(4)F分布——两个样本方差比的抽样分布 5、样本均值分布与中心极限定理&#xf…

ALLEGRO之Analyze

本文主要讲述ALLEGRO的Analyze菜单。 (1)Initialize:暂不清楚; (2)Model Browser:暂不清楚; (3)Model Assignment:暂不清楚; &…

有哪些类似bootstrap的纯css框架?

前言 下面是一些类似bootstrap的css框架,以及其开源的仓库和网址附上,整理不易,希望多多点一下赞同收藏喜欢哈~ 1、Tailwind Star:70.5k Tailwind CSS 是一个实用的工具集,用于快速构建现代化的自定义用户界面。它提…

IDEA偶尔编译的时候不识别lombok

偶尔IDEA启动项目的时候会识别不到lombok,识别不到get()跟set()方法 方案 在settings添加下面代码 -Djps.track.ap.dependenciesfalse

SAP 委外副产品业务

SAP 委外副产品业务 1.订单bom设置数量为负 2.采购收货时,副产品O库存增加,545 O 借:原材料 贷:委外加工-发出材料 3.从O库存调拨回本地库存,542

数实融合 产业共创 | 竹云受邀出席“2023湾区数字科技50人论坛”

7月29日,“2023湾区数字科技50人论坛”在深圳湾科技生态园圆满举行!本届论坛由深圳市科学技术协会指导,中国鲲鹏产业源头创新中心、湾盟产业创新服务中心主办,深圳市金融攻关基地、广东赛迪工业和信息化研究院、香港科技大学深港协…

【Python】Python使用TK实现动态爱心效果

【Python】Python使用Tk实现动态爱心效果 画布使用了缓存机制,启动时绘制足够多的帧数,运行时一帧帧地取出来展示,明显更流畅,加快了程序执行速度。将控制跳动动画的函数从正弦函数换成了贝塞尔函数,贝塞尔函数更灵活…

vue中显示在页面顶部的进度条插件——NProgress

我们在一些网站中经常见到导航栏上方的进度条显示,大家仔细观察,其实csnd中也有类似的效果,如下图显示效果,我们现在就来一起看看这个功能需求是怎么实现的。 一、功能需求 首先,实现这个功能其实不难,说实…