和鲸科技执行总裁殷自强:面向空间数据协同分析场景的模型生命周期管理方法

news2024/11/25 4:52:31

导读:

由 ACM SIGSPATIAL 中国分会主办的第五届空间数据智能学术会议(SpatialDI 2024)于 2024 年 4 月 25 日- 27 日在南京圆满召开,主题为“ AGI 时代下的空间数据智能”,旨在深入推动空间数据智能研究的理论进步与应用创新,以便相关领域的专家学者共同探讨新理论、新问题与新方法,共同推动该领域的持续发展。

会议期间,和鲸科技联合创始人,现任公司执行总裁兼首席产品官殷自强受邀在应急减灾与可持续发展专题论坛发表主题报告,题目为《面向空间数据协同分析场景的模型生命周期管理方法》

本文内容已做精简,如需获取完整版课件,请联系我们

分享嘉宾 | 殷自强

和鲸科技联合创始人,现任公司执行总裁兼首席产品官,统筹公司产品战略与客户战略,专注于数据驱动研究与 AI for Science 场景的数据科学平台产品设计与方法创新,主导了 ModelWhale 数据科学协同平台在气象、地质、遥感、空间科学等众多空间数据智能领域的落地,参与了多项国家级研究专项的平台基础设施攻关,对数据智能场景的多角色协同研究流程有独到的见解与丰富的经验积累。

01

企业视角下的空间数据智能分析与应用减灾场景

本次报告旨在以企业的角度探讨如何站在模型生命周期管理的视角,审视空间数据智能分析以及其在各应用减灾场景下的应用。殷自强介绍道,作为一家专注于“数据科学协同平台”的数据智能科技公司和平台服务商,和鲸科技已在气象、地质、地震、遥感、空间科学等领域参与了诸多应急减灾领域的模型落地,对其相关研究方法的快速发展深有体会。

和鲸发现,空间数据智能场景相关的数据积累呈现出爆炸性的增长,涵盖了众多维度。这些数据不仅包括空间站和卫星数据,还涉及地面雷达站点等多种观点数据,使数据变得日益多元化。

其次,我们发现这些数据在各个应用场景中不断进行渗透。无论是地质调查、社会科学、城市空间还是海洋科学等领域,数据都在发挥着重要作用。在这个过程中,数据与应用场景之间呈现出不断的关联、耦合和协同。例如,在气象场景中,我们需要整合卫星、雷达、格点和站点等多种数据来进行气象预报。

此外,许多应用场景也存在多耦合的特点。在完成预测动作后,我们需要立即评估相关的风险。例如,极端天气所带来的风险可能涉及地质灾害以及对城市空间的影响等多个方面。因此,在应用场景上,我们亟需进行相应的耦合处理。

02

企业视角下的空间数据智能分析与应用减灾场景

整个空间数据智能场景中,面对海量的数据,不同组织和研究场景之间的协同变得困难。然而,通过高维压缩形成模型,我们能够实现数据的共享和传递。数据的内在信息与价值正日益以更为丰富和高维的形式融入模型中,对数据的生命周期管理已逐渐演进为对模型生命周期的全面掌控,在此基础上,我们需要进一步审视并协调数据生命周期与模型生命周期之间的动态关系(From DataOps to ModelOps)。当前,针对空间数据智能分析场景的模型生命周期管理流程,和鲸通过自身实践,总结出以下 3 种 AI for Science 的ModelOps 方法论。

SAOps:以知识驱动、以数据验证的科学分析流程形成的专业模型

SAOps 是一个不断提出假设、检验假设的过程,涉及设计实验、分析数据等多个环节。在此过程中,模型的可解释性尤为重要,我们强调解释性优先,旨在解决模型与解释之间的关键问题。为此,我们需要对模型管理进行两项重要工作:一是保留探索模型及结果的过程,采用使用效果不好的方法,其结论和对比结果也能推进模型的发展;二是将模型与计算过程的报告相结合,共同构成成果。

MLOps:以数据驱动、以知识解释的 AI 模型

MLOps 是一个深入研究的流程。这类模型具有多个特点,如依赖数据和算力进行训练,例如,模型的代码和框架可以保持不变,但不同的训练数据会直接影响模型结构。此外,调用的算力资源也会影响模型训练的结果。因此,模型设计不仅取决于设计者,还依赖于数据资源和算力资源。最后,这类模型是全生命周期的,需要不断迭代,以适应数据的不断增长。我们需要进行数据探索、模型训练、模型评估、模型部署、模型监控和优化,以确保模型处于最佳状态。

讨论模型版本时,我们面临的挑战与以往不同。从模型全生命周期的角度看,版本管理变得更为复杂,不再仅限于模型文件本身。现在,我们需综合考虑数据要素、算力代码及训练环境等关键因素。此外,模型需持续评估,仅凭增加数据量并不能保证性能提升,倘若引入脏数据,可能会影响模型表现。因此,需建立持续化评估体系,确保模型始终最佳。

LLMOps:串联数据模型与领域知识的 LLM 智能体

大语言模型不仅在于其语言处理能力,更在于其作为 Agent 智能体基础设施所带来的变革。大模型可以参与 Agent智能体的计划(planning)、工具(tools)、记忆(memory)和行动(action)等过程,加速科学实验设计、阶段性成果学习以及与其他模型的融合。在未来,我们有望将研究流程、模型、科研工具等函数化,供大模型调用,从而加速模型生命周期的研究。

03

企业视角下的空间数据智能分析与应用减灾场景

接下来,我们将通过一个具体案例来深入探讨模型生命周期管理在实际应用中的落地实践。这个案例是和鲸与中国自然资源航空物探遥感中心遥感应用技术研究所合作的项目。在合作过程中,我们对上述模型生命周期管理流程进行了总结,并发现了一些关键特点和要素。

首先,和鲸高度重视模型生命周期管理的完善,因此,确立清晰的研究基本范式显得尤为重要。以遥感研究为例,遥感数据具有许多特殊性,虽然与图像数据相似,但无法直接使用计算机视觉模型进行研究。因此,我们需要将专家知识融合到模型设计过程中,形成“AI+遥感”的研究范式。这种范式强调从数据与知识的联合驱动出发,形成了对整个模型过程的研究管理。

在这个过程中,领域专家和AI模型相关专家之间的协作至关重要。他们需要在平台上共同工作,利用智能解译等相关技术,使模型能够学习并形成相应的流程。这个过程需要从数据驱动逐渐转向数据与知识的联合驱动,进而形成具体的研究范式。随后,和鲸可以基于这些范式开发具体的应用,形成“1+N”的服务模式,即在一个平台上结合多个应用终端,同时满足科研和生产的其他需求。

04

企业视角下的空间数据智能分析与应用减灾场景

特点一:跨角色协同扮演重要角色

首先,专家的知识与数据驱动化知识的结合是这一过程的关键。在讨论整个模型生命周期管理时,我们发现跨角色的协同扮演着重要角色。这主要体现在两个方面:一是领域专家对已有科研数据形成科研分析工具链的过程;二是AI算法模型的不断迭代过程。这两个过程并不是孤立的,而是需要相互协同,共同推动模型的发展。例如,当从遥感数据中提取信息后,我们利用智能解工具生成结果,并进一步开展深入研究。这些研究过程中的成果需要能够被AI解读,以便更好地辅助数据分析。

特点二:时间尺度的不断发展对可复现性的重要性

此外,由于空间数据科学中的数据量随时间呈爆炸性增长,相关模型的持续迭代十分必要。在这个过程中,模型的可复现性至关重要。这意味着无论是内部单位还是其他人,都需要能够基于我们的数据和模型进行下一步的迭代。因此,我们需要讨论如何确保模型能够被有效复现,包括基础设施的建设和对模型理解性的提升。

特点三:社区化承载模型成果对领域发展的重要性

会上的其他专家也多次提及协同的重要性。站在数据智能研究的角度,组织的边界是模糊的,它并不局限于独立的研究机构内,社区化是承载模型成果、推动领域发展的重要方式。不同的组织需要设计相应的模型成果接口,以便与外部组织进行交流和调用。例如,我们设计的和鲸社区,将不同垂直领域,例如气象科学数据分析的模型和成果以开放的形式在平台上共享。

数据科学平台的选型和落地过程极为复杂,充满风险,因此客户在选择产品时极为审慎。随着企业对成本效益和可持续性的日益关注,服务商需提供成本更低、迭代更快、效率更高的方案来满足客户需求。和鲸科技凭借其成熟的竞赛和社区平台,实现了多垂直领域数据分析流程、代码、结果的在线运行与端到端复现,使其他用户能够轻松运行、修改并分享社区内的模板。这不仅为和鲸吸引了大量专业用户,也为数据科学协同平台 ModelWhale 的发展提供了强大的支持。

本文内容已做精简,如需获取完整版课件,请联系我们

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1828653.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

os实训课程模拟考试(8~13)

基于信号量的进程间通信 信号量IPC操作考查 编程要求 根据提示,在右侧编辑器补充代码,了解OpenEuler系统如何使用信号量进行IPC通信,代码中先用sem_read_array[]数组存储数据,并进行信号量与数据的输出,我们需要补充…

大数据与人工智能在保险行业数字化转型中的应用

随着科技的快速发展,大数据和人工智能(AI)技术在保险行业中扮演着越来越重要的角色,推动了保险行业的数字化转型。通过收集和分析海量的用户数据,利用先进的人工智能算法,保险公司能够更准确地评估风险&…

消息队列-概述-JMS和AMQP

JMS和AMQP JMS是什么 JMS(JAVA Message Service,java 消息服务)是 Java 的消息服务,JMS 的客户端之间可以通过 JMS 服务进行异步的消息传输。JMS(JAVA Message Service,Java 消息服务)API 是一个消息服务…

docker desktop for mac os如何使用本地代理

在macbook上弄了个代理,然后按照网上所说的去配代理 然后测试下 docker pull busybox 结果无反应,超时。我去!!! 鼓捣了半天,看了docker官网,问了chatgpt ,按照它们所说的试了下也没…

IDEA导入项目报错java程序包不存在

如图文件结构,本来是在web-demo中操作,但是想导入一下其他模块,切换了项目文件的目录,发现需要重新对Tomcat等进行配置,配置好之后发现运行出现Java相关错误(如下)记录一下修正过程。 java: 程序…

中国最著名的起名大师颜廷利:父亲节与之相关的真实含义

今天是2024年6月16日,这一天被广泛庆祝为“父亲节”。在汉语中,“父亲”这一角色常以“爸爸”、“大大”(da-da)或“爹爹”等词汇表达。有趣的是,“爸爸”在汉语拼音中表示为“ba-ba”,而当我们稍微改变“b…

消息队列-概述-什么是消息队列

什么是消息队列 我们可以把消息队列看作是一个存放消息的容器,当我们需要使用消息的时候,直接从容器中取出消息供自己使用即可。由于队列 Queue 是一种先进先出的数据结构,所以消费消息时也是按照顺序来消费的。 参与消息传递的双方称为 生产…

c++20 规范, vs2019 , 头文件 <mutex> ,注释以及几个探讨

(1 探讨一) mutex 这个名称的来源是 mutual exclusion :互相排斥。 mutex 与 recursive_mutex 的数据成员的定义如下: 测试如下: 运行以下: 以及: (2 探讨二) recursive_…

Orange Pi AIpro:高性能AI开发板开箱体验及样例测试

文章目录 前言背景介绍产品介绍主要参数配置AI处理器——昇腾310 NPU模型训练预测加载resnet50模型真实动物测试虚拟动物测试 前言 随着人工智能和物联网技术的迅速发展,单板计算机(Single Board Computer, SBC)在创客和开发者社区中越来越受…

buuctf-findKey

exe文件 运行发现这个窗口,没有任何消息 32位 进入字符串就发现了flag{ 左边红色代表没有F5成功 我们再编译一下(选中红色的全部按p) LRESULT __stdcall sub_401640(HWND hWndParent, UINT Msg, WPARAM wParam, LPARAM lParam) {int v5; // eaxsize_t v6; // eaxDWORD v7; /…

1055 集体照(测试点3, 4, 5)

solution 从后排开始输出,可以先把所有的学生进行排序(身高降序,名字升序),再按照每排的人数找到中间位置依次左右各一个进行排列测试点3, 4, 5:k是小于10的正整数,则每…

Spring5中IOC创建对象的方式(有参与无参)与时机(附三类无参创建代码供参考)

Spring5中IOC创建对象的方式(有参与无参)附三类无参创建代码供参考 1. IOC容器 IOC是Spring框架的核心内容,Spring容器使用多种方式完美的实现了IOC,可以使用XML配置,也可以使用注解,新版本的Spring也可以零配置实现IOC。 Spri…

嵌入式微处理器重点学习(三)

堆栈操作 R1=0x005 R3=0x004 SP=0x80014 STMFD sp!, {r1, r3} 指令STMFD sp!, {r1, r3}是一条ARM架构中的存储多个寄存器到内存的指令,这里用于将r1和r3寄存器的内容存储到栈上。STMFD(Store Multiple Full Descending)是一种全递减模式的多寄存器存储指令,它会先将栈指针…

流媒体传输协议HTTP-FLV、WebSocket-FLV、HTTP-TS 和 WebSocket-TS的详细介绍、应用场景及对比

一、前言 HTTP-FLV、WS-FLV、HTTP-TS 和 WS-TS 是针对 FLV 和 TS 格式视频流的不同传输方式。它们通过不同的协议实现视频流的传输,以满足不同的应用场景和需求。接下来我们对这些流媒体传输协议进行剖析。 二、传输协议 1、HTTP-FLV 介绍:基于 HTTP…

MySQL-创建表~数据类型

070-创建表 create table t_user(no int,name varchar(20),gender char(1) default 男);071-插入数据 语法格式: insert into 表名(字段名1, 字段名2, 字段名3,......) values (值1,值2,值3,......);insert into t_user(no, name, gender) values(1, Cupid, 男);字…

嵌入式门槛高不高,工资怎么样?

一般来说,嵌入式岗位的准入门槛其实并不是特别高。通常情况下,只要能够熟练掌握 C 语言编程以及单片机相关知识,就能够去制作一些较为简单的电子产品,由此可见其门槛相对而言是比较低的,相应的薪水可能也不会特别高。 …

【Kafka】Kafka提高生产者吞吐量、数据可靠性-06

【Kafka】Kafka提高生产者吞吐量-06 1. 提高生产者吞吐量2.数据可靠性2.1 回顾数据的发送流程2.2 ack应答级别2.2.1 acks:02.2.2 acks:12.2.2 acks:-1(all)2.2.2.1 数据可靠性分析2.2.2.2 数据完全可靠 2.3 可靠性总结2.4 可靠性代码配置 1. 提高生产者吞吐量 import org.apach…

[C++] vector list 等容器的迭代器失效问题

标题:[C] 容器的迭代器失效问题 水墨不写bug 正文开始: 什么是迭代器? 迭代器是STL提供的六大组件之一,它允许我们访问容器(如vector、list、set等)中的元素,同时提供一个遍历容器的方法。然而…

Vue26-内置指令03:v-cloak指令

一、需求 将引入本地JS的代码&#xff0c;换成引入外部JS&#xff0c;且引入的外部JS要等待5S。 【备注】&#xff1a;浏览器也能调节网速 二、js阻塞 <body>的最下方也能引入JS&#xff1a; 此时&#xff0c;用户能在5S内看到root容器未编译的部分。 解决该问题&#x…

工程设计问题---滚动轴承问题

参考文献&#xff1a; [1]李煜,梁晓,刘景森,等.基于改进平衡优化器算法求解工程优化问题[J/OL].计算机集成制造系统,1-34[2024-06-16].