当因果推理遇上时间序列,会碰撞出怎样的火花?

news2025/1/18 12:00:46

点击蓝字

0e3e4d0ba3ab5ee3eb12c2d977147818.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

80769ac00c5aab721ad45afd368a02f0.png

5727124231e88988ca28a1e6e6a7cdef.png

近年来因果推理和时间序列已经成为了数据科学领域备受瞩目的研究方向。因果推理可以帮助我们识别变量之间的因果关系,时间序列分析则可以便于我们理解变量随时间变化的规律。这两个方向都可以为我们提供更多解决实际问题的思路和方法。2023年4月21日,AI TIME第十五期PhD Debate活动“因果推理(Causal Inference)与时间序列(Time Series)”,特别邀请了圣地亚哥加利福尼亚大学助理教授黄碧薇,南加州大学博士生曹德福,卡内基梅隆大学博士生宋祥辰,俄亥俄州立大学博士生刘若琦。四位嘉宾围绕因果推理与时间序列的理论研究、应用场景面临的挑战等话题展开热烈讨论,给观众带来了一场精彩的科学思辨。

69709538ab4fbab8494a63aac73f0c99.gif

ae66f0acbf3a63d4160822cdcd16d470.png

01

因果性与相关性在现实世界中的区别

曹德福:因果性和相关性之间有本质的区别,但也存在一些联系。从理论的角度来讲最经典的区别是Pearl先生提出的三重阶梯理论:第一层是关联,它涉及由数据定义的统计相关性;第二层是干预,不仅涉及能看到什么,还涉及一个干预会导致什么结果;第三层是反事实,是对过去发生事情的反思和溯源。

刘若琦:因果关注的是两个变量之间是否存在直接的影响关系,而相关性是两个变量之间的关联关系,可能是因为偶然产生的。在Health Care中的一个经典问题是“吸烟会导致肺癌”,我们通常需要考虑到混杂变量,比如生活、饮食习惯或其他因素,这都影响着我们是否能真正评估因果性。

黄碧薇:即使对于被动预测任务,在数据分布发生变化和数据量很少的时候,这时因果理解对于预测这个任务也是非常重要的。

宋祥辰:我们在实际应用中绝大多数情况下都不会特别在意中其中一个变量对其他变量的因果影响,但是当复杂的系统出现问题时通常我们会希望寻找问题的起源(root cause)。这时候分析因果性并通过对相应指标的观测找出真正的原因来更快地解决问题才是重要的。

● Discovery v.s. Inference

曹德福:在因果发现这个方向中,我们一定要弄清楚原始数据的架构,这对未来一些事件的发生或者相关性都能有一定的参考作用,只有理解因果性才能泛化到现实世界中没出现的情景中去。如果希望模型能够很快地适应未来的时代或者持续产生稳定的预测和解释性的结果,那么因果关系是一定要引入到现在的算法中的。

宋祥辰:如果我们引入因果关系,即使在不能完全了解数据具体的生成机制的情况下,构造的系统可以对未来的变化及时作出提示和反应,这也是有巨大的实际意义的。

黄碧薇:因果发现和因果推理在任务上是有区别的。因果发现是从源观测数据中找到变量之间的因果结构,而因果推理是从给出的因果结构中去评估效果。因果发现的目标之一是发展一个统一的方法去处理通用的案例,另外一个目标是如何根据计算结果快速地通过实验去验证找到的因果关系。

刘若琦:因果推理的重要问题是评估效果(Causal effect estimation),我们倾向于在观测数据或是真实世界的数据中做这件事,这种情境下有更多的挑战。例如我们通常会在电子健康记录中分析比较不同药物的有效性(efficacy)或安全性(safety)。

● ML for causal;causal for ML.

曹德福:Causal for ML可以被概括为用发现的方法去做特征选择从而帮助机器学习更高效地利用数据,ML for causal是从数据驱动的角度去帮助完成因果相关的实验。

宋祥辰:Causal for ML是将一些因果发现的结果用来辅助机器学习系统的构建从而提升各方面的性能,传统的因果发现是基于独立性检验去推测变量之间的关系构造因果图,这种方法在扩展性(scalability)方面有很大的挑战,如果通过ML for causal的方法可以构建一个模型去更好地模拟这个推理过程,这个意义是很大的。并且通常在机器学习的过程中,收集完的数据是无法进行干预的,这对推断因果是有一定的挑战的,这时候增加标签/领域的信息,时序信息等都能帮助我们更好地推理因果结构。

刘若琦:传统的自监督学习方式并不能被直接用在因果推理的问题中,它面对的挑战主要有只能观测到factual的outcome、需要考虑到混杂变量的影响,以及必要的假设条件。

02

因果推理的主要理论支持

a.Deconfounding

b.proxy causal model

c.causal discovery

刘若琦:真实观测数据中存在confounding variables,会阻碍我们观测到真实的因果关系。常见的deconfounding方式比如matching,weighting等。同时还有一些基于回归regression的方式利用线性或非线性回归模型分析confounding的影响。近年来随着深度学习和机器学习的不断发展,越来越多的研究者使用该方法来研究deconfounding,主流的方向是通过深度神经网络模型学习变量之间的关系,控制混淆变量的影响,推测counterfactuals。

曹德福:Proxy causal model (PCM) 是基于causal model的,但是它跟传统的因果推断方法又有所不同。它基于代理变量而不是完整的因果图,代理变量是指用于表示两个变量之间可能存在因果关系的可观察变量。通过这种方式,PCM可以推断出在缺乏完整因果图的情况下变量之间的因果关系。

黄碧薇:对于因果发现的理论支持,目前领域主要侧重的是因果结构的可识别性,但还欠缺因果结构在有限样本上的收敛性。对于因果发现的可识别性,我们希望能够做到在假设尽可能弱的情况下去实现一个通用的因果发现算法。比如当存在一些未被观测到的混杂因子时怎么实现因果发现。从已知的世界推测未知的世界是很有趣的,如果所有的东西都能够被观测到,那世界就会变得很简单。

宋祥辰:在实验中我们是需要假设收集到的数据中是包含变化信息的,因为能够被发现的因果结构都是基于变化的,在实际应用中我们关注的也是某些情况的变化对最终结果的影响,这也是因果相关的研究与其他机器学习工作的区别所在。

刘若琦:proxy causal model是通过代理变量,补充和代替潜在的无法观测到的confounder,它能通过这些信息帮助我们发现更全面的confounder。关于instrumental variable的使用会面临一些挑战,因为需要先验知识,限制条件较多。如何更好地结合先验知识定义一个比较好的变量去做因果发现是值得研究的。

03

如何合理地保证可识别性?

宋祥辰:在时间序列数据上做因果发现,我们一般是会采用独立成分分析的方法,在一些假设中会观测到时间序列之外的额外分布信息,这种非平稳性其实能帮助我们更好地发现数据之间的构成,但是很多时候这样的假设在现实情况下是无法满足的,所以假设条件也随着工作的推进在由强到弱地转变。

曹德福:假设条件太强或太弱一则会对模型的性能产生影响,二来在现实世界中这是无法被验证的,所以比较安全的方法是跟随前人在实验中做出的假设条件。或者根据存在的问题在前人工作的基础上改进,设计更贴合实际的假设条件,这也是一个循序渐进的过程。

黄碧薇:我们的工作是一步步弱化假设直到可以应用到广泛的实际问题之中。在选择因果发现的方法之前,先要有一个大体的判断,首先需要对系统深入了解,其次需要理解数据性质。在这些前提条件的基础上,我们才能选择更好的因果发现的方法。

刘若琦:我以一个具体的假设说明在弱化假设的情况下应对问题的解决方案。Strong ignorability假设是数据中所有的confounder都可以被观测和控制,但在实际的时间序列数据中这个假设可能不成立,这种情况下我们在评估的时候可以用一些较弱的假设条件、做额外的敏感性分析量化影响的程度,或者利用其他的观测变量作为proxy causal variable。

04

因果推理在时间序列数据中的必要性

与面临的挑战

刘若琦:在Health Care领域时间序列数据有一些具体的应用。常见的数据有一些共同点,比如特征维度高、时序性强、类型丰富,这种复杂的数据类型会对因果影响的评估造成干扰。当存在缺失值的情况下,如何保证我们的评估是稳定和鲁棒也是值得探索的。在未来,我们希望更进一步利用因果推理的发现帮助现实问题的决策(decision-making)。

宋祥辰:与其说因果推理在动态的时序信息中面临一些挑战,不如说这是一种让我们更好地去发现因果关系的工具。时序信息和结构本身就带有非常强的因果性,通过这种方式能让我们更好地理解整个推理结构和过程,基于这些知识对我们探索脑学相关领域具有很好的帮助作用。

曹德福:理论保证与时间序列结合后会变得非常复杂,需要有专门的理论去保证时间序列应用因果推理的能力。在具体的工作中,如何利用数据之间潜在的规律结合较成熟的时间序列假设去应对更复杂的场景是需要深入研究的。因此希望在模型中引入因果关系时能有专业处理时间序列的工具帮助更好地解决问题。

黄碧薇:在时间序列中动态的因果关系是非常必要的。在这类研究中目前一个的方法是引入time index来刻画变化的隐藏因子。

05

因果关系能够在环境改变时保证效果稳定,

但是对于特定的问题(比如预测问题),

因果关系能否提供高精度的结果?

宋祥辰:因果关系能否提供高精度的结果是和因果系统是否是可识别的有关,如果并不可识别那么一般不可以给出很好的结果。此外即便是在理论上是可识别的系统,在现实中比如数据量少或者领域分布不明显的情况下也是无法保证结果高精度的。

曹德福:对于因果关系在预测问题的应用在目前没有很多可行的解决方案,这是一个非常有前景的研究方向。此外,这可以衍生到ML for causal或causal for ML的问题上,可以根据过往的实验发现哪类任务在引入因果之后明显地带来性能提升或可解释性的增强。

黄碧薇:如何保证因果关系在环境改变时效果稳定,这取决于如何去定义因果模型。当然模型的效果也不能仅仅用预测精度来判断,还需要参考具体的研究目的和研究任务。

刘若琦:因果关系提供变量之间关联的解释,并不一定保证预测的高精度。预测问题还需要考虑除了因果之外的因素。而对于某些预测问题,因果关系可以提供一些帮助,比如训练和测试的数据分布存在差别,研究者通常会通过因果推理规避伪关联的影响,从而保证模型的鲁棒性和可迁移性。

点击“阅读原文”跳转可以查看回放哦!

往期精彩文章推荐

4ba9655e6f0080131cbe61bbacae6cdc.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1000多位海内外讲者,举办了逾550场活动,超600万人次观看。

6ffd56202f802f9e6c8fdd1373b50ac0.png

我知道你

在看

~

44b028a2d2b49856f56f5d049dda24fc.gif

点击 阅读原文 查看回放!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/500855.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

javaScript---设计模式-封装与对象

目录 1、封装对象时的设计模式 2、基本结构与应用示例 2.1 工厂模式 2.2 建造者模式 2.3 单例模式 封装的目的:①定义变量不会污染外部;②能作为一个模块调用;③遵循开闭原则。 好的封装(不可见、留接口):①…

Cacti 前台命令注入漏洞

文章目录 文档说明漏洞描述影响版本漏洞原理命令执行简单分析客户端ip伪造分析 漏洞复现下载vulhub启动环境配置攻击 复现总结修复方案原创申明 文档说明 本文作者:SwBack 创作时间:2023/4/8 0:12 知乎:https://www.zhihu.com/people/back-88-87 CSDN:https://blog.csdn.net/q…

solidity--语言基础

solidity源文件结构 // SPDX-License-Identifier: MIT pragma solidity ^0.5.2; pragma abicoder v1; import "filename"; 注释 智能合约组成 状态变量 // SPDX-License-Identifier: GPL-3.0 pragma solidity >0.4.0 <0.9.0;contract SimpleStorage {uint stor…

SD卡打不开是怎么回事?SD卡打不开里面数据怎样恢复

SD卡已经成为了移动设备和数码相机中受欢迎的存储选项之一。但是使用过程中难免会遇到一些问题&#xff0c;例如SD卡突然打不开了&#xff0c;并且无法访问其中的数据。这种情况常常让人感到烦恼和无助。但是不要紧张&#xff0c;下面我们将介绍SD卡打不开里面数据怎样恢复的方…

Yuzuki Lizard V851S开发板 –编译 OPENCV 4.5.4

1.主要参考教程地址&#xff0c;实际操作结合多个教程。 https://blog.csdn.net/Flag_ing/article/details/109508374 2.放从OPENCV RELEASE 下载的解压出来的文件&#xff0c;里面还要放对应版本的contribute 解压文件 /root/opencv-4.5.4/root/opencv-4.5.4/build6在这里要…

深入理解Java虚拟机——内存分配与回收策略

1.前言 在读这篇博客之前&#xff0c;你需要了解分代收集理论中&#xff0c;收集器应该将Java堆划分出不同的区域**&#xff0c;**然后将回收对象依据其年龄&#xff08;年龄即对象熬过垃圾收集过程的次数&#xff09;分配到不同的区域之中存储。 例如appel式回收&#xff0c…

SSM整合详细教学(上)

SSM整合详细教学&#xff08;上&#xff09; 一、SSM整合1. SSM整合配置1.1 SSM整合流程1.2 SSM整合配置1.2.1 创建工程&#xff0c;添加依赖和插件1.2.2 Spring整合Mybatis1.2.3 Spring整合SpringMVC 2. 功能模块开发2.1 数据层开发(BookDao)2.2 业务层开发(BookService/BookS…

java注解,一篇文章就够了

开篇一张图 一、定义 注解是一种标记&#xff0c;使类或接口附加额外信息&#xff0c;帮助编译器和 JVM 完成一些特定功能。 Annotation(注解)也被称为元数据(Metadata)是JDK1.5及以后版本引入的&#xff0c;用于修饰包、类、接口、字段、方法参数、局部变量等。 如&#xf…

iOS与Android应用开发的对比:如何选择最佳开发平台?

第一章&#xff1a;引言 在移动应用开发领域&#xff0c;iOS和Android是最为流行的操作系统。选择最佳的开发平台可以使开发人员更有效地开发和发布应用程序。本文将分析iOS和Android应用开发的优缺点&#xff0c;并提供一些有关如何选择最佳开发平台的建议。 第二章&#xf…

【Git基础】常用git命令(四)

文章目录 1. 处理突发事件1.1 暂存修改1.2 git stash的一些命令 2. 指定不需要git管理的文件2.1 指定不需要git管理的文件2.2 .gitignore的规则 3. 如何解决项目之间的依赖3.1 如何使用git处理项目之间的依赖3.2 submodule的使用方式3.3 如何clone submodule3.4 submodule的陷阱…

小白如何做好项目管理?看这里

做好项目管理不是一件容易的事儿&#xff0c;只有掌握了正确的技巧&#xff0c;才能事半功倍地完成项目。 下面就按照项目管理的流程来讲一讲如何做好项目管理。 项目管理是指运用系统的理论方法&#xff0c;在有限的条件和资源下&#xff0c;对项目从开始到结束的全流程进行计…

电子会议桌牌系统——基站版

一、产品特点 低功耗&#xff0c;常规使用3-5年电池寿命 支持空中唤醒&#xff0c;刷新快速&#xff0c;几秒钟内看到结果 点阵电子纸屏幕&#xff0c;视角接近180 基于Web的应用界面&#xff0c;支持跨平台操作 安装简单&#xff0c;快速布置 电池供电不需要布线 双面显…

【react从入门到精通】React兄弟组件通信方式详解(有示例)

文章目录 前言React技能树通过共同的父组件传递props使用React Context使用Redux使用EventBus写在最后 前言 在上一篇文章《React父子组件通信方式详解》中我们了解了React父子组件通信的4中方式。 本文中我们将详细了解react兄弟组件通信方式。 React技能树 React 技能树 ├…

如何利用分钟级降水预报 API 优化城市水利管理?

引言 降水预报对于城市水利管理部门来说至关重要&#xff0c;它可以帮助管理者及时了解当地的降雨情况&#xff0c;以便更好地管理城市水利设施&#xff0c;保障公共安全。然而&#xff0c;传统的降水预报数据一般只提供每小时或每3小时的粗略预报数据&#xff0c;无法满足城市…

服务部分综合实验

#每台机子关闭防火墙和selinux ##NFS test1 10 ##部署共享存储 test1 10 systemctl stop firewalld systemctl disable firewalld setenforce 0 cd /opt/ mkdir nfs cd nfs/ mkdir web1 web2 echo "this is web1" > web1/index.html echo "this is web2&quo…

八大排序[超级详细](动图+代码优化)这一篇文章就够了

目录 什么是排序&#x1f36d; 什么是稳定性&#x1f36d; 交换排序的基本思想&#x1f36d; 一、冒泡排序&#x1f36d; 1、基本思想&#x1f349; 2、实现代码&#x1f349; 3、代码优化&#x1f349; Ⅰ、 &#x1f9c1;冒泡排序的优化1 Ⅱ、&#x1f9c1;冒泡排序的优…

云安全技术——搭建VPN

目录 二、VPN简介 三、规划实训环境和网络拓扑 配置VPN服务器 五、VPN网络客户端的配置 六、远程访问VPN的检测 二、VPN简介 VPN&#xff08;Virtual Private Network&#xff09;是一种可以在公共网络上建立安全连接的技术。VPN是实现保密通信的基本手段&#xff0c;在wi…

玩转服务器之Java Web篇:手把手教你搭建Java Web环境

前言 Java Web项目&#xff0c;简单来说就是我们在浏览器上可以看到的内容。就简单的Web来说&#xff0c;服务器上也同样需要有计算机上所需要的运行环境&#xff0c;如&#xff1a;java,tomcat,mysql 。Java Web环境可以用来开发和部署各种Web应用程序&#xff0c;例如网站、…

11-Vue技术栈之插槽的使用

目录 1、作用2、分类3、使用方式4、插槽的应用 1、作用 让父组件可以向子组件指定位置插入html结构&#xff0c;也是一种组件间通信的方式&#xff0c;适用于 父组件 > 子组件 。 2、分类 默认插槽、具名插槽、作用域插槽 3、使用方式 默认插槽&#xff1a; 父组件中&am…

《走进对象村2》特殊的- static

文章目录 &#x1f680;文章导读1.1static修饰成员变量1.2static修饰成员方法1.3代码块1.3.1代码块概念及分类以及不同代码块之间的运行顺序1、普通代码块2、构造代码块3、静态代码块 static存在的意义面试题&#xff1a;1、static的独特之处2、 静态变量和实例变量的区别3、静…