因果推断（五）基于谷歌框架Causal Impact的因果推断

news2026/3/28 23:50:49

因果推断（五）基于谷歌框架Causal Impact的因果推断

除了传统的因果推断外，还有一些机器学习框架可以使用，本文介绍来自谷歌框架的Causal Impact。该方法基于合成控制法的原理，利用多个对照组数据来构建贝叶斯结构时间序列模型，并调整对照组和实验组之间的大小差异后构建综合时间序列基线，最终预测反事实结果。

CausalImpact适用于时间序列在干预后的效果评估，例如某功能上线后是否提升了用户活跃。本文参考自CausalImpact 贝叶斯结构时间序列模型、tfcausalimpact官网示例。

准备数据

# pip install tfcausalimpact

import tensorflow as tf
from causalimpact import CausalImpact
import pandas as pd

tf.compat.v1.logging.set_verbosity(tf.compat.v1.logging.ERROR) # 忽略tf警告信息

以下数据如果有需要的同学可关注公众号HsuHeinrich，回复【因果推断05】自动获取～

# 读取数据
data = pd.read_csv('arma_data.csv')
data.iloc[70:, 0] += 5 # 手动增加y值。构造提升效果
data.head()

数据格式：

第一列为因变量，后面为协变量，例如本立中的y和X。
数据需要标准化处理，可参考官方示例

# causalimpact.misc.standardize标准化
import numpy as np
import pandas as pd
import pytest
import tensorflow as tf
import tensorflow_probability as tfp
from numpy.testing import assert_array_equal
from pandas.util.testing import assert_frame_equal

from causalimpact import CausalImpact
from causalimpact.misc import standardize

data = pd.read_csv('tests/fixtures/btc.csv', parse_dates=True, index_col='Date')
training_start = "2020-12-01"
training_end = "2021-02-05"
treatment_start = "2021-02-08"
treatment_end = "2021-02-09"
pre_period = [training_start, training_end]
post_period = [treatment_start, treatment_end]

pre_data = rand_data.loc[pre_int_period[0]: pre_int_period[1], :]
# 标准化
normed_pre_data, (mu, sig) = standardize(pre_data)

# 自定义标准化 x-mu/sigma
normed_my_data = (pre_data - mu) / sig # 伪代码
# 定义model_args参数
model_args == {'fit_method': 'hmc', 'niter': 1000, 'prior_level_sd': 0.01,  'season_duration': 1, 'nseasons': 1, 'standardize': True}

	y	X
0	118.188694	99.795292
1	120.233276	100.663180
2	118.627775	98.883699
3	119.609722	100.448941
4	121.391508	101.561734

模型拟合

# 分析报告
pre_period = [0, 69] # 干预前时期
post_period = [70, 99] # 干预后时期

ci = CausalImpact(data, pre_period, post_period)
print(ci.summary())
ci.plot()

Posterior Inference {Causal Impact}
                          Average            Cumulative
Actual                    125.23             3756.86
Prediction (s.d.)         120.23 (0.33)      3606.76 (9.97)
95% CI                    [119.58, 120.89]   [3587.5, 3626.57]

Absolute effect (s.d.)    5.0 (0.33)         150.11 (9.97)
95% CI                    [4.34, 5.65]       [130.3, 169.36]

Relative effect (s.d.)    4.16% (0.28%)      4.16% (0.28%)
95% CI                    [3.61%, 4.7%]      [3.61%, 4.7%]

Posterior tail-area probability p: 0.0
Posterior prob. of a causal effect: 100.0%

For more details run the command: print(impact.summary('report'))

output_54_1

Causal Impact报告
实验最终的平均预测值（prediction）为120.34，平均实际值（actual）为125.23；而累计预测值3610.16，累计实际值3756.86；这里的平均数据范围就是上述虚线之后（干预后）的时间段
经过MCMC估计指标绝对效应（absolute effect）平均增长4.89，累计增长146.71；相对比率（relative effect）平均增长4.06%，累计增长4.06%

Causal Impact图
第一张图（original）黑色实线为干预前后的实际结果，橙色虚线为模拟的策略未上线时的结果。阴影为置信区间
第二张图（pointwise）橙色虚线为策略前后y的差值，可以看到策略上线后，y差值是显著为正的。
第三张图（cumulative）橙色虚线为策略上线后的累加值，是持续增大的，可见策略有明显的正向作用。

# 打印详细报告
print(ci.summary(output='report'))

也可以用时间序列+多元变量
数据格式：
- 第一列为因变量，后面为协变量，例如本立中的CHANGED和[NOT_CHANGED_1、NOT_CHANGED_2、NOT_CHANGED_3]
- 数据需要标准化处理，同上

# 读取数据
data = pd.read_csv('comparison_data.csv', index_col=['DATE'])
data.head()

	CHANGED	NOT_CHANGED_1	NOT_CHANGED_2	NOT_CHANGED_3
DATE
2019-04-16	83836.5	85642.5	86137.5	81241.5
2019-04-17	83887.5	86326.5	85036.5	80877.0
2019-04-18	82662.0	87456.0	84409.5	80910.0
2019-04-19	83271.0	89551.5	87568.5	82150.5
2019-04-20	84210.0	90256.5	86602.5	83083.5

pre_period = ['2019-04-16', '2019-07-14']
post_period = ['2019-7-15', '2019-08-01']

ci = CausalImpact(data, pre_period, post_period, model_args={'fit_method': 'hmc'}) # model_args参数提高精度，牺牲效率
print(ci.summary())
ci.plot()

# 打印详细报告
print(ci.summary(output='report'))

总结

这里的分享较为浅显，就当是一种冷门数据分析方法的科普吧，如果想深入了解的同学可自行查找资源进行充电～

共勉～

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/908266.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

因果推断（五）基于谷歌框架Causal Impact的因果推断

因果推断（五）基于谷歌框架Causal Impact的因果推断

准备数据

模型拟合

总结

相关文章

javaScript:常用的js字符串方法

Dockerfile制作镜像与搭建LAMP环境

卷积神经网络——中篇【深度学习】【PyTorch】

从浅到深研究矩阵的特征值、特征向量

C语言小白急救整型与浮点型在内存中的存储（理论知识+代码示例）

Django视图-HttpRequest请求对象和HttpResponse响应对象

解决Windows下的docker desktop无法启动问题

【image captioning】自用数据集BUTD特征提取流程

2023年国赛数学建模思路 - 案例：粒子群算法

航空电子设备中的TSN通讯架构—直升机

第九课过去分词、现在分词作非谓语

索引构造与信息检索：让 ChatGPT 成为 Selenium 问答助手

数据结构 - 线性表的顺序存储

bootstrap-modal调用ajax后不经过回调函数

数智赋能共筑未来，聚好看DBdoctor亮相中国数据库技术大会

上位机一般的开发工具有哪些？

车辆PEPS无钥匙方案

LabVIEW开发住宅系统数据采集和监测系统

Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification

（三）Linux中卸载docker（非常详细）