ICDE 2024最新论文分享|BEEP:容量约束下能够对抗异常干扰的航运动态定价系统

news2024/10/10 22:14:35

论文简介

本推文详细介绍了上海交通大学高晓沨教授和陈贵海教授团队发表在顶级学术会议ICDE 2024上发表的最新论文《Corruption Robust Dynamic Pricing in Liner Shipping under Capacity Constraint》,该论文的学生作者为胡永祎、李雪嫣、魏熙锴,合作者为山东大学时阳光教授,通讯作者为高晓沨教授。

本文聚焦于航运业中的集装箱定价问题,旨在通过设计动态定价策略来最大化收益。通过对中国远洋运输公司(COSCO)的业务进行深入研究,本文总结了两大关键要素:(1) 每种类型的集装箱在班轮上的容量有限,并且航运公司会采取超售策略;(2) 销售量偶尔会因罕见的不可控因素(如COVID-19)而出现剧烈波动。基于这两点以及班轮运输的周期性特点,本文将动态定价问题建模为一个结合容量约束和对抗性干扰的MDP模型,称为C3-MDP

为了在C3-MDP模型中最大化累积收益,本文提出了一种基于奖励探索的规划求解框架BEEP,该框架能够直接适应线性规划算法,形成BEEP-LP算法。此外,本文还提供了详细的遗憾分析,表明BEEP-LP的遗憾随着售卖周期的增加呈次线性增长。针对BEEP-LP的大规模状态-动作空间问题,本文结合深度强化学习技术,提出了相应的近似算法BEEP-DQN,以在运行时间和性能之间取得更好的平衡。基于实际集装箱销售数据的大量实验,验证了C3-MDP模型的合理性以及BEEP框架的有效性。

本推文由胡永祎撰写,审校为高晓沨老师。

论文链接:https://ieeexplore.ieee.org/abstract/document/10598030

一、会议介绍

国际数据工程大会(International Conference on Data Engineering,ICDE)由IEEE主办,是数据挖掘领域的顶级国际学术会议之一,并且被中国计算机学会(CCF)推荐为A类会议。该会议每年举行一次,涵盖数据管理、数据库系统、分布式系统、大数据处理、数据挖掘、数据分析、数据隐私与安全等相关主题。

二、研究背景及主要贡献

由于航运业具备成本低、运输量大的优势,当前全球贸易中超过80%的货物依赖于班轮运输。然而,如何设计一个适用于航运产业的动态定价系统以最大化整体收益,仍然是一个亟待解决的问题。

本文基于班轮集装箱运输的实际场景,得出了一些关键结论:(1) 班轮使用的集装箱已实现国际标准化,最常见的类型为20英尺(1 TEU)和40英尺(2 TEU)集装箱。(2) 每艘货船在出发前,航运公司会固定销售周期,并在此期间为不同类型的集装箱动态定价,以最大化收益。(3) 航运公司通常会采用超售策略,以吸引潜在的高价值客户,但必须谨慎管理,以避免因容量不足产生订单违约,从而损害公司的声誉。(4) 航运公司的销售业绩偶尔会受到罕见的不可控因素(如COVID-19)的影响。

现有的一些强化学习定价模型不能直接应用于这样的班轮定价场景。具体来说,它们要么忽视了容量限制建模,要么没有考虑到罕见的分布外市场波动的影响。最常见的容量建模做法是将最大容量设置为停止标志,即当集装箱售罄时立即结束销售。然而,这种做法的主要问题在于,模型忽略了班轮公司在现实情况下允许的少量超售,导致丢失估值更高的后期客户,影响了整体销售业绩。同时,其缺乏对罕见且不可预测的因素(本文称为对抗性破坏)的考量。因此,模型必须提高探索能力,以确保能够应对这些突发状况。

图1 基于COSCO公司真实数据分析,2020年4月14日由于COVID19集装箱销售量出现异常离群点

本文主要贡献包括:

(1)问题建模:本文是第一篇将航运定价问题建模到在线强化学习框架 C3-MDP 中的工作,该框架结合了容量约束和对抗性干扰。

(2)算法框架:本文提出了一种基于奖励机制的新颖框架 BEEP,该机制鼓励模型探索更多未知的状态-动作对,并可以有效处理超售问题。

(3)理论证明:详细的理论证明表明算法 BEEP-LP 的遗憾值随着周期数呈现次线性增长。本文进一步分析了算法的时间复杂度,以阐明其计算效率。

(4)实验评估:本文针对大型航运公司的真实集装箱销售数据进行了实验验证,并证明了 BEEP 的表现优于现有基线方法。

三、方法

(1)C3-MDP模型

本文将动态定价问题建模为在线强化学习模型,提出了容量约束下的对抗性破坏马尔可夫决策过程(Capacity Constrained Markov Decision Process under Corruptions, C3-MDP)。其对MDP进行了以下调整:

首先,新增参数 K 和 H 分别表示训练中的周期数和步数,从而将周期性设定融入模型,即每个销售周期结束后,定价系统将返回初始状态。

其次,本文定义了一个常量向量 ξ 以表示各种集装箱类型的最大容量。同时本文在状态-动作空间内定义了资源消耗函数 c(s,a),用于表示每一步进行调价后产生的销售量。

此外,本文还引入了参数\widetilde{q}来表示可能受到对抗性破坏影响的最大周期数,从而为系统抵御对抗性攻击的能力设定了阈值。

在C3-MDP中,目标函数旨在满足售卖限制的同时最大化累计收益,其被定义为:

与此同时,为了衡量提出算法与最佳策略之间的差距,本文还根据最大化收益和满足容量限制两个目标分别定义了两个遗憾函数:

另外,本文的一大亮点是给出了完整的理论分析。本文详细证明了在存在对抗性破坏的场景下,REVREG 和 INVREG 两个遗憾函数仍然在累积贝尔曼误差约束内,进而证明模型关于售卖周期保留次线性遗憾。

2BEEP算法框架

针对C3-MDP模型,本文设计了基于奖励探索的周期性规划求解框架 (Bonus-Exploration based Episodic Programming, BEEP)。这是因为在面对容量限制和对抗性破坏时,传统强化学习智能体往往会由于担心超出容量限制而采取过于保守的策略,并可能被分布外数据误导,从而做出次优决策。为解决这一问题,BEEP融合了奖励机制,使智能体在探索访问频率较低的状态-动作对时,能够消耗更少的资源并获得更多奖励。一方面,这允许模型更有效地探索超售行为;另一方面,强化学习智能体能够获得更多真实样本,从而更准确地估计环境参数。奖励函数如下所示:

BEEP模型能够与线性规划求解器兼容,因此本文验证了可以通过BEEP-LP 的线性规划算法来寻找最优解。然而,由于航运定价场景涉及大量的状态-动作空间,BEEP-LP 给计算能力带来挑战。因此,为了平衡计算效率和性能,本文使用拉格朗日松弛将深度强化学习集成到 BEEP 框架中,形成了 BEEP-DQN 近似算法。

算法1 基于C3-MDP的BEEP-DQN算法

模型概览:C3-MDP, BEEP和BEEP-DQN

四、实验及结果

首先,本文通过消融实验证明了容量限制和对抗干扰两个模块的有效性。

1)BEEP-DQN w/o CC (容量限制): 此基线保持奖励函数不变,使得模型在达到容量上限时即停止售卖。

2)BEEP-DQN w/o AC (对抗干扰):此基线忽略模型中的奖励机制,不鼓励模型探索分布外数据点。

图3 消融实验,纵轴为平均收益,横轴为不同对抗性干扰最大周期参数设置

此外,本文还通过Prophet 动态规划算法获得最优策略,并据此证明了BEEP-DQN的遗憾是关于周期呈次线性的

图4 BEEP-DQN and Q-learning两个算法,当对抗性干扰最大周期为10时,在YIK-QZH 数据集上的遗憾

最后,本文在真实数据集上测试了BEEP-DQN的有效性,证明在不同对抗性破坏最大周期数设置下,模型效果都优于其他算法

预训练数据集的统计信息

五、总结与展望

针对航运业集装箱定价的两个难点:(1)集装箱库存有限的同时公司会采取超售策略。(2)定价收入会受到罕见的外部因素的影响,从而出现离群值。本文提出了C3-MDP模型,该模型同时考虑了容量限制和对抗性干扰。为了重新平衡探索与利用的关系,本文引入了基于奖励机制的BEEP算法框架。同时,本文详细证明了BEEP-LP 线性规划算法能够保证亚线性遗憾。此外,为了在庞大的状态-动作空间上加速算法,本文结合深度强化学习技术,提出了 BEEP-DQN近似算法,并在真实数据集上验证了其有效性。本论文的研究对深度强化学习的应用和定价领域发展有着重要意义。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2203295.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mac电脑word文档误删,4个方法快速恢复

对于使用Mac的用户来说,丢失重要的Word文档可能会为学习或工作带来严重的影响。不过,幸运的是,关于mac word 文档恢复方法还是有很多的,通常帮助Mac用户轻松找回丢失的word文档。接下来,小编将介绍一些在Mac上恢复丢失…

dayu_widgets-加载组件:MLoading和MLoadingWrapper

一、使用场景 点击按钮加载数据,但是查询数据需要一定的耗时,这段时间需要显示加载中的UI来进行遮罩。 二、使用效果 三、使用案例 # 学习笔记 MLoading控件 import asyncio from PySide2.QtWidgets import QWidget, QApplication, QVBoxLayout, QPus…

2024双十一究竟买什么比较好?为您精选五款双十一必购好物清单!

2024年的双十一购物狂欢节即将到来,许多人已经开始思考在这个一年一度的购物盛宴中究竟应该选购哪些商品。为了帮助大家更好地把握这次购物机会,我们精心为您挑选了五款双十一期间必购的好物清单,确保您能够买到物超所值的宝贝! …

作业4-23

文章目录 标题1标题2 标题1 该不该好吧 标题2 写的PHP <?phpnamespace App\Http\Controllers;use Illuminate\Foundation\Auth\Access\AuthorizesRequests; use Illuminate\Foundation\Bus\DispatchesJobs; use Illuminate\Foundation\Validation\ValidatesRequests; us…

文心一言 VS 讯飞星火 VS chatgpt (366)-- 算法导论24.3 8题

八、给定带权重的有向图 G ( V &#xff0c; E ) G(V&#xff0c;E) G(V&#xff0c;E) &#xff0c;其权重函数为 w : E → ( 0 &#xff0c; 1 &#xff0c; 2. … &#xff0c; W ) w:E→(0&#xff0c;1&#xff0c;2.…&#xff0c;W) w:E→(0&#xff0c;1&#xff0c…

RK3568 buildroot系统在安装popt出错的问题

RK3568 buildroot系统在安装popt出错的问题 简介 使用 buildroot 系统给 RK3568 制作系统的时候,编译系统到 popt 这个组件时,编译出错 故障现象 gzip: popt-1.16.tar.gz: not in gzip format 上面的报错就是说 gzip 认为这个压缩包不是可以识别的格式 问题复现 我们进…

996是性价比最低的工作方式,没有之一!

不知道从什么时候开始&#xff0c;“996”工作制&#xff08;即每周工作从早9点至晚9点&#xff0c;持续6天&#xff09;已经从网络热梗&#xff0c;变成了不少企业和职场人的“工作常态”。 尤其是现如今职场中越来越频繁的裁员降薪&#xff0c;为了保住一份工作&#xff0c;…

浅入深出之了解常见的用户登录校验

文章目录 一、Cookie-Session认证校验流程缺点 二、Token校验流程缺点 三、JWT校验流程 四、JWT令牌的实践使用JWT组成引入依赖生成令牌 前言 在讲解这个问题之前&#xff0c;我们要先搞清楚基本的用户登录流流程。 用户在web登录页面填写登录信息前端发送登录信息到后端后端接…

[红队apt]CHM电子书攻击/电子教程攻击

免责声明:本文用于了解攻击者的攻击手法&#xff0c;切勿用于不法用途 前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文主要整理当初电子书的时代&#xff0c;利用电子书攻击的操作 CHM电子书简介 这个在当初普遍用于做教程课件&#xff0c;软件说明等应用。…

音频响度归一化 - python 实现

在处理音频样本时&#xff0c;往往我们的音频样本由于录制设备&#xff0c;环境&#xff0c;人发音的音量大小的不同影响&#xff0c;会造成音频响度不统一&#xff0c;分布在一个不同的响度值域上。为了让语音模型更好的学习音频特征&#xff0c;就有必要对音频的响度进行归一…

android中byte[] buf没有结束符,new String(buf)会不会出错?

答案是&#xff1a;不会 看例子&#xff1a; 这和c是不一样的&#xff0c;不需要特别的在字符串后面添加一个\0结束.

誉天教育十月新班启航:开启技能升级之旅,抢占未来先机!

安全HCIP 晚班 2024/10/8 存储HCIE 晚班 2024/10/10 Linux云计算架构师 晚班周末班 2024/10/14 云服务HCIP 周末班 2024/10/26 云计算HCIP 周末班 2024/10/26 RHCE 周末班 2024/11/2 数通HCIE直通车 晚班 2024/11/4 AI大模型HCIE 晚班 2024/11/11 数通HCIE直通车…

C# String 类型:那些你可能不知道的秘密

前言 嗨&#xff0c;大家好&#xff01; 今天咱们来聊一聊一个看似简单却充满玄机的话题 —— String 类型。 字符串应该是所有编程语言中使用最频繁的一种基础数据类型。 在 C# 中&#xff0c;String 可谓是特别的存在&#xff1a;它是引用类型&#xff0c;存储在托管堆中…

插件生成XML

目录 1.数据库配置 2.在pom.xml中添加插件 3.generator文件配置 1.数据库配置 # 数据库配置 spring:datasource:url: jdbc:mysql://127.0.0.1:3306/mybatis_test?characterEncodingutf8&useSSLfalseusername: rootpassword: rootdriver-class-name: com.mysql.cj.jdbc…

双主轴车床的优势

双主轴车床作为现代制造业中的一项重要技术&#xff0c;其优势显而易见。下面我将从几个方面详细阐述双主轴车床的优势&#xff1a; ‌一、提高生产效率‌ ‌并行加工‌&#xff1a;双主轴车床最大的特点在于其能够同时在两个主轴上进行加工&#xff0c;这种并行加工方式使得在…

LCD -

LCD 目录 LCD 回顾 应用 - 1、首先将该LCD屏官方写好的三个文件添加进工程中的api文件夹中 - 2、找到LCD的初始化函数 - 3、在LCD屏幕上显示字符串 - 4、在LCD屏幕上显示图片 - 5、在LCD屏幕上显示汉字 例&#xff1a;在LCD屏幕上显示温湿度&#xff0c;时间代码 LC…

Unsupervised Deep Embedding for Clustering Analysis

0. 论文信息 标题&#xff1a;Unsupervised Deep Embedding for Clustering Analysis期刊&#xff1a;International Conference on Machine Learning作者&#xff1a;Junyuan Xie&#xff0c;Ross Girshick&#xff0c;Ali Farhadi机构&#xff1a;University of Washington&…

每日一题|3162. 优质数对的总数 I、II|因子分解、计数方法

第一题非常简单的暴力解法。 class Solution:def numberOfPairs(self, nums1: List[int], nums2: List[int], k: int) -> int:nums2_ [i * k for i in nums2]count 0for i in nums1:for j in nums2_:count 0 if i % j else 1return count 第二题的难度提升在数量级在10万…

[java毕业设计]免费分享一套SpringBoot+Vue电影推荐(电影网)系统【论文+源码+SQL脚本】,帅呆了~~

大家好&#xff0c;我是java1234_小锋老师&#xff0c;看到一个不错的SpringBootVue电影推荐(电影网)系统&#xff0c;分享下哈。 项目视频演示 【免费】SpringBootVue电影推荐(电影网)系统 Java毕业设计_哔哩哔哩_bilibili 项目介绍 如今社会上各行各业&#xff0c;都喜欢用…

大数据新视界 --大数据大厂之大数据如何重塑金融风险管理:精准预测与防控

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…