对称锥规划:对称锥的增广拉格朗日乘子法(Semi-Smooth Newton Method解无约束优化子问题)

news2024/11/14 3:25:01

文章目录

  • 对称锥规划:对称锥的增广拉格朗日乘子法(Semi-Smooth Newton Method解无约束优化子问题)
    • 对称锥的增广拉格朗日函数
    • Semi-Smooth Newton Method半光滑牛顿法
      • 广义雅可比
      • 半光滑性
      • 半光滑牛顿算法
    • 参考文献

对称锥规划:对称锥的增广拉格朗日乘子法(Semi-Smooth Newton Method解无约束优化子问题)

基础预备:

凸优化学习笔记(一)

约束优化:PHR-ALM 增广拉格朗日函数法

对称锥规划:锥与对称锥

对称锥的增广拉格朗日函数

从前面文章的分析中我们已经知道,对于一般优化问题,都可以使用PHR-ALM进行求解,那能否使用该方法求解对称锥规划问题呢?答案是否定的。因为在一般优化问题中,PHR-ALM中的增广项应该是凸且可微的,而对于锥规划的不等式约束,例如 K = Q n = { ( x 0 , x 1 ) T ∈ R × R n − 1 ∣ x 0 ≥ ∥ x 1 ∥ 2 } \mathcal{K}=\mathcal{Q}^n=\left\{\left(x_0, x_1\right)^{\mathrm{T}} \in \mathbb{R} \times \mathbb{R}^{n-1} \mid x_0 \geq\left\|x_1\right\|_2\right\} K=Qn={(x0,x1)TR×Rn1x0x12},若采用PHR-ALM直接构造 g ( x ) = ∥ x 1 ∥ 2 − x 0 ≤ 0 g(x)=\|x_1\|_2-x_0 \leq 0 g(x)=x12x00,那么增广项 ∥ max ⁡ [ g ( x ) , 0 ] ∥ 2 \left\|\max \left[g(x), 0\right]\right\|^2 max[g(x),0]2是不可微的,会对无约束优化子问题的收敛速率和求解造成困难。

在这里插入图片描述

对于不等式约束 g ( x ) ≤ 0 g(x) \leq 0 g(x)0也即 A x + b ≤ 0 Ax+b \leq 0 Ax+b0而言,引入松弛变量 [ s ] 2 [s]^2 [s]2可将不等式约束转换成等式约束 A x + b + [ s ] 2 = 0 Ax+b+[s]^2=0 Ax+b+[s]2=0。利用该思想,换一种思路将不等式约束 A x + b ≤ 0 Ax+b \leq 0 Ax+b0写成 − A x − b ≥ 0 -Ax-b \geq 0 Axb0,结合前面关于Nonnegative Orthant的理解, − A x − b ∈ K i = R ≥ 0 n -A x-b \in \mathcal{K}_i=\mathbb{R}_{\geq 0}^n AxbKi=R0n,可将普通的仿射不等式约束写成对称锥约束的形式。结合欧几里得若当代数可将对称锥写成一个平方操作,因此 R ≥ 0 n \mathbb{R}^n_{\geq 0} R0n 可用 { x 2 : = x ∘ x ∣ x ∈ R n } \left\{x^2:=x \circ x \mid x \in \mathbb{R}^n\right\} {x2:=xxxRn}平方操作替代,故可引入松弛变量 [ s ] 2 [s]^2 [s]2 R ≥ 0 n \mathbb{R}^n_{\geq 0} R0n写成等式约束。

核心思想是将对称锥约束写成广义不等式 A i x + b i ∈ K i A_i x+b_i \in \mathcal{K}_i Aix+biKi,并不需要将 K i \mathcal{K}_i Ki进行显式表达:
min ⁡ x ∈ R n    c T x  s.t.  A i x + b i ∈ K i , i = 1 , … , m G x = h \begin{aligned} \min _{x \in \mathbb{R}^n} & \; c^{\mathrm{T}} x \\ \text { s.t. } & A_i x+b_i \in \mathcal{K}_i, i=1, \ldots, m \\ & G x=h \end{aligned} xRnmin s.t. cTxAix+biKi,i=1,,mGx=h
直接引入 s i ∘ s i ∈ K i s_i \circ s_i \in \mathcal{K}_i sisiKi将广义不等式写成等式形式:
min ⁡ x , s c T x  s.t.  A i x + b i = s i ∘ s i , i = 1 , … , m G x = h \begin{array}{ll} \min _{x, s} & c^{\mathrm{T}} x \\ \text { s.t. } & A_i x+b_i=s_i \circ s_i, i=1, \ldots, m \\ & G x=h \end{array} minx,s s.t. cTxAix+bi=sisi,i=1,,mGx=h
套PHR-ALM将对称锥约束的增广拉格朗日函数写为:
L ρ ( x , s , λ , ν ) : = c T x + ρ 2 ∥ G x − h + λ ρ ∥ 2 + ρ 2 ∑ i = 1 m ∥ A i x + b i − s i ∘ s i + ν i ρ ∥ 2 \mathcal{L}_\rho(x, s, \lambda, \nu):=c^{\mathrm{T}} x+\frac{\rho}{2}\left\|G x-h+\frac{\lambda}{\rho}\right\|^2+\frac{\rho}{2} \sum_{i=1}^m\left\|A_i x+b_i-s_i \circ s_i+\frac{\nu_i}{\rho}\right\|^2 Lρ(x,s,λ,ν):=cTx+2ρ Gxh+ρλ 2+2ρi=1m Aix+bisisi+ρνi 2
因为 min ⁡ x , s L ρ ( x , s , λ , ν ) = min ⁡ x min ⁡ s L ρ ( x , s , λ , ν ) \min _{x, s} \mathcal{L}_\rho(x, s, \lambda, \nu)= \min _{x} \min_s \mathcal{L}_\rho(x, s, \lambda, \nu) minx,sLρ(x,s,λ,ν)=minxminsLρ(x,s,λ,ν),那么解无约束优化子问题的第一步就是解 min ⁡ s L ρ ( x , s , λ , ν ) \min_s \mathcal{L}_\rho(x, s, \lambda, \nu) minsLρ(x,s,λ,ν)以消除引入的松弛变量 s i s_i si
min ⁡ s L ρ ( x , s , λ , ν ) = c T x + ρ 2 ∥ G x − h + λ ρ ∥ 2 + ρ 2 ∑ i = 1 m min ⁡ s i ∥ A i x + b i − s i ∘ s i + ν i ρ ∥ 2 \min _s \mathcal{L}_\rho(x, s, \lambda, \nu)=c^{\mathrm{T}} x+\frac{\rho}{2}\left\|G x-h+\frac{\lambda}{\rho}\right\|^2+\frac{\rho}{2} \sum_{i=1}^m \min _{s_i}\left\|A_i x+b_i-s_i \circ s_i+\frac{\nu_i}{\rho}\right\|^2 sminLρ(x,s,λ,ν)=cTx+2ρ Gxh+ρλ 2+2ρi=1msimin Aix+bisisi+ρνi 2
而核心是解 min ⁡ s i ∥ A i x + b i − s i ∘ s i + ν i ρ ∥ 2 \min _{s_i}\left\|A_i x+b_i-s_i \circ s_i+\frac{\nu_i}{\rho}\right\|^2 minsi Aix+bisisi+ρνi 2。令 v = A i x + b i + ν i ρ v=A_i x+b_i+\frac{\nu_i}{\rho} v=Aix+bi+ρνi,则 min ⁡ s ∥ v − s i ∘ s i ∥ 2 = min ⁡ x ∈ K ∥ v − x ∥ 2 \min _s\left\|v-s_i \circ s_i\right\|^2=\min _{x \in \mathcal{K}}\|v-x\|^2 minsvsisi2=minxKvx2,这就是一个正交投影(最佳逼近)问题,在对称锥约束 K \mathcal{K} K中找到一个 x x x使得 v v v x x x之间的距离最短,而最优的 x x x就是 v v v在锥 K \mathcal{K} K上的投影,将其写为: P K ( v ) : = arg ⁡ min ⁡ x ∈ K ∥ v − x ∥ 2 P_{\mathcal{K}}(v):=\arg \min _{x \in \mathcal{K}}\|v-x\|^2 PK(v):=argminxKvx2。如下图所示,利用对称锥的谱分解可求出 v v v在锥 K \mathcal{K} K上的投影:
P K ( v = ∑ i = 1 θ λ i q i ) = ∑ i = 1 θ max ⁡ [ λ i , 0 ] q i P_{\mathcal{K}}\left(v=\sum_{i=1}^\theta \lambda_i q_i\right)=\sum_{i=1}^\theta \max \left[\lambda_i, 0\right] q_i PK(v=i=1θλiqi)=i=1θmax[λi,0]qi
在这里插入图片描述

对于Nonnegative Orthant和SOCP,利用谱分解求锥上的投影:

在这里插入图片描述

利用显式投影算子,我们可以得到:
min ⁡ s ∥ v − s i ∘ s i ∥ 2 = ∥ v − P K ( v ) ∥ 2 \min _s\left\|v-s_i \circ s_i\right\|^2=\left\|v-P_{\mathcal{K}}(v)\right\|^2 sminvsisi2=vPK(v)2
如下图所示,黄色虚线向量表示 v − P K ( v ) v-P_{\mathcal{K}}(v) vPK(v),且 v − P K ( v ) ⊥ P K ( v ) v-P_{\mathcal{K}}(v) \bot P_{\mathcal{K}}(v) vPK(v)PK(v),根据对称性有 v − P K ( v ) = − [ − v − P − K ( − v ) ] = v + P − K ( − v ) v-P_{\mathcal{K}}(v)=-[-v-P_{\mathcal{-K}}(-v)]=v+P_{\mathcal{-K}}(-v) vPK(v)=[vPK(v)]=v+PK(v),其中 P − K ( − v ) P_{\mathcal{-K}}(-v) PK(v)表示 − v -v v投影到 − K \mathcal{-K} K上。又将 − v -v v投影到锥 K \mathcal{K} K上可得到绿色实线向量 P K ( − v ) P_{\mathcal{K}}(-v) PK(v),此时灰色虚线、黄色虚线、粉红实线和绿色实线构成了一个长方形,因此 P K ( − v ) = v + P − K ( − v ) P_{\mathcal{K}}(-v)=v+P_{\mathcal{-K}}(-v) PK(v)=v+PK(v),由此推出 v − P K ( v ) = P K ( − v ) v-P_{\mathcal{K}}(v)=P_{\mathcal{K}}(-v) vPK(v)=PK(v),这样我们可以得到更为简洁的形式:
min ⁡ s ∥ v − s i ∘ s i ∥ 2 = ∥ P K ( − v ) ∥ 2 \min _s\left\|v-s_i \circ s_i\right\|^2=\left\|P_{\mathcal{K}}(-v)\right\|^2 sminvsisi2=PK(v)2
在这里插入图片描述

将上式带入原对称锥的增广拉格朗日函数中,可得到:
min ⁡ s L ρ ( x , s , λ , ν ) = c T x + ρ 2 ∥ G x − h + λ ρ ∥ 2 + ρ 2 ∑ i = 1 m ∥ P K i ( − A i x − b i − ν i ρ ) ∥ 2 \min _s \mathcal{L}_\rho(x, s, \lambda, \nu)=c^{\mathrm{T}} x+\frac{\rho}{2}\left\|G x-h+\frac{\lambda}{\rho}\right\|^2+\frac{\rho}{2} \sum_{i=1}^m\left\|P_{\mathcal{K}_i}\left(-A_i x-b_i-\frac{\nu_i}{\rho}\right)\right\|^2 sminLρ(x,s,λ,ν)=cTx+2ρ Gxh+ρλ 2+2ρi=1m PKi(Aixbiρνi) 2
可看出最小化后的增广拉格朗日函数与松弛变量 s i s_i si无关。为了表达上的便捷性,我们令 μ = − ν \mu=-\nu μ=ν,最终可得推导得到与上式等价的对称锥增广拉格朗日函数为:
L ρ ( x , λ , μ ) : = c T x + ρ 2 { ∥ G x − h + λ ρ ∥ 2 + ∑ i = 1 m ∥ P K i ( μ i ρ − A i x − b i ) ∥ 2 } \mathcal{L}_\rho(x, \lambda, \mu):=c^{\mathrm{T}} x+\frac{\rho}{2}\left\{\left\|G x-h+\frac{\lambda}{\rho}\right\|^2+\sum_{i=1}^m\left\|P_{\mathcal{K}_i}\left(\frac{\mu_i}{\rho}-A_i x-b_i\right)\right\|^2\right\} Lρ(x,λ,μ):=cTx+2ρ{ Gxh+ρλ 2+i=1m PKi(ρμiAixbi) 2}
对该函数的增广项进行分析,令 ρ = 1 , μ = 0 , b = 0 , A = I \rho=1,\mu=0,b=0,A=I ρ=1,μ=0,b=0,A=I,则 ρ 2 ∥ P K ( μ ρ − A x − b ) ∥ 2 = 1 2 ∥ P K ( − x ) ∥ 2 = 1 2 ∥ x − P K ( x ) ∥ 2 \frac{\rho}{2}\left\|P_{\mathcal{K}}\left(\frac{\mu}{\rho}-A x-b\right)\right\|^2=\frac{1}{2}\left\|P_{\mathcal{K}}(-x)\right\|^2=\frac{1}{2}\left\|x-P_{\mathcal{K}}(x)\right\|^2 2ρ PK(ρμAxb) 2=21PK(x)2=21xPK(x)2,该惩罚项实际上惩罚的是 x x x到锥 K \mathcal{K} K的欧氏距离的平方,是可微且凸的,如下图所示。综上所述,相比于直接构造 g ( x ) = ∥ x 1 ∥ 2 − x 0 ≤ 0 g(x)=\|x_1\|_2-x_0 \leq 0 g(x)=x12x00的方式,利用对称锥的欧几里得若当代数和谱分解性质可以提供一个可微且凸的增广项,降低了后续无约束优化子问题的求解难度。

在这里插入图片描述

算法迭代过程中的参数更新和终止条件如下图所示,其中内层无约束优化子问题的终止条件与一般优化问题的PHR-ALM一样。

在这里插入图片描述

Semi-Smooth Newton Method半光滑牛顿法

对称锥的ALM算法第一步就是求解一个无约束优化子问题 argmin ⁡ x L ρ ( x , λ , μ ) \operatorname{argmin}_x \mathcal{L}_\rho(x, \lambda, \mu) argminxLρ(x,λ,μ),从前面的分析已知 L ρ ( x , λ , μ ) \mathcal{L}_\rho(x, \lambda, \mu) Lρ(x,λ,μ)凸且一阶可微但二阶不连续(梯度函数分片连续但边界处不连续),如下图所示。该函数的Hessian矩阵只能在梯度分片连续的地方求解出来,在不连续的边界处无法求解。使用一些一阶算法(梯度下降、拟牛顿法等)也可以,但收敛到高精度解往往很慢。要想更快的收敛速度,可以考虑牛顿方法,但牛顿方法要求Hessian矩阵存在且无法保证全局收敛性。在这里,针对不可微问题,我们引入具有全局收敛性的半光滑牛顿法(Semi-Smooth Newton Method)。

在这里插入图片描述

广义雅可比

在这里插入图片描述 在这里插入图片描述

半光滑性

在这里插入图片描述 在这里插入图片描述

半光滑牛顿算法

半光滑性可保证牛顿型算法在迭代过程中具有局部超线性收敛(local superlinear convergence)或者局部二次收敛(local quadratic convergence)。对称锥增广拉格朗日的梯度是分段C2的,因此它是强半光滑的,通过对 H ∈ ∂ B ∇ x L ρ ( x , λ , ρ ) H \in \partial_B \nabla_x \mathcal{L}_\rho(x, \lambda, \rho) HBxLρ(x,λ,ρ)进行微小摄动保证正定性,我们可以计算出下面的半光滑牛顿步长 d d d来进行无约束优化。

在这里插入图片描述 在这里插入图片描述

参考文献

机器人中的数值优化

最优化:建模、算法与理论/最优化计算方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/383026.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年最新阿里云服务器价格表出炉(精准收费标准及配置价格表)

阿里云在全球率先宣布了基于 Intel Ice Lake 处理器的第七代云服务器ECS,性能提升的同时降低了报价,性价比更高了。进入2023年阿里云服务器价格依然是大家关心的问题,事实上阿里云服务器租用价格和最新收费标准都可以通过官方云服务器计算器来…

【IoT】智能烟雾报警器

设计简介 硬件设计由AT89C51单片机、DS18B20温度传感器、4位共阳数码管、电源模块、报警模块、按键模块、MQ-2烟雾检测模块和ADC0832模数转换模块组成。 烟雾传感器MQ-2检测空气中的烟雾气体,通过ADC0832进行数据转换,经过单片机的运算处理后在数码管上…

【WEB前端进阶之路】 HTML 全路线学习知识点梳理(上)

前言 HTML 是一切Web开发的基础,本文专门为小白整理,针对前端零基础的朋友们,手把手教你学习HTML,让你轻松迈入WEB开发的行列。 首先,感谢 橙子_ 在HTML学习以及本文编写过程中对我的帮助。 文章目录前言一.HTML简介1.…

Java使用不同方式获取两个集合List的交集、补集、并集(相加)、差集(相减)

1 明确概念首先知道几个单词的意思:并集 union交集 intersection补集 complement析取 disjunction减去 subtract1.1 并集对于两个给定集合A、B,由两个集合所有元素构成的集合,叫做A和B的并集。记作:AUB 读作“A并B”例&#…

微纳制造技术——基础知识

1.什么是直接带隙半导体和间接带隙半导体 导带底和价带顶处以同一K值,称为直接带隙半导体 导带底和价带顶不处在同一K值,称为间接带隙半导体 2.扩散和漂移的公式 3.三五族半导体的性质 1.high mobility 2.wide bandgap 3.direct bandgap 4.三五族…

SWM181 串口功能使用介绍

SWM181 串口功能使用介绍📌SDK固件包:https://www.synwit.cn/kuhanshu_amp_licheng/✨注意新手谨慎选择作为入门单片机学习。🌼开发板如下图: 📋SWM181描述上写了有4个串口,在数据手册上,将引脚…

教你如何搭建设备-巡检管理系统,demo可分享

1、简介1.1、案例简介本文将介绍,如何搭建设备-巡检管理。1.2、应用场景设备管理员进行制定设备巡检时间/内容计划、记录设备巡检信息、可以查看今日待巡检设备。2、设置方法2.1、表单搭建1)新建表单【设备档案-履历表】,字段设置如下&#x…

activiti7执行流程详解

什么是工作流? 官方定义:工作流是将一组任务组织起来以完成某个经营过程:定义了任务的触发顺序和触发条件,每个任务可以由一个或多个软件系统完成,也可以由一个或一组人完成,还可以由一个或多个人与软件系统…

阿赵的MaxScript学习笔记分享八《文件操作》

大家好,我是阿赵。继续分享MaxScript学习笔记第八篇 。这一篇主要讲文件操作,包括文件的I/O和导入导出。 1、获得3DsMax指定的一些目录路径 如果在电脑上安装了3DsMax软件,那么在文档里面会有一个3dsMax的文件夹,里面有一些3dsMa…

《C++ Primer Plus》(第6版)第8章编程练习

《C Primer Plus》(第6版)第8章编程练习《C Primer Plus》(第6版)第8章编程练习1. 打印字符串2. CandyBar3. 将string对象的内容转换为大写4. 设置并打印字符串5. max5()6. maxn()7. SumArray()《C Primer Plus》(第6版…

【C++】C++11 异常

目录 1. C语言传统的处理错误的方式 2. C异常概念 3. 异常的使用 3.1. 异常的抛出和捕获 3.2. 在函数调用链中异常栈展开匹配原则 3.3. 异常的重新抛出 3.4. 异常安全 3.5. 异常规范 4.自定义异常体系 5. C标准库的异常体系 6. 异常的优缺点 6.1. C异常的优点&…

Spark性能优化二 Shuffle机制分析

(一) 什么情况下发生shuffle 在MapReduce框架中,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中&#xff0c…

Linux 学习整理(使用 iftop 查看网络带宽使用情况 《端口显示》)

一、命令简介 iftop 是实时流量监控工具,可以用来监控网卡的实时流量(可以指定网段)、反向解析IP、显示端口信息等。 二、命令安装 yum install -y iftop 三、命令相关参数及说明 3.1、相关参数说明 -i:设定监测的网卡&#…

python未来应用前景怎么样

Python近段时间一直涨势迅猛,在各大编程排行榜中崭露头角,得益于它多功能性和简单易上手的特性,让它可以在很多不同的工作中发挥重大作用。 正因如此,目前几乎所有大中型互联网企业都在使用 Python 完成各种各样的工作&#xff0…

CAD中如何将图形对象转换为三维实体?

有些小伙伴在CAD绘制完图纸后,想要将图纸中的某些图形对象转换成三维实体,但却不知道该如何操作,其实很简单,本节CAD绘图教程就和小编一起来了解一下浩辰CAD软件中将符合条件的对象转换为三维实体的相关操作步骤吧! 将…

HID协议详解 - Report Descriptor报告描述符构建与解析

USB相关基础知识简述 报告描述符是HID协议里比较复杂的一部分,在理解报告描述符之前,可以对USB协议数据传输的一些基础知识做一些了解,更方便理解后续内容。 报告是USB协议里数据传输(Data Transfer)的一种&#xff…

Android正确使用资源res文件

观看此文注意首先有的UI改颜色,没用,发现无法更改按钮背景颜色。我的AS下载的是最新版本,Button按钮的背景颜色一直都是亮紫色,无法更改。为什么呢?首先在你的清单文件中看你应用的是哪个主题。我现在用的是这个可能你…

PYthon组合数据类型的简单使用

Python的数据类型有两种,基本数据类型和组合数据类型,组合数据类型在Python的使用中特别重要。 1.组合数据类型的分类: 2.序列类型 序列类型中元素存在顺序关系,可以存在数值相同但位置不同的元素。序列类型支持成员关系操作符&…

计算机编程基础

0与1的世界 计算机是由晶体管和电路板组成的电子设备。 不论是我们微信信息的呈现、图像的储存和数字之间的运算本质上都是0和1的信息。 0、1便可以代表电压的高低、开关的闭合以及电阻的导电和不导电。 0、1表示的数字便是“逢二进一”。计算机的最小的储存单位是位&#…

Java如何String字符串带括号转成List

问题现象 今天在做一个需求:将存入数据库中的数据读到后解析成list遍历分析 数据格式: "[1677660600000, 1677660900000, 1677661200000]" "[5, 4, 4,3,2,0,0]" 我一开始想到的就是使用逗号分割即可 结果变成了这样的…