求解包含约束的最优化问题:拉格朗日乘子法和KKT条件

news2024/11/25 2:47:21

文章目录

  • 无约束
  • 等式约束
  • 不等式约束
  • KKT条件

无约束

之前梯度类算法中介绍的最速下降法、牛顿法和拟牛顿法,可以直接使用的条件之一为:决策变量都是无约束的。

用数学语言描述的话,可以表达为:决策变量为 x = ( x 1 , x 2 , ⋅ ⋅ ⋅ , x n ) \pmb x=(x_1,x_2,···,x_n) x=(x1,x2,⋅⋅⋅,xn),目标函数为
m i n f ( x ) min f(\pmb x) minf(x)

但在实际问题中,大部分都是包含约束的,比如多个决策变量之间存在耦合关系、资源有上限等。其中,有些是等式约束,有些则是不等式约束。在求解这类包含约束的最优化问题时,就需要一些新的方法。本文主要介绍拉格朗日乘子法和KKT条件。

等式约束

当最优化问题中只包含等式约束时,数学模型可以表达为
m i n f ( x ) s.t. h l ( x ) = 0 , l = 1 , 2 , . . . , L min f(\pmb x) \\ \text{s.t.} \quad h_l(\pmb x) = 0, l=1,2,...,L minf(x)s.t.hl(x)=0,l=1,2,...,L
相比无约束的情况,多了 h l ( x ) = 0 h_l(\pmb x) = 0 hl(x)=0的限制。

求解这类问题的思路是,想办法将等式约束去掉,将原问题转化为无约束优化问题,这样就可以使用梯度类算法求解了。

拉格朗日乘子法是很常用的一种转化方法,该方法是构造如下的优化问题:
m i n L ( x , λ ) minL(\pmb x, \pmb \lambda) minL(x,λ)
其中
L ( x , λ ) = f ( x ) + ∑ l = 1 L λ l h l ( x ) L(\pmb x, \pmb \lambda)=f(\pmb x)+\sum_{l=1}^L\lambda_lh_l(\pmb x) L(x,λ)=f(x)+l=1Lλlhl(x)
相比原优化问题,新优化问题是无约束的,但是多了一组优化变量 λ \pmb \lambda λ。看起来,两者是有些差异的,那么它们的最优解是否相同呢?答案是相同的,接下来详细解释一下。

针对 L ( x , λ ) L(\pmb x, \pmb \lambda) L(x,λ),求一阶导数,并令其等于0:
∂ L ∂ x i = 0 ⇒ ∂ f ∂ x i + ∑ l = 1 L λ l ∂ h l ∂ x i = 0 ∂ L ∂ λ l = 0 ⇒ h l = 0 \frac{\partial L}{\partial x_i}=0 \Rightarrow \frac{\partial f}{\partial x_i}+\sum_{l=1}^L\lambda_l\frac{\partial h_l}{\partial x_i}=0 \\ \frac{\partial L}{\partial \lambda_l}=0 \Rightarrow h_l=0 \\ xiL=0xif+l=1Lλlxihl=0λlL=0hl=0
上述两式即为 L ( x , λ ) L(\pmb x, \pmb \lambda) L(x,λ)取极值的必要条件。第一个公式暂时不需要关心,主要看第二个公式 h l = 0 h_l=0 hl=0。也就是说,假设存在一组 ( x ∗ , λ ∗ ) (\pmb x^\ast, \pmb \lambda^\ast) (x,λ)使得 L ( x , λ ) L(\pmb x, \pmb \lambda) L(x,λ)取到极值点,那么必然有
h l ( x ∗ ) = 0 h_l(\pmb x^\ast) = 0 hl(x)=0
即等式约束已经被满足。此时
L ( x ∗ , λ ∗ ) = f ( x ∗ ) L(\pmb x^\ast, \pmb \lambda^\ast)=f(\pmb x^\ast) L(x,λ)=f(x)
即最优解也等价。

虽然已经证明了,但好像依然挺绕的。接下来再画一个二维最优化问题的示意图,直观理解一下。

如下图所示。蓝色曲线为约束条件,所以可行解只能在该曲线上。3条黑色圈为原目标函数 f ( x , y ) f(x,y) f(x,y)的等高线,其值从外向内越来越小,分别为5、3和1。蓝色曲线和黑色等高线存在3种空间关系,分别是不相交、相交和相切。针对不相交的情况(图中C点),显然 h ( x , y ) ≠ 0 h(x,y)\neq0 h(x,y)=0,所以是不可行解;针对相交的情况(图中B点),从相交点开始,沿着等高线降低方向寻找,必然存在更优解;针对相切的情况(图中A点),则恰好为最优解。

现在来看一下相切点处的特征。首先是 h ( x , y ) = 0 h(x,y)=0 h(x,y)=0,即 L ( x , λ ) L(\pmb x, \pmb \lambda) L(x,λ)取极值的第二个必要条件,自必不多说;其次是由于相切, f ( x , y ) f(x,y) f(x,y) h ( x , y ) h(x,y) h(x,y)的法向量共线,即梯度共线,由此可以推导出 L ( x , λ ) L(\pmb x, \pmb \lambda) L(x,λ)取极值的第一个必要条件。所以,原问题和新问题是完全等价的。

这里还需要额外说的一点是:图中 Δ f \Delta f Δf的方向肯定是向外的,因为梯度的定义表明了其是指向 f f f变大方向的;但是 Δ h \Delta h Δh的方向是不明确的,因为我们只有 h ( x , y ) = 0 h(x,y)=0 h(x,y)=0的信息,并不清楚朝哪个方向能让 h ( x , y ) h(x,y) h(x,y)变大,所以图中只是一个示意图。

不等式约束

如果最优化问题中不仅包含等式约束,还包含不等式约束,数学模型可以表达为
m i n f ( x ) s.t.  h l ( x ) = 0 , l = 1 , 2 , . . . , L g m ( x ) ≤ 0 , m = 1 , 2 , . . . , M min f(\pmb x) \\ \text{s.t.} \ \qquad h_l(\pmb x) = 0, l=1,2,...,L \\ \qquad \qquad g_m(\pmb x) ≤ 0, m=1,2,...,M minf(x)s.t. hl(x)=0,l=1,2,...,Lgm(x)0,m=1,2,...,M

求解该类问题的思路也很简单:先将不等式约束 g ( x ) g(\pmb x) g(x)转化为等式约束,然后再按照第二节中介绍的拉格朗日乘子法继续求解。

将不等式约束变为等式约束的方式是增加松弛变量 w m 2 w_m^2 wm2
g m ( x ) + w m 2 = 0 , m = 1 , 2 , . . . , M g_m(\pmb x)+w_m^2=0, m=1,2,...,M gm(x)+wm2=0,m=1,2,...,M
至此,可以构造新的拉格朗日函数:
L ( x , λ , w ) = f ( x ) + ∑ l = 1 L λ l h l ( x ) + ∑ m = 1 M λ L + m [ g m ( x ) + w m 2 ] L(\pmb x,\pmb \lambda, \pmb w)=f(\pmb x)+\sum_{l=1}^L\lambda_lh_l(\pmb x)+\sum_{m=1}^M\lambda_{L+m}[g_m(\pmb x)+w_m^2] L(x,λ,w)=f(x)+l=1Lλlhl(x)+m=1MλL+m[gm(x)+wm2]

求一阶导数,可以得到最优解的必要条件如下:
∂ L ∂ x i = 0 ⇒ ∂ f ∂ x i + ∑ l = 1 L λ l ∂ h l ∂ x i + ∑ m = 1 L λ L + m ∂ g m ∂ x i = 0 ∂ L ∂ λ l = 0 ⇒ h l = 0 , g m + w m 2 = 0 ∂ L ∂ w m = 0 ⇒ 2 λ L + m w m = 0 \frac{\partial L}{\partial x_i}=0 \Rightarrow \frac{\partial f}{\partial x_i}+\sum_{l=1}^L\lambda_l\frac{\partial h_l}{\partial x_i}+\sum_{m=1}^L\lambda_{L+m}\frac{\partial g_m}{\partial x_i}=0 \\ \frac{\partial L}{\partial \lambda_l}=0 \Rightarrow h_l=0,g_m+w_m^2=0 \\ \frac{\partial L}{\partial w_m}=0 \Rightarrow 2\lambda_{L+m}w_m=0 \\ xiL=0xif+l=1Lλlxihl+m=1LλL+mxigm=0λlL=0hl=0,gm+wm2=0wmL=02λL+mwm=0

KKT条件

事实上,针对包含不等式约束的情况,除了先转化为等式约束再使用拉格朗日乘子法这种“曲线救国”的方法,还有更直接的求解方法,那就是KKT条件。

针对上述同时包含等式和不等式约束的最优化问题,KKT条件为
∂ f ∂ x i + ∑ l = 1 L λ l ∂ h l ∂ x i + ∑ m = 1 L λ L + m ∂ g m ∂ x i = 0 h l = 0 , g m ≤ 0 λ L + m g m = 0 λ L + m ≥ 0 \frac{\partial f}{\partial x_i}+\sum_{l=1}^L\lambda_l\frac{\partial h_l}{\partial x_i}+\sum_{m=1}^L\lambda_{L+m}\frac{\partial g_m}{\partial x_i}=0 \\ h_l=0,g_m≤0 \\ \lambda_{L+m}g_m=0 \\ \lambda_{L+m}≥0 \\ xif+l=1Lλlxihl+m=1LλL+mxigm=0hl=0,gm0λL+mgm=0λL+m0

需要注意的有三点:
(1)相比上一节转化的拉格朗日乘子法,KKT中新增了约束 λ L + m ≥ 0 \lambda_{L+m}≥0 λL+m0
(2)相比KKT条件,拉格朗日乘子法中新增了变量 w \pmb w w
(3)拉格朗日乘子法中的 λ L + m w m = 0 \lambda_{L+m}w_m=0 λL+mwm=0和KKT条件中的 λ L + m g m = 0 \lambda_{L+m}g_m=0 λL+mgm=0是等价的。

接下来理解一下KKT条件。

假设 x ∗ \pmb x^\ast x为原问题的最优解。针对 g ( x ∗ ) g(\pmb x^\ast) g(x),存在两种可能性:
(1) g ( x ∗ ) < 0 g(\pmb x^\ast)<0 g(x)<0。此时该约束没起到作用,可以直接去掉,问题退化为第二节的等式约束问题,此时 λ L + m = 0 \lambda_{L+m}=0 λL+m=0即可。
(2) g ( x ∗ ) = 0 g(\pmb x^\ast)=0 g(x)=0。此时该约束相当于新的等式约束,把第二节中的二维最优化图再搬运过来看一下。到了这里后,我们发现, f ( x , y ) f(x,y) f(x,y) g ( x , y ) g(x,y) g(x,y)的法向量不仅要共线,而且方向还一定要恰好相反,即 g ( x , y ) < 0 g(x,y)<0 g(x,y)<0必然在右侧。这是因为如果 g ( x , y ) < 0 g(x,y)<0 g(x,y)<0在左侧,则C点满足不等式约束,且目标函数值比A点更优,与 g ( x ∗ ) = 0 g(\pmb x^\ast)=0 g(x)=0矛盾。


综上可以推导出: λ L + m g m = 0 \lambda_{L+m}g_m=0 λL+mgm=0 λ L + m ≥ 0 \lambda_{L+m}≥0 λL+m0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/552480.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode104. 二叉树的最大深度(递归非递归)

写在前面&#xff1a; 题目链接&#xff1a;LeetCode104.二叉树的最大深度 编程语言&#xff1a;C 题目难度&#xff1a;简单 一、题目描述 给定一个二叉树&#xff0c;找出其最大深度。 二叉树的深度为根节点到最远叶子节点的最长路径上的节点数。 说明: 叶子节点是指没有子…

You Only Look Once:Unified,Real-Time Object Detection总结笔记

一、论文思想 1.将一个图像分成S*S个网格&#xff08;grid cell&#xff09;&#xff0c;如果某个object的中心落在这个网格中&#xff0c;则这个网络就负责预测这个object。 2.每个网格要预测B个bounding box&#xff0c;每个bounding box除了要预测位置之外&#xff0c;还要…

微服务技术(SpringCloud、Docker、RabbitMQ)

目录 一、微服务技术简介 二、服务拆分及远程调用 1.Eureka注册中心 2.Nacos注册中心 3.Nacos配置管理 4.http客户端Feign 三、统一网关Gateway 四、Docker 五、异步通信技术 六、ElasticSearch 一、微服务技术简介 微服务是分布式架构&#xff08;分布式&#xff…

Lesson14---卷积神经网络

14.1 深度学习基础 14.1.1 深度学习的基本思想 特征工程&#xff1a;尽可能选择和构建出好的特征&#xff0c;使得机器学习算法能够达到最佳性能。是机器学习的上限&#xff0c;而算法就是逼近这个上限传统的机器学习特证工程 依靠人工方式提取和设计特征需要大量的专业知识…

低代码系统前端实践之vue-element-admin运行demo

文章目录 1、简介2、实践功能3、实践过程3.0 下载运行demo3.1.1 解决执行npm install或出现以下报错(删掉组件tui-editor相关即可)3.1.2 解决执行npm run dev或出现no module body-parser(安装body-parser即可)3.1.3 解决执行npm run dev或出现error:0308010C:digital envelope…

RK3568平台开发系列讲解(驱动基础篇)RK平台I2C的使用

🚀返回专栏总目录 文章目录 一、I2C 使用情况二、定义和注册 I2C 设备三、定义和注册 I2C 驱动3.1 I2C 驱动定义3.2 I2C 驱动注册3.3 通过 I2C 收发数据沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇将对RK I2C 的使用进行学习。 配置 I2C 可分为两大步骤: 定…

【Linux C】GCC编译 GDB调试 从入门到放弃 (gcc调试选项详解、gdb调试、条件断点、远程调试、脚本化调试)

阅读本文可能需要一些基础&#xff0c;比如&#xff1a;C语言基础、Linux基础操作、vim、防火墙等。篇幅有限&#xff0c;本文讲的“比较浅显”。 通过本文你将学会&#xff1a; gcc编译gdb调试 少年你渴望力量吗&#x1f447;&#x1f447;&#x1f447; 一、使用GCC编译C程序…

Antd 下拉面板的位置计算错误

项目场景&#xff1a; 公司使用无界微前端集成ERP项目应用&#xff08;可惜没跟着走一边无界&#xff0c;难受&#xff09;&#xff0c;某些子应用使用时&#xff0c;发现antd的弹窗弹出的位置不对。如下图&#xff1a; 问题描述 无界微前端嵌入的子应用中的antd的下拉框位置…

【谷粒商城笔记】基于docker的mysql、redis环境配置

0.系统 宝塔 v7.5.1 Centos v8.2 1. 安装Docker 直接yum install docker会提示找不到 > docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \ docker-logrotate \ docker-engine Loaded plugins: fastestmirror No Match for argument: …

Prometheus如何优化远程读写的性能

Prometheus如何优化远程读写的性能 场景 为了解决prometheus本地存储带来的单点问题&#xff0c;我们一般在高可用监控架构中会使用远程存储&#xff0c;并通过配置prometheus的remote_write和remote_read来对接 远程写优化&#xff1a;remote_write 用户可以在Prometheus配…

码上行动:零基础学会Python编程(文末送书)

&#x1f935;‍♂️ 个人主页&#xff1a;艾派森的个人主页 ✍&#x1f3fb;作者简介&#xff1a;Python学习者 &#x1f40b; 希望大家多多支持&#xff0c;我们一起进步&#xff01;&#x1f604; 如果文章对你有帮助的话&#xff0c; 欢迎评论 &#x1f4ac;点赞&#x1f4…

Day3 字符串中找出连续最长的数字串、数组中出现次数超过一半的数字

✨个人主页&#xff1a; 北 海 &#x1f389;所属专栏&#xff1a; C/C相关题解 &#x1f383;操作环境&#xff1a; Visual Studio 2019 版本 16.11.17 文章目录 选择题1、进程管理2、计算机组成原理 编程题1、字符串中找出连续最长的数字串2、数组中出现次数超过一半的数字 选…

和数组处理有关的一些OJ题;ArrayList 实现简单的洗牌算法(JAVA)(ArrayList)

接上次博客&#xff1a;数据结构初阶&#xff08;2&#xff09;&#xff08;ArrayList简介、ArrayList()的构造方法、ArrayList的扩容、方法和三种遍历方法、ArrayList实现杨辉三角、ArrayList 的优缺点&#xff09;_di-Dora的博客-CSDN博客 1、给你一个数组 nums 和一个值 va…

FreeRTOS(6)----软件定时器

一&#xff0c;软件定时器概述 软件定时器允许设置一段时间&#xff0c;当设定的时间到达之后就会执行指定的功能函数&#xff0c;被定时器调用的这个函数叫做定时器的回调函数。回调函数的两次执行间隔叫做定时器的定时周期。 二&#xff0c;回调函数的注意事项 回调函数是…

Linux文件权限管理

1、Linux权限介绍 权限管理&#xff0c;其实就是指对不同的用户&#xff0c;设置不同的文件访问权限。 Linux 系统&#xff0c;最常见的文件权限有 3 种&#xff0c;即对文件的读&#xff08;用 r 表示&#xff09;、写&#xff08;用 w 表示&#xff09;和执行&#xff08;用…

github.io创建个人网站

文章目录 github.io介绍使用步骤新建仓库添加文件 github.io介绍 github.io是 GitHub 提供的免费 Pages服务&#xff0c;不需要购买云服务器和域名&#xff0c;就可以将自己的项目、博客在互联网上进行共享。 使用步骤 新建仓库 创建一个新的仓库&#xff0c;仓库名设置为如…

Nacos环境隔离

随着Nacos 0.8版本的release&#xff0c;Nacos离正式生产版本又近了一步&#xff08;其实已经有不少企业已经上了生产&#xff0c;如虎牙&#xff09;。一般而言&#xff0c;企业研发的流程一般是这样的&#xff1a;先在测试环境开发和测试功能&#xff0c;然后再灰度&#xff…

CANFDCAN协议对比 - 基础介绍_01

目录 一、为什么会出现CANFD&#xff1f; 1、信号数量大量增加 2、新要求&#xff0c;新总线系统 3、CAN性能限制 4、更短的位时间也能满足 &#xff1f;&#xff1f;&#xff1f;CAN是否会被取代&#xff1f; 二、CANFD优点 1、更多数据&#xff0c;更低总线负载率 2…

计算机网络 三(数据链路层)下

流量控制与可靠传输机制 流量控制手段&#xff1a;接收方收不下就不回复确认。 传输层流量控制手段&#xff1a;接收端给发送端一个窗口公告 #可用协议 可用协议 停止等待协议 概念、出现原因 停止等待协议是一种简单的数据传输协议&#xff0c;常用于数据传输的可靠性较低…

【Docker实战】使用Docker部署Tomcat

【Docker实战】使用Docker部署Tomcat 一、Tomcat介绍1. Tomcat简介2. Tomcat特点3. Tomcat容器部署的优点4. Tomcat的配置文件 二、检查本地环境三、检查本地Docker环境1. 检查本地Docker服务2. 检查Docker版本 四、搜索docker hub中的tomcat镜像五、下载tomcat镜像六、创建Tom…