制作 Python Docker 镜像的最佳实践

news2024/11/25 23:15:16

概述

📚️Reference:

制作容器镜像的最佳实践

这篇文章是关于制作 Python Docker 容器镜像的最佳实践。(2022 年 12 月更新) 最佳实践的目的一方面是为了减小镜像体积,提升 DevOps 效率,另一方面是为了提高安全性。希望对各位有所帮助。

通用 Docker 容器镜像最佳实践

这里也再次罗列一下对 Python Docker 镜像也适用的一些通用最佳实践。

  • 使用 LABEL maintainer
  • 标记重要端口
  • 设置环境变量
  • 使用非 root 用户运行容器进程
  • 使用 .dockerignore 排除无关文件

Python 镜像推荐设置的环境变量

Python 中推荐的常见环境变量如下:

# 设置环境变量
ENV PYTHONDONTWRITEBYTECODE 1
ENV PYTHONUNBUFFERED 1
  1. ENV PYTHONDONTWRITEBYTECODE 1: 建议构建 Docker 镜像时一直为 1, 防止 python 将 pyc 文件写入硬盘
  2. ENV PYTHONUNBUFFERED 1: 建议构建 Docker 镜像时一直为 1, 防止 python 缓冲 (buffering) stdout 和 stderr, 以便更容易地进行容器日志记录
  3. ❌不再建议使用 ENV DEBUG 0 环境变量,没必要。

使用非 root 用户运行容器进程

出于安全考虑,推荐运行 Python 程序前,创建 非 root 用户并切换到该用户。

# 创建一个具有明确 UID 的非 root 用户,并增加访问 /app 文件夹的权限。
RUN adduser -u 5678 --disabled-password --gecos "" appuser && chown -R appuser /app
USER appuser

使用 .dockerignore 排除无关文件

需要排除的无关文件一般如下:

**/__pycache__
**/*venv
**/.classpath
**/.dockerignore
**/.env
**/.git
**/.gitignore
**/.project
**/.settings
**/.toolstarget
**/.vs
**/.vscode
**/*.*proj.user
**/*.dbmdl
**/*.jfm
**/bin
**/charts
**/docker-compose*
**/compose*
**/Dockerfile*
**/node_modules
**/npm-debug.log
**/obj
**/secrets.dev.yaml
**/values.dev.yaml
*.db
.python-version
LICENSE
README.md

这里选择几个说明下:

  1. **/__pycache__: python 缓存目录
  2. **/*venv: Python 虚拟环境目录。很多 Python 开发习惯将虚拟环境目录创建在项目下,一般命名为:.venvvenv
  3. **/.env: Python 环境变量文件
  4. **/.git **/.gitignore: git 相关目录和文件
  5. **/.vscode: 编辑器、IDE 相关目录
  6. **/charts: Helm Chart 相关文件
  7. **/docker-compose*: docker compose 相关文件
  8. *.db: 如果使用 sqllite 的相关数据库文件
  9. .python-version: pyenv 的 .python-version 文件

不建议使用 Alpine 作为 Python 的基础镜像

为什么呢?大多数 Linux 发行版使用 GNU 版本(glibc)的标准 C 库,几乎每个 C 程序都需要这个库,包括 Python。但是 Alpine Linux 使用 musl, Alpine 禁用了 Linux wheel 支持。

理由如下:

  • 缺少大量依赖
    • CPython 语言运行时的相关依赖
    • openssl 相关依赖
    • libffi 相关依赖
    • gcc 相关依赖
    • 数据库驱动相关依赖
    • pip 相关依赖
  • 构建可能更耗时
    • Alpine Linux 使用 musl,一些二进制 wheel 是针对 glibc 编译的,但是 Alpine 禁用了 Linux wheel 支持。现在大多数 Python 包都包括 PyPI 上的二进制 wheel,大大加快了安装时间。但是如果你使用 Alpine Linux,你可能需要编译你使用的每个 Python 包中的所有 C 代码。
  • 基于 Alpine 构建的 Python 镜像反而可能更大
    • 乍一听似乎违反常识,但是仔细一想,因为上面罗列的原因,确实会导致镜像更大的情况。

📚️Reference:

Using Alpine can make Python Docker builds 50× slower (pythonspeed.com)

这里以这个 Demo FastAPI Python 程序 为例,其基于 Alpine 的 Dockerfile 地址是这个:https://github.com/east4ming/fastapi-url-shortener/blob/main/Dockerfile.alpine

因为缺少很多依赖,所以在用 pip 安装之前,就需要尽可能全地安装相关依赖:

RUN set -eux \
    && apk add --no-cache --virtual .build-deps build-base \
    openssl-dev libffi-dev gcc musl-dev python3-dev \
    && pip install --upgrade pip setuptools wheel \
    && pip install --upgrade -r /app/requirements.txt \
    && rm -rf /root/.cache/pip

这里也展示一下基于 Alpine 构建完成后的 镜像未压缩大小:

基于 Alpine 的 Python Demo 镜像大小:472 MB

△ 基于 Alpine 的 Python Demo 镜像大小:472 MB; 相比之下,基于 slim 的只有 189 MB

在上面代码的这一步,就占用了太多空间:

🤔思考:

可能上面一段可以精简,但是要判断对于哪个 Python 项目,可以精简哪些包,实在是太难了。

+ apk add --no-cache --virtual .build-deps build-base openssl-dev libffi-dev gcc musl-dev python3-dev
fetch https://dl-cdn.alpinelinux.org/alpine/v3.17/main/x86_64/APKINDEX.tar.gz
fetch https://dl-cdn.alpinelinux.org/alpine/v3.17/community/x86_64/APKINDEX.tar.gz
(1/28) Installing libgcc (12.2.1_git20220924-r4)
(2/28) Installing libstdc++ (12.2.1_git20220924-r4)
(3/28) Installing binutils (2.39-r2)
(4/28) Installing libmagic (5.43-r0)
(5/28) Installing file (5.43-r0)
(6/28) Installing libgomp (12.2.1_git20220924-r4)
(7/28) Installing libatomic (12.2.1_git20220924-r4)
(8/28) Installing gmp (6.2.1-r2)
(9/28) Installing isl25 (0.25-r0)
(10/28) Installing mpfr4 (4.1.0-r0)
(11/28) Installing mpc1 (1.2.1-r1)
(12/28) Installing gcc (12.2.1_git20220924-r4)
(13/28) Installing libstdc++-dev (12.2.1_git20220924-r4)
(14/28) Installing musl-dev (1.2.3-r4)
(15/28) Installing libc-dev (0.7.2-r3)
(16/28) Installing g++ (12.2.1_git20220924-r4)
(17/28) Installing make (4.3-r1)
(18/28) Installing fortify-headers (1.1-r1)
(19/28) Installing patch (2.7.6-r8)
(20/28) Installing build-base (0.5-r3)
(21/28) Installing pkgconf (1.9.3-r0)
(22/28) Installing openssl-dev (3.0.7-r0)
(23/28) Installing linux-headers (5.19.5-r0)
(24/28) Installing libffi-dev (3.4.4-r0)
(25/28) Installing mpdecimal (2.5.1-r1)
(26/28) Installing python3 (3.10.9-r1)
(27/28) Installing python3-dev (3.10.9-r1)
(28/28) Installing .build-deps (20221214.074929)
Executing busybox-1.35.0-r29.trigger
OK: 358 MiB in 65 packages
...

建议使用官方的 python slim 镜像作为基础镜像

继续上面,所以我是建议:使用官方的 python slim 镜像作为基础镜像

镜像库是这个:https://hub.docker.com/_/python

并且使用 python:<version>-slim 作为基础镜像,能用 python:<version>-slim-bullseye 作为基础镜像更好(因为更新,相对就更安全一些).

这个镜像不包含默认标签中的常用包,只包含运行 python 所需的最小包。这个镜像是基于 Debian 的。

使用官方 python slim 的理由还包括:

  • 稳定性
  • 安全升级更及时
  • 依赖更新更及时
  • 依赖更全
  • Python 版本升级更及时
  • 镜像更小

📚️Reference:

The best Docker base image for your Python application (Sep 2022) (pythonspeed.com)

一般情况下,Python 镜像构建不需要使用"多阶段构建"

一般情况下,Python 镜像构建不需要使用"多阶段构建".

理由如下:

  • Python 没有像 Golang 一样,可以把所有依赖打成一个单一的二进制包
  • Python 也没有像 Java 一样,可以在 JDK 上构建,在 JRE 上运行
  • Python 复杂而散落的依赖关系,在"多阶段构建"时会增加复杂度
  • ...

如果有一些特殊情况,可以尝试使用"多阶段构建"压缩镜像体积:

  • 构建阶段需要安装编译器
  • Python 项目复杂,用到了其他语言代码(如 C/C++/Rust)

pip 小技巧

使用 pip 安装依赖时,可以添加 --no-cache-dir 减少镜像体积:

# 安装 pip 依赖
COPY requirements.txt .
RUN python -m pip install --no-cache-dir --upgrade -r requirements.txt

Python Dockerfile 最佳实践样例

最后, 就是基于以上最佳实践的完整样例, 也可以在这里找到: https://github.com/east4ming/fastapi-url-shortener/blob/main/Dockerfile.slim

FROM python:3.10-slim

LABEL maintainer="cuikaidong@foxmail.com"

EXPOSE 8000

# Keeps Python from generating .pyc files in the container
ENV PYTHONDONTWRITEBYTECODE=1

# Turns off buffering for easier container logging
ENV PYTHONUNBUFFERED=1

# Install pip requirements
COPY requirements.txt .
RUN python -m pip install --no-cache-dir --upgrade -r requirements.txt

WORKDIR /app
COPY . /app

# Creates a non-root user with an explicit UID and adds permission to access the /app folder
RUN adduser -u 5678 --disabled-password --gecos "" appuser && chown -R appuser /app
USER appuser

CMD ["uvicorn", "shortener_app.main:app", "--host", "0.0.0.0"]

总结

制作 Python Docker 容器镜像的最佳实践。最佳实践的目的一方面是为了减小镜像体积,提升 DevOps 效率,另一方面是为了提高安全性.

最佳实践如下:

  • 推荐 2 个 Python 的环境变量
    • ENV PYTHONDONTWRITEBYTECODE 1
    • ENV PYTHONUNBUFFERED 1
  • 使用非 root 用户运行容器进程
  • 使用 .dockerignore 排除无关文件
  • 不建议使用 Alpine 作为 Python 的基础镜像
  • 建议使用官方的 python slim 镜像作为基础镜像
  • 一般情况下, Python 镜像构建不需要使用"多阶段构建"
  • pip 小技巧: --no-cache-dir

希望对大家有所帮助.

最后也感叹一下, 在云原生时代, python 在分发这块, 特别是镜像构建这块, 确实体验、效率、镜像大小等方面差 golang 太多了。😭😭😭

📚️参考文档

  • Using Alpine can make Python Docker builds 50× slower (pythonspeed.com)
  • The best Docker base image for your Python application (Sep 2022) (pythonspeed.com)
  • Multi-stage builds #2: Python specifics (pythonspeed.com)
  • 制作容器镜像的最佳实践 - 东风微鸣技术博客 (ewhisper.cn)

三人行, 必有我师; 知识共享, 天下为公. 本文由东风微鸣技术博客 EWhisper.cn 编写.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/90444.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无忧·企业文档,为企业客户的场景而思考

作为无忧企业文档的设计者&#xff0c;常常被问到一个问题&#xff0c;这个和腾X文档有什么区别&#xff1f;其实这个问题我口头回答了很多次&#xff0c;这次&#xff0c;我将这个问题做个记录与分析。 主要是有以下几个方面不同&#xff1a; 1、客户定位不同 2、核心功能不…

Java基础疑难点梳理(泛型到反射9章内容)

文章目录1. 泛型2. 基础类库3. 集合4. 异常5. 注解6. JDBC7. IO流8. 网络编程9. 类加载和反射1. 泛型 静态方法的形参&#xff0c;静态变量&#xff0c;静态代码块中不能使用泛型&#xff08;因为即使泛型不同&#xff0c;还是同一个类&#xff0c;静态变量是属于类的&#xff…

锂电池实验室规划设计方案 | 喜格SICOLAB

锂电池实验室规划设计方案 | 喜格SICOLAB 锂电池生产基本工序 正负极混料、涂布、辊压、干燥、裁切、卷绕或叠片、封装、注液、化成、检测、出货等。锂电池实验室设计标准 1、《电子工业洁净厂房设计规范》GB50472-2008 2、《锂离子电池工厂设计标准》GB 51377-2019 《工业建筑…

在 Python 中使用 cv2 进行嗜睡检测

大家好&#xff0c;在这个博客中&#xff0c;我们将构建一个嗜睡检测应用程序&#xff0c;它将检测视频中的人是否变得昏昏欲睡。这是一个非常有趣且简单的项目&#xff0c;代码甚至不到 80 行&#xff0c;让我们开始吧看看最终输出注意——你不会在这里听到警报声&#xff0c;…

Stm32旧版库函数12——定时器的使用\time1

#include "stm32f10x_lib.h" #include "usart.h" #include "delay.h" #include "sys_config.h" #include <math.h> //Keil library #define uchar unsigned char #define uint unsigned int //通用定时器中断初始…

SpringCloud(6)— RabbitMQ(消息队列)

SpringCloud&#xff08;6&#xff09;— RabbitMQ(消息队列) 一 初识MQ 1.同步通信与异步通信 1.同步通信的问题 同步调用的优点在于时效性高&#xff0c;可以立即得到结果 微服务之间基于Feign的调用属于同步方式&#xff0c;存在一些问题 耦合性&#xff1a;业务较多时&a…

硅片检测半导体运动台控制器的设计

多自由度精密运动平台是半导体行业中硅片制造和检测过程里至关重要的问题&#xff0c;采用直线电机和音圈电机等先进驱动方式的精密运动平台相对传统滚珠丝杠旋转电机运动的运动平台&#xff0c;具有精度高、响应快、寿命长、免维护和结构简单等诸多优点&#xff0c;优势十分明…

为什么感觉现在很少有黑客了?

有一个词语&#xff0c;人人不是它&#xff0c;却人人都提及它&#xff0c;他就是&#xff1a;黑客&#xff01; 黑客&#xff0c;这个我们从小就接触的工种&#xff0c;总是衣服全身黑衣、眼戴墨镜、冷酷无情、超级厉害的形象&#xff0c;关键是&#xff0c;只要应用崩了/数据…

一颗芯片是怎样诞生的

目录 从沙子到单晶硅 单晶硅切片 电路实现 芯片的封装 芯片属于半导体。半导体是介于导体和绝缘体之间的一类物质&#xff0c;元素周期表中硅、锗、硒、硼的单质都属于半导体。这些单质通过掺杂其他元素生成的一些化合物&#xff0c;也属于半导体的范畴。 P型半导体是在单…

Linux安装phpstudy(无联网版)

下载install.sh Centos安装脚本&#xff0c;直接在浏览器打开https://notdocker.xp.cn/install.sh下载install.sh #官方安装命令 yum install -y wget && wget -O install.sh https://notdocker.xp.cn/install.sh && sh install.sh #命令解析 yum install -y …

AI作画,AIGC领域新的引爆点

AI作画火爆&#xff0c;一帧秒创再创惊喜 2022年渐近尾声&#xff0c;这一年小事不断&#xff0c;大事不少。当今这个时代&#xff0c;似乎注定就是一个见证历史和颠覆观念的时代。AIGC领域在人工智能、元宇宙概念兴起的背景之下&#xff0c;在今年迎来一个火爆增长。 其中的…

Github每日精选(第76期):在 Mac 状态栏上显示进程流量的监视器ITraffic-monitor-for-mac

ITraffic-monitor-for-mac ITraffic-monitor-for-mac 在 Mac 状态栏上显示进程流量的监视器&#xff0c;在windows我们的流量可以通过电脑管家或者360进行显示&#xff0c;在进行网络编程的时候&#xff0c;这个确实帮了不少忙&#xff0c;但是咱Mac下&#xff0c;显示网络状况…

oracle的trunc函数改为hive的函数

trunc函数可以截取oracle的日期 select trunc(sysdate,yyyy) from dual;--返回当年第一天 select trunc(sysdate,mm) from dual; --返回当月第一天 select trunc(sysdate,dd) from dual;--返回当前年月日 select trunc(sysdate,d) from dual; --返回当前星期的第一天(星期日) …

怎么把电脑硬盘文件恢复回来?跟着我这么做

电脑的硬盘数据丢失了&#xff0c;用了很多方法都没有办法找回来&#xff0c;电脑文件还能找回来吗&#xff1f;硬盘文件恢复要怎么操作&#xff1f;这时候就要寻求第三方数据恢复软件来恢复数据了。下面有详细的操作步骤&#xff0c;简单几步就可以找回你消失的硬盘数据&#…

leetcode90子集II-回溯-Java

说明&#xff1a; 问题描述来源leetcode 题解1&#xff1a; /*** author xin麒* date 2022/12/15 11:18* 给你一个整数数组 nums &#xff0c;其中可能包含重复元素&#xff0c;请你返回该数组所有可能的子集&#xff08;幂集&#xff09;。* 解集 不能 包含重复的子集。返回…

DPDK介绍

一、什么是DPDK&#xff1f; DPDK 全称是数据平面开发套件 (Data Plane Development Kit)&#xff0c;由 6WIND,Intel 等多家公司开发&#xff0c;主要基于 Linux 系统运行&#xff0c;用于快速数据包处理的函数库与驱动集合&#xff0c;可以极大提高数据处理性能和吞吐量&…

DGIOT边缘主机功能——6USB串口替代普通dtu/网关的设备接入

[小 迪 导读]&#xff1a; dgiot边缘主机自带6个USB口、2个RS232串口以及2个网口&#xff0c;可用组态对边缘主机上的USB口、串口和网口等上的外设进行可视化管理&#xff0c;包括如下功能&#xff1a; 通过6个USB口外接USB转485转换器模拟6个485转以太网/无线的网关/dtu2个RS…

JavaWeb——在线音乐播放器

文章目录效果演示1. 创建SpringBoot项目2. 数据库设计3. 配置数据库和xml4. 登录模块设计4.1 创建User类4.2 创建对应的Mapper和Controller5. 实现登录5.1 登录的请求和响应设计5.2 请求实现5.3 响应实现5.31 设置统一的响应体类工具类5.32 创建常量工具类5.33 优化后完整代码6…

纳米源表测试软件更新,新增太阳能电池测试、双通道脉冲扫描

源表在电测行业中应用十分广泛&#xff0c;尤其是在需求高精度的半导体、纳米器件和材料、太阳能电池、印刷电子技术等领域有着举足轻重的地位&#xff1b;而源表软件则可以实现源表的远程控制&#xff0c;通过在软件控制源表进行配置或者测量&#xff0c;也可以对测量的数据和…

大学生游戏静态HTML网页设计 (HTML+CSS+JS仿英雄联盟网站15页)

&#x1f389;精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业…