制作 Python Docker 镜像的最佳实践
概述
️Reference:
这篇文章是关于制作 Python Docker 容器镜像的最佳实践。(2022 年 12 月更新)
最佳实践的目的一方面是为了减小镜像体积,提升 DevOps 效率,另一方面是为了提高安全性。希望对各位有所帮助。
通用 Docker 容器镜像最佳实践
这里也再次罗列一下对 Python Docker 镜像也适用的一些通用最佳实践。
- 使用
LABEL maintainer
- 标记重要端口
- 设置环境变量
- 使用非 root 用户运行容器进程
- 使用
.dockerignore
排除无关文件
Python 镜像推荐设置的环境变量
Python 中推荐的常见环境变量如下:
# 设置环境变量
ENV PYTHONDONTWRITEBYTECODE 1
ENV PYTHONUNBUFFERED 1
ENV PYTHONDONTWRITEBYTECODE 1
: 建议构建 Docker 镜像时一直为1
, 防止 python 将 pyc 文件写入硬盘ENV PYTHONUNBUFFERED 1
: 建议构建 Docker 镜像时一直为1
, 防止 python 缓冲 (buffering) stdout 和 stderr, 以便更容易地进行容器日志记录- 不再建议使用
ENV DEBUG 0
环境变量,没必要。
使用非 root 用户运行容器进程
出于安全考虑,推荐运行 Python 程序前,创建 非 root 用户并切换到该用户。
# 创建一个具有明确 UID 的非 root 用户,并增加访问 /app 文件夹的权限。
RUN adduser -u 5678 --disabled-password --gecos "" appuser && chown -R appuser /app
USER appuser
使用 .dockerignore
排除无关文件
需要排除的无关文件一般如下:
**/__pycache__
**/*venv
**/.classpath
**/.dockerignore
**/.env
**/.git
**/.gitignore
**/.project
**/.settings
**/.toolstarget
**/.vs
**/.vscode
**/*.*proj.user
**/*.dbmdl
**/*.jfm
**/bin
**/charts
**/docker-compose*
**/compose*
**/Dockerfile*
**/node_modules
**/npm-debug.log
**/obj
**/secrets.dev.yaml
**/values.dev.yaml
*.db
.python-version
LICENSE
README.md
这里选择几个说明下:
**/__pycache__
: python 缓存目录**/*venv
: Python 虚拟环境目录。很多 Python 开发习惯将虚拟环境目录创建在项目下,一般命名为:.venv
或venv
**/.env
: Python 环境变量文件**/.git
**/.gitignore
: git 相关目录和文件**/.vscode
: 编辑器、IDE 相关目录**/charts
: Helm Chart 相关文件**/docker-compose*
: docker compose 相关文件*.db
: 如果使用 sqllite 的相关数据库文件.python-version
: pyenv 的 .python-version 文件
不建议使用 Alpine 作为 Python 的基础镜像
为什么呢?大多数 Linux 发行版使用 GNU 版本(glibc)的标准 C 库,几乎每个 C 程序都需要这个库,包括 Python。但是 Alpine Linux 使用 musl, Alpine 禁用了 Linux wheel 支持。
理由如下:
- 缺少大量依赖
- CPython 语言运行时的相关依赖
- openssl 相关依赖
- libffi 相关依赖
- gcc 相关依赖
- 数据库驱动相关依赖
- pip 相关依赖
- 构建可能更耗时
- Alpine Linux 使用 musl,一些二进制 wheel 是针对 glibc 编译的,但是 Alpine 禁用了 Linux wheel 支持。现在大多数 Python 包都包括 PyPI 上的二进制 wheel,大大加快了安装时间。但是如果你使用 Alpine Linux,你可能需要编译你使用的每个 Python 包中的所有 C 代码。
- 基于 Alpine 构建的 Python 镜像反而可能更大
- 乍一听似乎违反常识,但是仔细一想,因为上面罗列的原因,确实会导致镜像更大的情况。
️Reference:
Using Alpine can make Python Docker builds 50× slower (pythonspeed.com)
这里以这个 Demo FastAPI Python 程序 为例,其基于 Alpine 的 Dockerfile 地址是这个:https://github.com/east4ming/fastapi-url-shortener/blob/main/Dockerfile.alpine
因为缺少很多依赖,所以在用 pip 安装之前,就需要尽可能全地安装相关依赖:
RUN set -eux \
&& apk add --no-cache --virtual .build-deps build-base \
openssl-dev libffi-dev gcc musl-dev python3-dev \
&& pip install --upgrade pip setuptools wheel \
&& pip install --upgrade -r /app/requirements.txt \
&& rm -rf /root/.cache/pip
这里也展示一下基于 Alpine 构建完成后的 镜像未压缩大小:
△ 基于 Alpine 的 Python Demo 镜像大小:472 MB; 相比之下,基于 slim 的只有 189 MB
在上面代码的这一步,就占用了太多空间:
思考:
可能上面一段可以精简,但是要判断对于哪个 Python 项目,可以精简哪些包,实在是太难了。
+ apk add --no-cache --virtual .build-deps build-base openssl-dev libffi-dev gcc musl-dev python3-dev
fetch https://dl-cdn.alpinelinux.org/alpine/v3.17/main/x86_64/APKINDEX.tar.gz
fetch https://dl-cdn.alpinelinux.org/alpine/v3.17/community/x86_64/APKINDEX.tar.gz
(1/28) Installing libgcc (12.2.1_git20220924-r4)
(2/28) Installing libstdc++ (12.2.1_git20220924-r4)
(3/28) Installing binutils (2.39-r2)
(4/28) Installing libmagic (5.43-r0)
(5/28) Installing file (5.43-r0)
(6/28) Installing libgomp (12.2.1_git20220924-r4)
(7/28) Installing libatomic (12.2.1_git20220924-r4)
(8/28) Installing gmp (6.2.1-r2)
(9/28) Installing isl25 (0.25-r0)
(10/28) Installing mpfr4 (4.1.0-r0)
(11/28) Installing mpc1 (1.2.1-r1)
(12/28) Installing gcc (12.2.1_git20220924-r4)
(13/28) Installing libstdc++-dev (12.2.1_git20220924-r4)
(14/28) Installing musl-dev (1.2.3-r4)
(15/28) Installing libc-dev (0.7.2-r3)
(16/28) Installing g++ (12.2.1_git20220924-r4)
(17/28) Installing make (4.3-r1)
(18/28) Installing fortify-headers (1.1-r1)
(19/28) Installing patch (2.7.6-r8)
(20/28) Installing build-base (0.5-r3)
(21/28) Installing pkgconf (1.9.3-r0)
(22/28) Installing openssl-dev (3.0.7-r0)
(23/28) Installing linux-headers (5.19.5-r0)
(24/28) Installing libffi-dev (3.4.4-r0)
(25/28) Installing mpdecimal (2.5.1-r1)
(26/28) Installing python3 (3.10.9-r1)
(27/28) Installing python3-dev (3.10.9-r1)
(28/28) Installing .build-deps (20221214.074929)
Executing busybox-1.35.0-r29.trigger
OK: 358 MiB in 65 packages
...
建议使用官方的 python slim 镜像作为基础镜像
继续上面,所以我是建议:使用官方的 python slim 镜像作为基础镜像
镜像库是这个:https://hub.docker.com/_/python
并且使用 python:<version>-slim
作为基础镜像,能用 python:<version>-slim-bullseye
作为基础镜像更好(因为更新,相对就更安全一些).
这个镜像不包含默认标签中的常用包,只包含运行 python 所需的最小包。这个镜像是基于 Debian 的。
使用官方 python slim 的理由还包括:
- 稳定性
- 安全升级更及时
- 依赖更新更及时
- 依赖更全
- Python 版本升级更及时
- 镜像更小
️Reference:
The best Docker base image for your Python application (Sep 2022) (pythonspeed.com)
一般情况下,Python 镜像构建不需要使用"多阶段构建"
一般情况下,Python 镜像构建不需要使用"多阶段构建".
理由如下:
- Python 没有像 Golang 一样,可以把所有依赖打成一个单一的二进制包
- Python 也没有像 Java 一样,可以在 JDK 上构建,在 JRE 上运行
- Python 复杂而散落的依赖关系,在"多阶段构建"时会增加复杂度
- ...
如果有一些特殊情况,可以尝试使用"多阶段构建"压缩镜像体积:
- 构建阶段需要安装编译器
- Python 项目复杂,用到了其他语言代码(如 C/C++/Rust)
pip 小技巧
使用 pip 安装依赖时,可以添加 --no-cache-dir
减少镜像体积:
# 安装 pip 依赖
COPY requirements.txt .
RUN python -m pip install --no-cache-dir --upgrade -r requirements.txt
Python Dockerfile 最佳实践样例
最后, 就是基于以上最佳实践的完整样例, 也可以在这里找到: https://github.com/east4ming/fastapi-url-shortener/blob/main/Dockerfile.slim
FROM python:3.10-slim
LABEL maintainer="cuikaidong@foxmail.com"
EXPOSE 8000
# Keeps Python from generating .pyc files in the container
ENV PYTHONDONTWRITEBYTECODE=1
# Turns off buffering for easier container logging
ENV PYTHONUNBUFFERED=1
# Install pip requirements
COPY requirements.txt .
RUN python -m pip install --no-cache-dir --upgrade -r requirements.txt
WORKDIR /app
COPY . /app
# Creates a non-root user with an explicit UID and adds permission to access the /app folder
RUN adduser -u 5678 --disabled-password --gecos "" appuser && chown -R appuser /app
USER appuser
CMD ["uvicorn", "shortener_app.main:app", "--host", "0.0.0.0"]
总结
制作 Python Docker 容器镜像的最佳实践。最佳实践的目的一方面是为了减小镜像体积,提升 DevOps 效率,另一方面是为了提高安全性.
最佳实践如下:
- 推荐 2 个 Python 的环境变量
ENV PYTHONDONTWRITEBYTECODE 1
ENV PYTHONUNBUFFERED 1
- 使用非 root 用户运行容器进程
- 使用
.dockerignore
排除无关文件 - 不建议使用 Alpine 作为 Python 的基础镜像
- 建议使用官方的 python slim 镜像作为基础镜像
- 一般情况下, Python 镜像构建不需要使用"多阶段构建"
- pip 小技巧:
--no-cache-dir
希望对大家有所帮助.
最后也感叹一下, 在云原生时代, python 在分发这块, 特别是镜像构建这块, 确实体验、效率、镜像大小等方面差 golang 太多了。
️参考文档
- Using Alpine can make Python Docker builds 50× slower (pythonspeed.com)
- The best Docker base image for your Python application (Sep 2022) (pythonspeed.com)
- Multi-stage builds #2: Python specifics (pythonspeed.com)
- 制作容器镜像的最佳实践 - 东风微鸣技术博客 (ewhisper.cn)
三人行, 必有我师; 知识共享, 天下为公. 本文由东风微鸣技术博客 EWhisper.cn 编写.
制作 Python Docker 镜像的最佳实践的更多相关文章
- 8.云原生之Docker容器镜像构建最佳实践浅析
转载自:https://www.bilibili.com/read/cv15220861/?from=readlist 本章目录 0x02 Docker 镜像构建最佳实践浅析 1.Dockerfile ...
- Docker 使用杂记 - 最佳实践尝试 - 实战
目录 Docker 使用杂记 - 最佳实践尝试 - 实战 Docker简介 项目背景 内在原因 外在原因 基础镜像 需求 镜像维护者 工作文件夹 文件 ADD COPY 宗卷 命令 入口点 Docke ...
- 制作 leanote docker 镜像 并运行
# 1.制作基础镜像 leanote 使用 mongodb 存储数据,如果把 mongodb 单独做成一个镜像,初始化数据时比较麻烦,所以最后还是决定把 mongodb 和 leanote 放到同一个 ...
- 制作一个docker镜像:mysql-8-x64-linux
因为个人学习需要,为软件系统的虚拟容器化,以下将mysql制作为docker镜像,并记录下详细步骤. 欢迎大家学习交流和转载,同时写作不易,如果各位觉得不错,请点赞支持. 备注:以下代码和文章,欢迎复 ...
- Java 服务 Docker 容器化最佳实践
转载自:https://mp.weixin.qq.com/s/d2PFISYUy6X6ZAOGu0-Kig 1. 概述 当我们在容器中运行 Java 应用程序时,可能希望对其进行调整参数以充分利用资源 ...
- python高级编程之最佳实践,描述符与属性01
# -*- coding: utf-8 -*- # python:2.x __author__ = 'Administrator' #最佳实践 """ 为了避免前面所有的 ...
- Docker日志收集最佳实践
传统日志处理 说到日志,我们以前处理日志的方式如下: · 日志写到本机磁盘上 · 通常仅用于排查线上问题,很少用于数据分析 ·需要时登录到机器上,用grep.awk等工具分析 那么,这种方式有什么缺点 ...
- 【原创】Docker实战 Dockerfile最佳实践&&容器之间通信
官方最佳实践文档 https://docs.docker.com/develop/develop-images/dockerfile_best-practices/#from Docker实战(三十) ...
- Docker监控:最佳实践以及cAdvisor和Prometheus监控工具的对比
在DockerCon EU 2015上,Brian Christner阐述了“Docker监控”的概况,分享了这方面的最佳实践和Docker stats API的指南,并对比了三个流行的监控方案:cA ...
- 制作seata docker镜像
seata是阿里巴巴的一款开源的分布式事务框架,官方已经支持docker了,但是因为业务的需要,需要自己定制. 制作docker镜像 官方的Dockerfile.下载seata-server-1.1. ...
随机推荐
- Java 基础三、接口与内部类
1. 在Java程序语言中,接口是对类的一种描述.例如Arrays类中sort方法声明可以对对象进行排序,但前提是对象所属的类必须实现Comparable接口. public interface ...
- 影响 erp 系统实施成功的因素是什么?
影响ERP系统实施成功的因素很多,主要有以下几点:企业一把手是否大力支持.实施顾问是否专业负责.ERP系统是否强大灵活且适用三个方面!没有企业一把手的大力支持,ERP的应用基本上不可能获得成功.ERP ...
- css事件穿透
代码: pointer-events: none; 解义:你可以看的到第一个元素,但是你看不到下面的元素着,点击第一个元素会穿透触发到第二个元素的元素
- 基于Netty的TCP服务框架
19年写的一个基础的TCP服务框架,内置了一个简单IOC容器,当时的目标是一方面能作为组件供第三方集成实现TCP通讯相关功能,另一方面作为提供一种服务框架范式.所以框架核心点主要还是通过适度的封装,隐 ...
- vscode markdown WYSIWYG 所见即所得编辑和预览
一直使用Typora编写markdown,随着vscode在工作中使用的越来越多,产生了一个想法:能不能在vscode中写markdown,减少软件的成本? 可是vscode官方自带的的markdow ...
- ABC260 作战总结
ABC260 作战总结 今后开始写一些模拟赛外的其他比赛的总结(也许有题解?). 开场点到另一场\(\text{ARC}\)去了,耽误了点时间,切完前四题发现已经过了\(37\)分钟了,看来自己读题+ ...
- 微光互联 TX800-U 扫码器无法输出中文到光标的问题
问题背景 某检测场有一批扫码器,购于微光互联,型号 TX800-U,用于在不同办理窗口间扫描纸质材料上的二维码,简化录入过程.扫码器通过 USB 接入 PC 系统 (windows),自动安装驱动,接 ...
- Dubbo 03: 直连式 + 接口工程
进一步改正dubbo框架中简单的直连式的不足 需要用到3个相互独立的maven工程,项目1为maven的java工程作为接口工程,项目2,3为maven的web工程 工程1:o3-link-inter ...
- 一天十道Java面试题----第五天(spring的事务传播机制------>mybatis的优缺点)
这里是参考B站上的大佬做的面试题笔记.大家也可以去看视频讲解!!! 文章目录 41.spring的事务传播机制 42 .spring事务什么时候会失效 43 .什么的是bean的自动装配.有哪些方式? ...
- 想开发DAYU200,我教你
摘要:本文主要介绍OpenHarmony富设备DAYU200开发板的入门指导. 本文分享自华为云社区<DAYU200开发指导>,作者: 星辰27. 1 概述 DAYU200开发板属于Ope ...