Kube-#01.2 Docker镜像的原理

一个Docker镜像从外部来看,是一个文件系统:里面包含着各种操作系统的文件、语言运行时的文件、应用程序文件等。但是事实上,一个docker镜像是由许多组成的。

  • 每一”层“和一个git commit差不多。每一层在上一层的基础上,只能增加和覆盖文件。删除文件只能让文件看不到,但它还是存在的,不会减少镜像大小,因为这一层无法更改上一层的内容。
  • 随着层数增加,镜像大小只会增加不会减小,因为每一层不可能拥有负的大小。
  • 每一层有一个十六进制的ID,和git commit hash类似。
  • 镜像在本地和Container Registry中是按照层存储的。每一层按照他们的ID来索引。镜像的名字表示了一个配置文件,存储了一系列层的信息。最顶层就是我们看到的镜像。

使用dive调查一个镜像

有一个叫做dive的工具,可以用来查看docker镜像的层数,可以在这里找到它 -> GitHub – wagoodman/dive: A tool for exploring each layer in a docker image

让我们用这个工具来调查一下python:3.9.6-alpine这个镜像。

注:docker inspect 也可以用来查看镜像,但是没有dive好用。

dive python:3.9.6-alpine
dive的界面

屏幕下方显示了键位操作。TAB键可以在检视层和检视当层文件之间切换。在检视文件时,用Ctrl+A/R/M/U/B可以显示/隐藏文件(比如现在隐藏了“未更改”的文件,只显示每层修改的内容)。左边的Layer Details显示了当前层的大小和ID,Image Details显示了镜像名以及大小。左下角显示的是镜像中可能冗余的文件,我们现在不用管。

可以看到,这个镜像一共有五层,每一层都执行了一些命令,向这个镜像中添加了新的文件,包括安装时区数据,安装python,配置pip等。最终到我们手上的镜像就是一个配置好了运行环境,开箱即用的python。

可以再在这个地方多转转,看看每一层是怎么设计的。

分层的优点

层共享

镜像分层带来的一个优点就是 – 层可以共享。

比如我构建了两个python程序,都基于python运行。这两个镜像除了最顶端我自己写的部分以外,底下的Python运行时是一样的。也就是说,无论是在存储的时候还是在运行的时候,这个共同的部分只需要被保存和加载一次。这大大节省了本地的空间。例如,python安装完numpy, pandas和scipy之后,镜像大小逼近500M,但是之后写的基于这些依赖库的程序,在存储和运行的时候都可以共享同一个运行时。

生命周期管理以及资源的节省

在运行一个镜像的时候,Docker相当于在这个镜像上添加了一个新的层 – 这个层对你的应用程序来说是可写的,你的应用程序对于本地文件的所有操作都会体现在这个层里,而镜像中的所有层对于应用来说是只读的。在这个容器结束时,这个临时的可写层也被删除。

这也就是说,运行的镜像所占用的额外硬盘空间仅仅是最上面那一层可写层,运行相同应用的多个实例时,既不需要把下层全部复制一遍,又保证了不同实例之间的独立性。销毁实例也变得非常简单。

层是怎么来的

在构建镜像时,有一些指令不会创建层,有一些指令会创建新的层。分层并不是自己定义的,而是构建镜像过程中自然生成的。下一篇讲解构建docker镜像。

Leave A Comment