Diawang/dockercleaner #2119

wangdian · 2019-02-01T05:51:43Z

Clean logic V0.1

The cleaner will check disk usage on docker's disk every 60 seconds(configurable), if the disk usage is above 94%(configurable), it will stop container that uses largest disk space, use a white list to avoid killing system containers.
Send SIGUSR1(10) to container as termination signal, the container will exit with code 1.
The related job will fail, we can track the reason in job logs.

coveralls · 2019-02-01T06:05:03Z

Coverage decreased (-0.01%) to 52.904% when pulling 3fbc7e8 on diawang/dockercleaner into 746ccb5 on master.

coveralls · 2019-02-01T06:05:03Z

Coverage decreased (-0.01%) to 52.904% when pulling 3fbc7e8 on diawang/dockercleaner into 746ccb5 on master.

coveralls · 2019-02-01T06:05:04Z

Coverage decreased (-0.01%) to 52.904% when pulling 3fbc7e8 on diawang/dockercleaner into 746ccb5 on master.

coveralls · 2019-02-01T06:05:04Z

Coverage decreased (-0.1%) to 52.794% when pulling 1353fc9 on diawang/dockercleaner into 746ccb5 on master.

src/cleaner/cleaner_main.py

deployment/quick-start/services-configuration.yaml.template

src/cleaner/config/cleaner.py

src/cleaner/cleaner_main.py

src/cleaner/config/cleaner.py

src/cleaner/scripts/clean_docker.py

mzmssg · 2019-02-02T01:54:39Z

src/cleaner/scripts/clean_docker.py

+
+
+# Clean logic v1: kill largest container
+white_list = ["k8s_kube", "k8s_pylon", "k8s_zookeeper", "k8s_rest-server", "k8s_yarn", "k8s_hadoop", "k8s_job-exporter", "k8s_watchdog", "k8s_grafana", "k8s_node-exporter", "k8s_webportal", "k8s_prometheus", "k8s_nvidia-drivers", "k8s_etcd-container", "k8s_apiserver-container", "k8s_docker-cleaner", "kubelet"]


@fanyangCS
Seems we should add dev-box here before we complete dev-box management

Please list the restrictions that the white list should follow. It is best to raise these questions on design phase not in PR review.

mzmssg · 2019-02-02T01:58:37Z

src/cleaner/scripts/clean_docker.py

+
+
+# Clean logic v1: kill largest container
+white_list = ["k8s_kube", "k8s_pylon", "k8s_zookeeper", "k8s_rest-server", "k8s_yarn", "k8s_hadoop", "k8s_job-exporter", "k8s_watchdog", "k8s_grafana", "k8s_node-exporter", "k8s_webportal", "k8s_prometheus", "k8s_nvidia-drivers", "k8s_etcd-container", "k8s_apiserver-container", "k8s_docker-cleaner", "kubelet"]


I don't remember we have some container starting with k8s_yarn.

Whatever, I think you could simply regard k8s_ and kubelet as our service.

Sorry, fogget yarn exporter

As a conclusion in the meeting, we decided to list all our core services here and not just use k8s prefix to filter.

src/cleaner/scripts/clean_docker.py

src/rest-server/src/templates/dockerContainerScript.mustache

2. Add interval as var 3. Kill docker, send signal

Add markdown document for cleaner configuration

into diawang/dockercleaner

2. Add interval as var 3. Kill docker, send signal

Add markdown document for cleaner configuration

into diawang/dockercleaner

fanyangCS · 2019-02-13T02:48:38Z

src/rest-server/src/templates/dockerContainerScript.mustache

+function kill_handler()
+{
+  printf "%s %s\n" \
+    "[INFO]" "Docker container killed due to disk pressure. If your job needs large disk space, please use HDFS or NFS to store your data."


Container killed probably due to disk or memory pressure.

After experiment, I changed the signal to SIGUSR1(10) and the container can handle the signal as expected. So if we trapped signal 10, means the container is killed due to disk pressure.

wangdian added 2 commits January 31, 2019 18:25

Cleaner logic

12bf7c4

Fix bug

3fbc7e8

wangdian requested review from xudifsd and fanyangCS February 1, 2019 05:51

fanyangCS requested review from mzmssg and sterowang February 1, 2019 06:00

mzmssg reviewed Feb 1, 2019

View reviewed changes

src/cleaner/cleaner_main.py Show resolved Hide resolved

fanyangCS reviewed Feb 1, 2019

View reviewed changes

deployment/quick-start/services-configuration.yaml.template Outdated Show resolved Hide resolved

fanyangCS reviewed Feb 1, 2019

View reviewed changes

src/cleaner/config/cleaner.py Show resolved Hide resolved