Change RKE upgrade logic for zero downtime #1800

mrajashree · 2019-11-25T23:04:01Z

#1772
Change worker plane components upgrade strategy for zero downtime upgrades

Accept maxUnavailable from user, default to 10%, round down
Calculate powered down/unreachable hosts first (already done by TunnelHosts). If number of unreachable hosts = maxUnavailable, stop upgrade
Adjust maxUnavailable according to number of unreachable nodes. If maxUnavailable is 10 and 3 nodes are unreachable, maxUnavailable for actual upgrade will be 7
Upgrade worker components on nodes with etcd/controlplane roles first and one at a time
Upgrade nodes in sliding window of size maxUnavailable. So if maxUnavailable=10, 10 nodes can start upgrading in parallel, as soon as x out of 10 are done, start upgrading the next x nodes
Cordon a node before upgrade, give user option to drain it too. Uncordon node after upgrade.
Node is considered upgraded when it can be listed using kube client and its status is Ready
Keep saving names of nodes that get an error during upgrade.
If maxUnavailable nodes get error during upgrade, stop the upgrade process

For clusters with a large number of nodes, upgrading a percentage of them based on maxUnavailable will lead to multiple goroutines and errors due to that. This issue has details about it and why RKE switched to worker pool.
So maxUnavailable will be respected as long as it's not too big and capped at 50 which is the current worker threads RKE uses

#1734
Upgrade controlplane components one by one for zero downtime upgrades

Types PR for drain input: rancher/types#1069

riaan53 · 2019-12-05T07:36:19Z

Does this include the ability to drain nodes before an upgrade to do a graceful rolling cluster upgrade?

cmd/up.go

prachidamle · 2020-02-04T21:59:55Z

services/workerplane.go

+	}
+}
+
+func startWorkerPlane(ctx context.Context, kubeClient *kubernetes.Clientset, allHosts []*hosts.Host, localConnDialerFactory hosts.DialerFactory, prsMap map[string]v3.PrivateRegistry, workerNodePlanMap map[string]v3.RKEConfigNodePlan, certMap map[string]pki.CertificatePKI, updateWorkersOnly bool, alpineImage string,


nit: Maybe the method name could be "startWorkerPlaneUpgrade" to make it clear that this is a part of the upgrade process?

services/controlplane.go

services/workerplane.go

cluster/validation.go

superseb · 2020-02-05T11:23:46Z

The outcome of upgrading workers with one node that never gets to Ready state:

DEBU[0097] [worker] Now checking status of node 18.202.232.104                                                                            
DEBU[0097] [worker] Found node by name 18.202.232.104                                                                                     
DEBU[0102] [worker] Now checking status of node 18.202.232.104                                                                            
DEBU[0102] [worker] Found node by name 18.202.232.104                                                                                     
ERRO[0107] Failed to upgrade hosts: 18.202.232.104,18.202.232.104 with error [host 18.202.232.104 not ready] 
...
INFO[0130] Finished building Kubernetes cluster successfully

log contains node name twice
End of the run doesnt log that there was an error with a node

cluster/defaults.go

superseb

LGTM

services/workerplane.go

alena1108 reviewed Dec 9, 2019

View reviewed changes

cmd/up.go Outdated Show resolved Hide resolved

mrajashree force-pushed the workers_upgrade branch 7 times, most recently from d17cb97 to 18849c3 Compare January 17, 2020 23:21

superseb self-requested a review January 17, 2020 23:22

mrajashree force-pushed the workers_upgrade branch from 18849c3 to 8993b8b Compare January 18, 2020 00:28

kinarashah self-requested a review January 19, 2020 01:42

mrajashree force-pushed the workers_upgrade branch 2 times, most recently from 3bba464 to 956c67d Compare January 20, 2020 06:45

mrajashree marked this pull request as ready for review January 20, 2020 06:46

mrajashree force-pushed the workers_upgrade branch 2 times, most recently from 2a47873 to 8a69634 Compare January 20, 2020 06:55

mrajashree changed the title ~~Upgrade workers in user configurable batches~~ Change RKE upgrade logic for zero downtime Jan 20, 2020

mrajashree force-pushed the workers_upgrade branch 2 times, most recently from 0e842b9 to eca47c6 Compare January 20, 2020 18:15

mrajashree requested a review from a team January 20, 2020 19:20

mrajashree force-pushed the workers_upgrade branch 9 times, most recently from df73c49 to 6f4ec3d Compare January 22, 2020 00:16

prachidamle reviewed Feb 4, 2020

View reviewed changes

prachidamle requested changes Feb 5, 2020

View reviewed changes

services/controlplane.go Show resolved Hide resolved

services/workerplane.go Outdated Show resolved Hide resolved

services/workerplane.go Show resolved Hide resolved

mrajashree dismissed kinarashah’s stale review via 67a788d February 5, 2020 01:03

mrajashree requested review from prachidamle and superseb February 5, 2020 01:13

superseb reviewed Feb 5, 2020

View reviewed changes

cluster/validation.go Outdated Show resolved Hide resolved

superseb reviewed Feb 5, 2020

View reviewed changes

cluster/defaults.go Outdated Show resolved Hide resolved

mrajashree requested a review from superseb February 5, 2020 16:19

mrajashree force-pushed the workers_upgrade branch 3 times, most recently from 8b20529 to 2d7d4ad Compare February 5, 2020 20:11

superseb previously approved these changes Feb 5, 2020

View reviewed changes

prachidamle reviewed Feb 5, 2020

View reviewed changes

services/workerplane.go Outdated Show resolved Hide resolved

superseb mentioned this pull request Feb 5, 2020

use drain node instead of delete node in rke up #1433

Closed

prachidamle reviewed Feb 5, 2020

View reviewed changes

services/workerplane.go Show resolved Hide resolved

prachidamle reviewed Feb 5, 2020

View reviewed changes

services/workerplane.go Show resolved Hide resolved

mrajashree dismissed superseb’s stale review via bff8d54 February 5, 2020 23:26

mrajashree force-pushed the workers_upgrade branch from 2d7d4ad to bff8d54 Compare February 5, 2020 23:26

mrajashree requested a review from prachidamle February 5, 2020 23:26

prachidamle reviewed Feb 6, 2020

View reviewed changes

services/workerplane.go Outdated Show resolved Hide resolved

Change RKE upgrade logic for zero downtime

11678a3

mrajashree force-pushed the workers_upgrade branch from bff8d54 to 11678a3 Compare February 6, 2020 00:20

prachidamle approved these changes Feb 6, 2020

View reviewed changes

mrajashree requested review from superseb and kinarashah February 6, 2020 18:28

kinarashah approved these changes Feb 6, 2020

View reviewed changes

superseb approved these changes Feb 6, 2020

View reviewed changes

mrajashree merged commit 92714e5 into rancher:master Feb 6, 2020

mrajashree mentioned this pull request Feb 19, 2020

Rolling upgrade for k8s system components #1116

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Change RKE upgrade logic for zero downtime #1800

Change RKE upgrade logic for zero downtime #1800

mrajashree commented Nov 25, 2019 •

edited

Loading

riaan53 commented Dec 5, 2019

prachidamle Feb 4, 2020

superseb commented Feb 5, 2020

superseb left a comment

Change RKE upgrade logic for zero downtime #1800

Change RKE upgrade logic for zero downtime #1800

Conversation

mrajashree commented Nov 25, 2019 • edited Loading

riaan53 commented Dec 5, 2019

prachidamle Feb 4, 2020

Choose a reason for hiding this comment

superseb commented Feb 5, 2020

superseb left a comment

Choose a reason for hiding this comment

mrajashree commented Nov 25, 2019 •

edited

Loading