Optimize elementwise_add_grad op #32051

thisjiang · 2021-04-02T10:27:34Z

Performance optimization

OPs

起因

SimpleElemwiseAddGradCUDAKernel的实现为拷贝dout的值到dx和dy中。然而，此处存在一处可优化点：即若dout与dx或dy复用了同一片地址，则无需多余拷贝。

当dx_data与dout_data相同且当dy_data与dout_data不同时：只需要拷贝dout_data到dy_data即可。
当dx_data与dout_data不同且当dy_data与dout_data相同时：只需要拷贝dout_data到dx_data即可。
当dx_data和dy_data与dout_data都不同时：调用原SimpleElemwiseAddGradCUDAKernel。
当dx_data和dy_data与dout_data都相同时：什么都不用做。

问：为什么放在elementwise_add_op.cu这儿而不是放在ElementwiseAddGradKernel::Compute处？
答：因为会报错Tensor not alloc memory

`elementwise_add_grad` op耗时	优化前	优化后
float16	147.551 us	80.672 us
float	244.958 us	159.391 us

paddle-bot-old · 2021-04-02T10:27:36Z

Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

Xreki

LGTM

Optimize elementwise_add_grad op, test=develop

da38602

Xreki approved these changes Apr 3, 2021

View reviewed changes

Xreki merged commit 1e52f32 into PaddlePaddle:develop Apr 3, 2021

thisjiang deleted the optimize-elementwise_add_grad branch April 6, 2021 06:43

thisjiang mentioned this pull request Apr 6, 2021

solve elementwise_add_grad tenosr copy bug #32095

Closed