Reuse OneDNN handler for SGD and SUM for SelectedRows input tensors. #35510

arogowie-intel · 2021-09-06T12:15:41Z

PR types

Performance optimization

PR changes

OPs

Describe

This PR optimize current implementations for SGD and SUM operators for BF16 data type (mainly) when SelectedRows (sparse) tensors were used by reusing OneDNN handler.

The performance results on word2vec model are as follows on CPX 6348 machine with single thread:

type	commit	engine	words/sec
bf16	`c56d697`	oneDNN	18142.32
bf16	This PR	oneDNN	20814.31
fp32	`c56d697`	CPU	27680.99

This gives ~15% speedup.

From profiling:

type	commit	sgd total[ms]	sgd %	sum total[ms]	sum %
fp32	`c56d697`	117.77	2.5	395.31	8
bf16	`c56d697`	954.94	8.6	5151.35	47
bf16	wo cache	339.28	4.6	2159.22	29

This makes it possible to call it multiple times without recreating the oneDNN primitives every time.

…y_op

* For dense param and sparse grad.

…y_op

paddle-bot-old · 2021-09-06T12:15:44Z

Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

* Stop use PP cache mechanims to store mem and primitive obj. * Handler obj store and reuse needed desc & prim

…y_op

jczaja

LGTM

jczaja · 2021-09-10T08:15:06Z

@wzzju Please tak a look at changes in this PR

lidanqing-intel · 2021-09-13T14:38:54Z

@wzzju Hi, please take a look at this PR, use oneDNN sum and SGD

jczaja · 2021-09-14T09:30:07Z

@tsocha Please review this PR

chenwhql

LGTM for PADDLE_ENFORCE

jczaja · 2021-09-20T07:32:08Z

@chenwhql could you please approve PR-CI-APPROVAL ?

…addlePaddle#35510) * Create stateful OneDNNAXPYHandler object. This makes it possible to call it multiple times without recreating the oneDNN primitives every time. * Prepare SGDOpKernel to reuse its implementation from OneDNN kernel. * OneDNN SGD kernel. * Update call to use new OneDNNAXPYHandler object api. * Setup seed in proper place. * Enable OneDNN kernel only for single case. * For dense param and sparse grad. * Small refactor. * Enable oneDNN by op attr or by cmd line flag. * Use int64_t type for number of elements. * Support dense param and grad from OneDNN kernel. * Enable SGD OneDNN kernel when use MP BF16 optimizer. * Force non-copyable/movable OneDNNAXPYHandler. * Reuse OneDNNAXPYHandler for spare tensors in SUM op. * Fix SFINAE rules. * Remove recording event inside AXPY. * Get rid of internal primitive caching. * Stop use PP cache mechanims to store mem and primitive obj. * Handler obj store and reuse needed desc & prim * Do not derive from MKLDNNHandlerT

arogowie-intel added 15 commits August 26, 2021 16:34

Create stateful OneDNNAXPYHandler object.

4a8c477

This makes it possible to call it multiple times without recreating the oneDNN primitives every time.

Prepare SGDOpKernel to reuse its implementation from OneDNN kernel.

892fa78

OneDNN SGD kernel.

c5a0328

Update call to use new OneDNNAXPYHandler object api.

3d1e735

Merge remote-tracking branch 'upstream/develop' into aosewski/sgd_axp…

e4ab856

…y_op

Setup seed in proper place.

c8b90e9

Enable OneDNN kernel only for single case.

f6ef077

* For dense param and sparse grad.

Small refactor.

5c375df

Enable oneDNN by op attr or by cmd line flag.

a0e078e

Use int64_t type for number of elements.

4b37ca7

Support dense param and grad from OneDNN kernel.

9f858d5

Enable SGD OneDNN kernel when use MP BF16 optimizer.

0e2460c

Merge remote-tracking branch 'upstream/develop' into aosewski/sgd_axp…

b533fd7

…y_op

Force non-copyable/movable OneDNNAXPYHandler.

0479cb6

Reuse OneDNNAXPYHandler for spare tensors in SUM op.

29de778

arogowie-intel added Intel BF16 labels Sep 6, 2021

arogowie-intel self-assigned this Sep 6, 2021

arogowie-intel added 3 commits September 7, 2021 11:36

Fix SFINAE rules.

4195220

Remove recording event inside AXPY.

b4ecbce

Get rid of internal primitive caching.

70a45aa

* Stop use PP cache mechanims to store mem and primitive obj. * Handler obj store and reuse needed desc & prim

arogowie-intel marked this pull request as ready for review September 9, 2021 06:36

arogowie-intel requested review from lidanqing-intel and jczaja September 9, 2021 06:36

arogowie-intel added 2 commits September 9, 2021 15:59

Do not derive from MKLDNNHandlerT

67bfadf

Merge remote-tracking branch 'upstream/develop' into aosewski/sgd_axp…

9ea3291

…y_op

jczaja approved these changes Sep 10, 2021

View reviewed changes

jczaja requested a review from wzzju September 10, 2021 08:15

arogowie-intel requested review from jakpiase and arlesniak September 13, 2021 08:49

lidanqing-intel approved these changes Sep 18, 2021

View reviewed changes

chenwhql approved these changes Sep 18, 2021

View reviewed changes

tsocha approved these changes Sep 20, 2021

View reviewed changes

jczaja merged commit 799f386 into PaddlePaddle:develop Sep 20, 2021

arogowie-intel deleted the aosewski/sgd_axpy_op branch September 21, 2021 07:31

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Reuse OneDNN handler for SGD and SUM for SelectedRows input tensors. #35510

Reuse OneDNN handler for SGD and SUM for SelectedRows input tensors. #35510

arogowie-intel commented Sep 6, 2021 •

edited

Loading

paddle-bot-old bot commented Sep 6, 2021

jczaja left a comment

jczaja commented Sep 10, 2021

lidanqing-intel commented Sep 13, 2021

jczaja commented Sep 14, 2021

chenwhql left a comment

jczaja commented Sep 20, 2021

Reuse OneDNN handler for SGD and SUM for SelectedRows input tensors. #35510

Reuse OneDNN handler for SGD and SUM for SelectedRows input tensors. #35510

Conversation

arogowie-intel commented Sep 6, 2021 • edited Loading

PR types

PR changes

Describe

paddle-bot-old bot commented Sep 6, 2021

jczaja left a comment

Choose a reason for hiding this comment

jczaja commented Sep 10, 2021

lidanqing-intel commented Sep 13, 2021

jczaja commented Sep 14, 2021

chenwhql left a comment

Choose a reason for hiding this comment

jczaja commented Sep 20, 2021

arogowie-intel commented Sep 6, 2021 •

edited

Loading