From db9753241eeda89ab7a926c3892bd1f8487edb3f Mon Sep 17 00:00:00 2001
From: Mu Li <muli@cs.cmu.edu>
Date: Wed, 23 Sep 2015 12:19:23 -0400
Subject: [PATCH 1/4] update cifar perf on cudnn v3

---
 example/cifar10/README.md | 1 +
 1 file changed, 1 insertion(+)

diff --git a/example/cifar10/README.md b/example/cifar10/README.md
index 196df6617f52..6ed39ca34054 100644
--- a/example/cifar10/README.md
+++ b/example/cifar10/README.md
@@ -12,6 +12,7 @@ run `cifar.py`:
 | --- | --- | --- | --- |
 | cxxnet | 362 img/sec | 675 img/sec | 1282 img/sec |
 | mxnet | 420 img/sec | 804 img/sec | 1436 img/sec |
+| mxnet + cudnn v3 | 835 img/sec | 1525 img/sec | 2270 img/sec |
 
 sample output
 

From b2dff701f4d73b24dd04c0779cacf3cbfa02677a Mon Sep 17 00:00:00 2001
From: Mu Li <muli@cs.cmu.edu>
Date: Wed, 23 Sep 2015 12:20:47 -0400
Subject: [PATCH 2/4] add include/lib path in makefile for cudnn

---
 Makefile | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/Makefile b/Makefile
index d1e082d1f202..6bf1bff184b4 100644
--- a/Makefile
+++ b/Makefile
@@ -55,8 +55,8 @@ ifeq ($(USE_OPENMP), 1)
 endif
 
 ifeq ($(USE_CUDNN), 1)
-	CFLAGS += -DMSHADOW_USE_CUDNN=1
-	LDFLAGS += -lcudnn
+	CFLAGS += -DMSHADOW_USE_CUDNN=1 -I$(USE_CUDNN_PATH)
+	LDFLAGS += -L$(USE_CUDNN_PATH) -lcudnn
 endif
 
 ifeq ($(USE_THREADED_ENGINE), 1)

From 468397116e8fc69633c087fbc306f9d1d9a11766 Mon Sep 17 00:00:00 2001
From: muli <muli@cs.cmu.edu>
Date: Wed, 23 Sep 2015 18:42:35 +0000
Subject: [PATCH 3/4] comment out USE_CUDNN_PATH

---
 Makefile       | 4 ++--
 make/config.mk | 3 ++-
 2 files changed, 4 insertions(+), 3 deletions(-)

diff --git a/Makefile b/Makefile
index 6bf1bff184b4..d1e082d1f202 100644
--- a/Makefile
+++ b/Makefile
@@ -55,8 +55,8 @@ ifeq ($(USE_OPENMP), 1)
 endif
 
 ifeq ($(USE_CUDNN), 1)
-	CFLAGS += -DMSHADOW_USE_CUDNN=1 -I$(USE_CUDNN_PATH)
-	LDFLAGS += -L$(USE_CUDNN_PATH) -lcudnn
+	CFLAGS += -DMSHADOW_USE_CUDNN=1
+	LDFLAGS += -lcudnn
 endif
 
 ifeq ($(USE_THREADED_ENGINE), 1)
diff --git a/make/config.mk b/make/config.mk
index 7108875df432..d2884833c01f 100644
--- a/make/config.mk
+++ b/make/config.mk
@@ -43,7 +43,8 @@ USE_CUDNN = 0
 
 # add the path to CUDNN libary to link and compile flag
 # if you do not need that, or do not have that, leave it as NONE
-USE_CUDNN_PATH = NONE
+# (NOTE: not enable at this moment)
+# USE_CUDNN_PATH = NONE
 
 # whether use opencv during compilation
 # you can disable it, however, you will not able to use

From ea18aeb2ab0c06b6319c8850432974a2d88bb165 Mon Sep 17 00:00:00 2001
From: muli <muli@cs.cmu.edu>
Date: Wed, 23 Sep 2015 18:53:02 +0000
Subject: [PATCH 4/4] [example] update mnist

---
 example/mnist/README.md | 7 ++++---
 example/mnist/lenet.py  | 3 ++-
 2 files changed, 6 insertions(+), 4 deletions(-)

diff --git a/example/mnist/README.md b/example/mnist/README.md
index 6fc1bd4eefd1..e35c6a2d014a 100644
--- a/example/mnist/README.md
+++ b/example/mnist/README.md
@@ -17,9 +17,10 @@ Cortes, and Christopher J.C. Burges.
 
 Using 100 minibatch size and 20 data passes (not fine tuned.)
 
-Machine: Dual Xeon E5-2680 2.8GHz, Dual GTX 980, Intel MKL, and CUDA 7.0
+Machine: Dual Xeon E5-2680 2.8GHz, Dual GTX 980, Ubuntu 14.0, GCC 4.8. Intel MKL, and CUDA 7.0
 
 | | val accuracy | 2 x E5-2680 | 1 x GTX 980 | 2 x GTX 980 |
 | --- | ---: | ---: | ---: | ---: |
-| `mlp.py` | 97.8% | 40K img/sec | 103K img/sec | 60K img/sec |
-| `lenet.py` | 99% | 368 img/sec | 22.5K img/sec  | 33K img/sec |
+| `mlp.py` MKL + CUDA 7 | 97.8% | 40K img/sec | 103K img/sec | 60K img/sec |
+| `lenet.py` MKL + CUDA 7 | 99% | 368 img/sec | 22.5K img/sec  | 33K img/sec |
+| `lenet.py` MKL + CUDA 7 + CUDNN v3 | - | - | 19K img/sec | 29 K img/sec |
diff --git a/example/mnist/lenet.py b/example/mnist/lenet.py
index d9b30b316413..18066adb6f2f 100644
--- a/example/mnist/lenet.py
+++ b/example/mnist/lenet.py
@@ -41,4 +41,5 @@
     ctx = dev, symbol = lenet, num_round = 20,
     learning_rate = 0.01, momentum = 0.9, wd = 0.00001)
 
-model.fit(X=train, eval_data=val)
+model.fit(X=train, eval_data=val,
+          epoch_end_callback=mx.callback.Speedometer(100))