piskvorky · tmylk · Nov 13, 2016 · Oct 31, 2016 · Nov 1, 2016 · Nov 1, 2016
diff --git a/gensim/models/doc2vec.py b/gensim/models/doc2vec.py
@@ -778,15 +778,18 @@ def __str__(self):
             segments.append('t%d' % self.workers)
         return '%s(%s)' % (self.__class__.__name__, ','.join(segments))
 
-    def discard_model_parameters(self, remove_doctags_vectors=False):
+    def delete_temporary_training_data(self, keep_doctags_vectors=True, keep_inference=True):
         """
         Discard parameters that are used in training and score. Use if you're sure you're done training a model.
-        Use `remove_doctags_vectors` if you don't want to save doctags vectors.
-        Useful in case when you only need to use infer_vector,
-        but don't want to use docvecs's most_similar, similarity etc. methods.
+        Use `remove_doctags_vectors` if you don't want to save doctags vectors,
+        in this case you can't to use docvecs's most_similar, similarity etc. methods.
+        Use `no_inference` if you don't want to store parameters that is used for infer_vector method (you will not be able to use infer_vector)
         """
-        self._minimize_model(self.hs, self.negative > 0, True)
-        if self.docvecs and hasattr(self.docvecs, 'doctag_syn0') and remove_doctags_vectors:
+        if keep_inference:
+            self._minimize_model(self.hs, self.negative > 0, True)
+        else:
+            self._minimize_model(False, False, False)
+        if self.docvecs and hasattr(self.docvecs, 'doctag_syn0') and not keep_doctags_vectors:
             del self.docvecs.doctag_syn0
         if self.docvecs and hasattr(self.docvecs, 'doctag_syn0_lockf'):
             del self.docvecs.doctag_syn0_lockf

diff --git a/gensim/models/word2vec.py b/gensim/models/word2vec.py
@@ -1761,7 +1761,7 @@ def _minimize_model(self, save_syn1 = False, save_syn1neg = False, save_syn0_loc
             del self.syn0_lockf
         self.model_trimmed_post_training = True
 
-    def discard_model_parameters(self, replace=False):
+    def delete_temporary_training_data(self, replace=False):
         """
         Discard parameters that are used in training and score. Use if you're sure you're done training a model.
         If `replace` is set, forget the original vectors and only keep the normalized

diff --git a/gensim/test/test_doc2vec.py b/gensim/test/test_doc2vec.py
@@ -280,23 +280,29 @@ def models_equal(self, model, model2):
         self.assertEqual(len(model.docvecs.offset2doctag), len(model2.docvecs.offset2doctag))
         self.assertTrue(np.allclose(model.docvecs.doctag_syn0, model2.docvecs.doctag_syn0))
 
-    def test_discard_model_parameters(self):
-        """Test doc2vec model after discard_model_parameters"""
+    def test_delete_temporary_training_data(self):
+        """Test doc2vec model after delete_temporary_training_data"""
         for i in [0, 1]:
             for j in [0, 1]:
-                model = doc2vec.Doc2Vec(sentences, size=5, min_count=1, hs=i, negative=j)
-                model.discard_model_parameters(remove_doctags_vectors=True)
+                if i == 0 and j == 0:
+                    continue
+                model = doc2vec.Doc2Vec(sentences, size=5, min_count=1, window=4, hs=i, negative=j)
+                model.delete_temporary_training_data(keep_doctags_vectors=False, keep_inference=False)
                 self.assertTrue(len(model['human']), 10)
                 self.assertTrue(model.vocab['graph'].count, 5)
-                if (i == 1):
-                    self.assertTrue(hasattr(model, 'syn1'))
-                else:
-                    self.assertTrue(not hasattr(model, 'syn1'))
-                if (j == 1):
-                    self.assertTrue(hasattr(model, 'syn1neg'))
-                else:
-                    self.assertTrue(not hasattr(model, 'syn1neg'))
-                self.assertTrue(hasattr(model, 'syn0_lockf'))
+                self.assertTrue(not hasattr(model, 'syn1'))
+                self.assertTrue(not hasattr(model, 'syn1neg'))
+                self.assertTrue(not hasattr(model, 'syn0_lockf'))
+                self.assertTrue(model.docvecs and not hasattr(model.docvecs, 'doctag_syn0'))
+                self.assertTrue(model.docvecs and not hasattr(model.docvecs, 'doctag_syn0_lockf'))
+        model = doc2vec.Doc2Vec(list_corpus, dm=1, dm_mean=1, size=24, window=4, hs=1, negative=0, alpha=0.05, min_count=2, iter=20)
+        model.delete_temporary_training_data(keep_doctags_vectors=True, keep_inference=True)
+        self.assertTrue(model.docvecs and hasattr(model.docvecs, 'doctag_syn0'))
+        self.assertTrue(hasattr(model, 'syn1'))
+        self.model_sanity(model)
+        model = doc2vec.Doc2Vec(list_corpus, dm=1, dm_mean=1, size=24, window=4, hs=0, negative=1, alpha=0.05, min_count=2, iter=20)
+        model.delete_temporary_training_data(keep_doctags_vectors=True, keep_inference=True)
+        self.assertTrue(hasattr(model, 'syn1neg'))
 
     @log_capture()
     def testBuildVocabWarning(self, l):

diff --git a/gensim/test/test_word2vec.py b/gensim/test/test_word2vec.py
@@ -482,22 +482,24 @@ def models_equal(self, model, model2):
         most_common_word = max(model.vocab.items(), key=lambda item: item[1].count)[0]
         self.assertTrue(numpy.allclose(model[most_common_word], model2[most_common_word]))
 
-    def testDiscardModelParameters(self):
-        """Test word2vec model after discard_model_parameters"""
+    def testDeleteTemporaryTrainingData(self):
+        """Test word2vec model after delete_temporary_training_data"""
         for i in [0, 1]:
             for j in [0, 1]:
                 model = word2vec.Word2Vec(sentences, size=10, min_count=0, seed=42, hs=i, negative=j)
-                model.discard_model_parameters(replace=True)
+                model.delete_temporary_training_data(replace=True)
                 self.assertTrue(len(model['human']), 10)
                 self.assertTrue(len(model.vocab), 12)
                 self.assertTrue(model.vocab['graph'].count, 3)
                 self.assertTrue(not hasattr(model, 'syn1'))
                 self.assertTrue(not hasattr(model, 'syn1neg'))
                 self.assertTrue(not hasattr(model, 'syn0_lockf'))
+
+    def testNormalizeAfterTrainingData(self):
         model = word2vec.Word2Vec(sentences, min_count=1)
         model.save_word2vec_format(testfile(), binary=True)
         norm_only_model = word2vec.Word2Vec.load_word2vec_format(testfile(), binary=True)
-        norm_only_model.discard_model_parameters(replace=True)
+        norm_only_model.delete_temporary_training_data(replace=True)
         self.assertFalse(numpy.allclose(model['human'], norm_only_model['human']))
 
     @log_capture()