PaddlePaddle · lcy-seso · Jul 19, 2017 · Jul 19, 2017
diff --git a/sequence_tagging_for_ner/data/download.sh b/sequence_tagging_for_ner/data/download.sh
@@ -1,4 +1,8 @@
-wget http://cs224d.stanford.edu/assignment2/assignment2.zip
+if [ -f assignment2.zip ]; then
+    echo "data exist"
+else
+    wget http://cs224d.stanford.edu/assignment2/assignment2.zip
+fi
 
 if [ $? -eq 0  ];then
     unzip assignment2.zip

diff --git a/sequence_tagging_for_ner/reader.py b/sequence_tagging_for_ner/reader.py
@@ -21,7 +21,7 @@ def canonicalize_word(word, wordset=None, digits=True):
         if (wordset != None) and (word in wordset): return word
         word = canonicalize_digits(word)  # try to canonicalize numbers
     if (wordset == None) or (word in wordset): return word
-    else: return "<UNK>"  # unknown token
+    else: return "UUUNKKK"  # unknown token
 
 
 def data_reader(data_file, word_dict, label_dict):
@@ -35,7 +35,7 @@ def data_reader(data_file, word_dict, label_dict):
     """
 
     def reader():
-        UNK_IDX = word_dict["<UNK>"]
+        UNK_IDX = word_dict["UUUNKKK"]
 
         sentence = []
         labels = []

diff --git a/sequence_tagging_for_ner/train.py b/sequence_tagging_for_ner/train.py
@@ -106,4 +106,5 @@ def event_handler(event):
         test_data_file="data/test",
         vocab_file="data/vocab.txt",
         target_file="data/target.txt",
-        emb_file="data/wordVectors.txt")
+        emb_file="data/wordVectors.txt",
+        model_save_dir="model/")