关于preprocess.py预处理结果 #10

miragelmz · 2018-11-22T13:02:42Z

您好，请问当前版本的preprocess.py是针对LCSTS2.0数据集吗？
（LCSTS2.0的数据文件中有大量<>tag，但似乎没有见到去除这些tag的操作？）

想了解一下您从LCSTS2.0到lcsts.low.share.train.pt的操作，谢谢！
（是因为在预处理其他数据集时发现，处理后的结果运行时报错）

angeluau · 2018-11-25T11:33:16Z

您好，请问当前版本的preprocess.py是针对LCSTS2.0数据集吗？
（LCSTS2.0的数据文件中有大量<>tag，但似乎没有见到去除这些tag的操作？）

想了解一下您从LCSTS2.0到lcsts.low.share.train.pt的操作，谢谢！
（是因为在预处理其他数据集时发现，处理后的结果运行时报错）
我在预处理的过程中报错，the following arguments are required: -train_src, -train_tgt, -valid_src, -valid_tgt, -save_data，请问你这里怎么做到的

shumingma · 2018-11-25T12:03:03Z

你好，当前版本针对lcsts 1.0。
处理数据时需要将数据集中的原始文本抽取出来放在train.src/valid.src文件里，将摘要抽取出来放在train.tgt/valid.tgt里，然后再用 python preprocess.py -train_src train.src -train_tgt train.tgt -valid_src valid.src -valid_tgt valid.tgt -save_data lcsts.pt 处理得到lcsts.pt文件。

angeluau · 2018-11-25T12:35:45Z

针对原始文本抽取预处理的文件在githun没有放出来，楼主可以提供一下吗@shumingma

GITJolly · 2018-11-30T02:22:45Z

原始文本的抽取，需要有什么格式么？下面我尝试出现了错误。希望能得到指点。。。
File "preprocess.py", line 273, in
main()
File "preprocess.py", line 249, in main
opt.src_vocab_size)
File "preprocess.py", line 130, in initVocabulary
genWordVocab = makeVocabulary(dataFile, vocabSize)
File "preprocess.py", line 110, in makeVocabulary
vocab = vocab.prune(size)
File "/media/network/数据仓库/superAE-master/data/dict.py", line 118, in prune
newDict.add(self.idxToLabel[i])
KeyError: tensor(13)

angeluau · 2018-12-03T07:05:33Z

楼上是在遍历的时候不支持张量。加一个tonumpy方法可以解决上述的问题

ishurironaldinho · 2019-03-04T08:44:50Z

针对原始文本抽取预处理的文件在githun没有放出来，楼主可以提供一下吗@shumingma

您好，请问您拿到抽取原始文本的文件了吗？

Lanme · 2019-09-30T06:58:30Z

楼上是在遍历的时候不支持张量。加一个tonumpy方法可以解决上述的问题

我在prune函数里面for i in idx[:size]:前面加了idx = idx.numpy()

jufengada · 2019-10-04T13:26:13Z

谢谢楼主！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于preprocess.py预处理结果 #10

关于preprocess.py预处理结果 #10

miragelmz commented Nov 22, 2018

angeluau commented Nov 25, 2018

shumingma commented Nov 25, 2018

angeluau commented Nov 25, 2018

GITJolly commented Nov 30, 2018 •

edited

Loading

angeluau commented Dec 3, 2018

ishurironaldinho commented Mar 4, 2019

Lanme commented Sep 30, 2019

jufengada commented Oct 4, 2019

关于preprocess.py预处理结果 #10

关于preprocess.py预处理结果 #10

Comments

miragelmz commented Nov 22, 2018

angeluau commented Nov 25, 2018

shumingma commented Nov 25, 2018

angeluau commented Nov 25, 2018

GITJolly commented Nov 30, 2018 • edited Loading

angeluau commented Dec 3, 2018

ishurironaldinho commented Mar 4, 2019

Lanme commented Sep 30, 2019

jufengada commented Oct 4, 2019

GITJolly commented Nov 30, 2018 •

edited

Loading