Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于preprocess.py预处理结果 #10

Open
miragelmz opened this issue Nov 22, 2018 · 8 comments
Open

关于preprocess.py预处理结果 #10

miragelmz opened this issue Nov 22, 2018 · 8 comments

Comments

@miragelmz
Copy link

您好,请问当前版本的preprocess.py是针对LCSTS2.0数据集吗?
(LCSTS2.0的数据文件中有大量<>tag,但似乎没有见到去除这些tag的操作?)

想了解一下您从LCSTS2.0到lcsts.low.share.train.pt的操作,谢谢!
(是因为在预处理其他数据集时发现,处理后的结果运行时报错)

@angeluau
Copy link

您好,请问当前版本的preprocess.py是针对LCSTS2.0数据集吗?
(LCSTS2.0的数据文件中有大量<>tag,但似乎没有见到去除这些tag的操作?)

想了解一下您从LCSTS2.0到lcsts.low.share.train.pt的操作,谢谢!
(是因为在预处理其他数据集时发现,处理后的结果运行时报错)
我在预处理的过程中报错,the following arguments are required: -train_src, -train_tgt, -valid_src, -valid_tgt, -save_data,请问你这里怎么做到的

@shumingma
Copy link
Contributor

你好,当前版本针对lcsts 1.0。
处理数据时需要将数据集中的原始文本抽取出来放在train.src/valid.src文件里,将摘要抽取出来放在train.tgt/valid.tgt里,然后再用 python preprocess.py -train_src train.src -train_tgt train.tgt -valid_src valid.src -valid_tgt valid.tgt -save_data lcsts.pt 处理得到lcsts.pt文件。

@angeluau
Copy link

针对原始文本抽取预处理的文件在githun没有放出来,楼主可以提供一下吗@shumingma

@GITJolly
Copy link

GITJolly commented Nov 30, 2018

原始文本的抽取,需要有什么格式么? 下面我尝试出现了错误。希望能得到指点。。。
File "preprocess.py", line 273, in
main()
File "preprocess.py", line 249, in main
opt.src_vocab_size)
File "preprocess.py", line 130, in initVocabulary
genWordVocab = makeVocabulary(dataFile, vocabSize)
File "preprocess.py", line 110, in makeVocabulary
vocab = vocab.prune(size)
File "/media/network/数据仓库/superAE-master/data/dict.py", line 118, in prune
newDict.add(self.idxToLabel[i])
KeyError: tensor(13)

@angeluau
Copy link

angeluau commented Dec 3, 2018

楼上是在遍历的时候不支持张量。加一个tonumpy方法可以解决上述的问题

@ishurironaldinho
Copy link

针对原始文本抽取预处理的文件在githun没有放出来,楼主可以提供一下吗@shumingma

您好,请问您拿到抽取原始文本的文件了吗?

@Lanme
Copy link

Lanme commented Sep 30, 2019

楼上是在遍历的时候不支持张量。加一个tonumpy方法可以解决上述的问题

我在prune函数里面for i in idx[:size]:前面加了idx = idx.numpy()

@jufengada
Copy link

谢谢楼主!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

7 participants