Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于提供的处理好的finetune flow level数据集的一些问题 #87

Open
liu-zongxi opened this issue Oct 10, 2024 · 6 comments
Open
Labels
question Further information is requested

Comments

@liu-zongxi
Copy link

我注意到您在文章中表示,MAC header和IP header导致一些biased interference,所以在进行fine tune时需要删去,您在data_process/main.py提供的代码也表明对于data需要取[76:]。但我注意到您提供的finetune flow level数据集并没有删去这些包头信息。
如我随便打印一行
dcfe fe18 1834 34d5 d539 3938 38bc bc01 01a0 a0bf bfa8 a808 0800 0045 4500 0005 05dc dcba ba56 5600 0000 0032 3206 0683 836e 6e6f 6f0d 0d95 95f3 f396 96f2 f2a9
这其中开头是明显的MAC header和IP header,0800代表IPv4协议的以太网类型。如果我删去这些头,网络在分类任务上的性能并不好。请问您能解释一下您是如何做的吗

@zhouyuanqi1
Copy link

你好,请问为什么每个字节要重复一次呢?比如您举得例子:
dcfe fe18 1834 34d5 d539 3938 38bc bc01 01a0 a0bf bfa8 a808 0800 0045 4500 0005 05dc dcba ba56 5600 0000 0032 3206 0683 836e 6e6f 6f0d 0d95 95f3 f396 96f2 f2a9
为什么不是dcfe 1834 d539.......呢?

@linwhitehat linwhitehat added the question Further information is requested label Nov 1, 2024
@linwhitehat
Copy link
Owner

我注意到您在文章中表示,MAC header和IP header导致一些biased interference,所以在进行fine tune时需要删去,您在data_process/main.py提供的代码也表明对于data需要取[76:]。但我注意到您提供的finetune flow level数据集并没有删去这些包头信息。 如我随便打印一行 dcfe fe18 1834 34d5 d539 3938 38bc bc01 01a0 a0bf bfa8 a808 0800 0045 4500 0005 05dc dcba ba56 5600 0000 0032 3206 0683 836e 6e6f 6f0d 0d95 95f3 f396 96f2 f2a9 这其中开头是明显的MAC header和IP header,0800代表IPv4协议的以太网类型。如果我删去这些头,网络在分类任务上的性能并不好。请问您能解释一下您是如何做的吗

你好,感谢你对我们工作的关注。可以详细列举一下在哪些任务中的流处理吗?

@linwhitehat
Copy link
Owner

你好,请问为什么每个字节要重复一次呢?比如您举得例子: dcfe fe18 1834 34d5 d539 3938 38bc bc01 01a0 a0bf bfa8 a808 0800 0045 4500 0005 05dc dcba ba56 5600 0000 0032 3206 0683 836e 6e6f 6f0d 0d95 95f3 f396 96f2 f2a9 为什么不是dcfe 1834 d539.......呢?

你好,感谢对我们工作的关注,这是使用字节对编码的结果,并不是唯一编码方法。

@zhouyuanqi1
Copy link

比如您举得例子: dcfe fe18 1834 34d5 d539 3938 38bc bc01 01a0 a0bf bfa8 a808 0800 0045 4500 0005 05dc dcba ba56 5600 0000 0032 3206 0683 836e 6e6f 6f0d 0d95 95f3 f396 96f2 f2a9 为什么不是dcfe 1834 d539.......呢?

你好,感谢对我们工作的关注,这是使用字节对编码的结果,并不是唯一编码方法。

谢谢,我观察到你们的预训练样本也是这种字节对,我用你们的预训练模型去微调的话,不适用重复字节对编码的数据,而使用其他编码的方法,如不重复的,也可以吗?

@linwhitehat
Copy link
Owner

比如您举得例子: dcfe fe18 1834 34d5 d539 3938 38bc bc01 01a0 a0bf bfa8 a808 0800 0045 4500 0005 05dc dcba ba56 5600 0000 0032 3206 0683 836e 6e6f 6f0d 0d95 95f3 f396 96f2 f2a9 为什么不是dcfe 1834 d539.......呢?

你好,感谢对我们工作的关注,这是使用字节对编码的结果,并不是唯一编码方法。

谢谢,我观察到你们的预训练样本也是这种字节对,我用你们的预训练模型去微调的话,不适用重复字节对编码的数据,而使用其他编码的方法,如不重复的,也可以吗?

我们目前没尝试过,因为我们使用的编码与字典是对应的,因此不确定效果的影响。我们建议你可以尝试使用不同编码格式数据进行微调,并对比效果是否有明显差异进行评估可行性。

@liu-zongxi
Copy link
Author

我注意到您在文章中表示,MAC header和IP header导致一些biased interference,所以在进行fine tune时需要删去,您在data_process/main.py提供的代码也表明对于data需要取[76:]。但我注意到您提供的finetune flow level数据集并没有删去这些包头信息。 如我随便打印一行 dcfe fe18 1834 34d5 d539 3938 38bc bc01 01a0 a0bf bfa8 a808 0800 0045 4500 0005 05dc dcba ba56 5600 0000 0032 3206 0683 836e 6e6f 6f0d 0d95 95f3 f396 96f2 f2a9 这其中开头是明显的MAC header和IP header,0800代表IPv4协议的以太网类型。如果我删去这些头,网络在分类任务上的性能并不好。请问您能解释一下您是如何做的吗

你好,感谢你对我们工作的关注。可以详细列举一下在哪些任务中的流处理吗?

你好,我使用你们的模型做CSTNET的120分类,如果按照你们的预处理方法去除包头,效果就很糟糕,保留包头贼可以跑出还不错的效果

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
question Further information is requested
Projects
None yet
Development

No branches or pull requests

3 participants