Chinese_Rumor_Dataset:https://github.com/thunlp/Chinese_Rumor_Dataset.git
📎 该数据为从新浪微博不实信息举报平台抓取的中文谣言数据,分为两个部分。其中当前目录下的数据集仅包含谣言原微博,不包含转发/评论信息;而CED_Dataset中是包含转发/评论信息的中文谣言数据集。
有详细的readme简介。质量较高。
DoubleCheck:https://github.com/Enderfga/DoubleCheck.git
📎 论文:
Long-Text Chinese Rumor Detection Dataset
中提出的数据集LTCR。
LTCR 数据集为准确检测错误信息提供了宝贵的资源,特别是在与 COVID-19 相关的复杂假新闻的背景下。该数据集分别包含 1,729 条真实新闻和 500 条假新闻。真实新闻和虚假新闻的平均长度分别约为 230 和 152 个字符。
详见论文。
COVID19-Health-Rumor:https://github.com/Kelaxon/COVID19-Health-Rumor.git
📎 论文:
Know it to Defeat it: Exploring Health Rumor Characteristics and Debunking Efforts on Chinese Social Media during COVID-19 Crisis
中涉及到的数据集。
该数据集包含 COVID-19 早期在中国互联网上流传的健康谣言,以及新浪微博(中国最大的微博网站)上旨在反驳或揭穿这些谣言的帖子。与阴谋论不同,健康谣言是关于医疗保健和医学的,不涉及主要参与者(例如美国军方)。
详见论文以及readme。
CHECKED:https://github.com/cyang03/CHECKED.git
📎 论文:
CHECKED: Chinese COVID-19 Fake News Dataset
提出的数据集。
包括真假新闻,json格式与csv格式存储。
详见论文以及readme。
CrossFake:https://github.com/YingtongDou/CrossFake.git
📎 论文:
Cross-lingual COVID-19 Fake News Detection
提到的数据集。
包含中、英文的真、假新闻。详见数据集。
详见论文以及readme。
CHEF:https://github.com/THU-BPM/CHEF.git
📎 论文:
CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking
提出的数据集。
详见论文以及readme。
Combating the Infodemic:https://www.mdpi.com/2227-9032/9/9/1094
📎 论文:
Combating the Infodemic: A Chinese Infodemic Dataset for Misinformation Identification
提出的数据集,通过收集 COVID-19 爆发期间广泛传播的中国信息流行病来构建中国信息流行病数据集“infodemic 2019”。每条记录都被标记为真实、错误或可疑。
详见论文。