Skip to content

Latest commit

 

History

History
59 lines (26 loc) · 3.08 KB

readme.md

File metadata and controls

59 lines (26 loc) · 3.08 KB

中文谣言和虚假新闻数据集

Chinese_Rumor_Datasethttps://github.com/thunlp/Chinese_Rumor_Dataset.git

📎 该数据为从新浪微博不实信息举报平台抓取的中文谣言数据,分为两个部分。其中当前目录下的数据集仅包含谣言原微博,不包含转发/评论信息;而CED_Dataset中是包含转发/评论信息的中文谣言数据集。
有详细的readme简介。质量较高。

DoubleCheckhttps://github.com/Enderfga/DoubleCheck.git

📎 论文:Long-Text Chinese Rumor Detection Dataset 中提出的数据集LTCR。
LTCR 数据集为准确检测错误信息提供了宝贵的资源,特别是在与 COVID-19 相关的复杂假新闻的背景下。该数据集分别包含 1,729 条真实新闻和 500 条假新闻。真实新闻和虚假新闻的平均长度分别约为 230 和 152 个字符。
详见论文。

COVID19-Health-Rumorhttps://github.com/Kelaxon/COVID19-Health-Rumor.git

📎 论文:Know it to Defeat it: Exploring Health Rumor Characteristics and Debunking Efforts on Chinese Social Media during COVID-19 Crisis 中涉及到的数据集。
该数据集包含 COVID-19 早期在中国互联网上流传的健康谣言,以及新浪微博(中国最大的微博网站)上旨在反驳或揭穿这些谣言的帖子。与阴谋论不同,健康谣言是关于医疗保健和医学的,不涉及主要参与者(例如美国军方)。
详见论文以及readme。

CHECKEDhttps://github.com/cyang03/CHECKED.git

📎 论文:CHECKED: Chinese COVID-19 Fake News Dataset 提出的数据集。
包括真假新闻,json格式与csv格式存储。
详见论文以及readme。

CrossFakehttps://github.com/YingtongDou/CrossFake.git

📎 论文:Cross-lingual COVID-19 Fake News Detection 提到的数据集。
包含中、英文的真、假新闻。详见数据集。
详见论文以及readme。

CHEFhttps://github.com/THU-BPM/CHEF.git

📎 论文:CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking 提出的数据集。
详见论文以及readme。

Combating the Infodemic:https://www.mdpi.com/2227-9032/9/9/1094

📎 论文:Combating the Infodemic: A Chinese Infodemic Dataset for Misinformation Identification 提出的数据集,通过收集 COVID-19 爆发期间广泛传播的中国信息流行病来构建中国信息流行病数据集“infodemic 2019”。每条记录都被标记为真实、错误或可疑。
详见论文。