本数据集主要用于训练财经新闻情感分类的深度学习模型。 数据来源于雪球网上万得资讯发布的正负面新闻标题,通过爬虫采集到7046条新闻标题作为种子数据集,其中正面新闻5147条,负面新闻1899条。
由于数据量太少,所以需要对数据进行扩充,扩充的策略是通过搜索引擎搜索和筛选,得到最终的数据集。
数据集中包含17149条新闻数据,包括日期
、公司
、代码
、正/负面
、标题
、正文
6个字段,其中正面新闻12514条,负面新闻4635条。
- news_seed.xlsx: 种子数据集
- train_data.csv: 可用于训练的数据集
- test_data.csv: 可用于测试的数据集