这是Viscacha项目的存储库,该项目旨在构建一个通用信息抽取数据集的统一收集工作。
欢迎您向我们提供任何未收集的信息抽取数据集(或其来源)。我们将统一它们的格式,并通过我们所构建的instructions融入统一的数据集中。
语言:
- EN: English (英文)
- CN: Chinese (中文)
- ML: Multiple languages (多语言)
任务:
- NER: Named Entity Recognition (命名实体识别)
- RE: Relation Extraction (关系抽取)
- EE: Event Extraction (事件抽取)
我们集合中的所有数据均已被转化成相同的格式,每个样本的格式如下:
# NER
{
"sentence": string,
"entities": {
"name": string,
"type": string,
"pos": [
int,
int
]
}
}
# RE
{
"sentence": string,
"relations": [
{
"head": {
"name": string,
"type": string,
"pos": [int, int]
},
"type": string,
"tail": {
"name": string,
"type": string,
"pos": [int, int]
}
}
]
}
# EE
{
"sentence": string,
"events": [
{
"trigger": string,
"type": string,
"pos": [
int
],
"arguments": [
{
"name": string,
"role": string,
"pos": [
int
]
},
{
"name": string,
"role": string,
"pos": [
int
]
}
]
}
]
}
你可以在这里下载所有我们已经统一格式后的数据。