DocRED数据集文件夹包含多个JSON文件,每个文件都有不同的用途。以下是这些文件的用途解释以及哪个文件是训练集:
文件解释
dev.json:包含开发集(验证集)的数据,通常用于模型调优和选择超参数。
label_map.json:包含标签映射,将关系名称映射到标签索引。
load_dev.json:可能是 dev.json 的另一种格式或处理后的版本,具体用途取决于具体实现。
load_dev_rel2num.json:包含开发集关系与数量的映射,可能用于统计开发集中关系的分布。
load_test.json:包含测试集的数据,通常用于模型的最终评估。
load_test_rel2num.json:包含测试集关系与数量的映射,可能用于统计测试集中关系的分布。
load_train_annotated.json:包含标注过的训练集数据,是训练集中标注了实体和关系的数据。
load_train_annotated_rel2num.json:包含标注过的训练集关系与数量的映射,可能用于统计训练集中关系的分布。
ner2id.json:包含命名实体识别(NER)标签的映射,将实体类型名称映射到标签索引。
rel2id.json:包含关系标签的映射,将关系名称映射到标签索引。
rel_info.json:可能包含关系的详细信息,例如关系的定义和描述。
test.json:包含测试集数据,与 load_test.json 类似。
train_annotated.json:包含标注过的训练集数据,是模型训练的主要数据来源。
train_distant.json:包含远程监督(distant supervision)数据,可能是未完全标注或自动标注的训练数据,用于增强模型的训练集。
确定训练集
对于模型训练,通常使用以下文件:
train_annotated.json:标注过的训练集,包含了实体和关系的人工标注。
train_distant.json:远程监督的训练数据,通常用于数据扩展。