除了常见的load_dataset(<hf上的dataset名>)这种方式加载HF上的所有数据外,还有其他custom的选项。
- 加载HF上部分数据
from datasets import load_dataset
c4_subset = load_dataset("allenai/c4", data_files="en/c4-train.0000*-of-01024.json.gz")
c4_subset = load_dataset("allenai/c4", data_dir="en")
# 还可以通过 split=xxx 来切分为train or validation
data_files = {"validation": "en/c4-validation.*.json.gz"}
c4_validation = load_dataset("allenai/c4", data_files=data_files, split="validation")
- 加载本地的数据
本地的数据可以是本地自己构建的,也可以是从HF上下载的
https://huggingface.co/docs/datasets/loading#local-and-remote-files
from datasets import load_dataset
dataset = load_dataset("csv", data_files="my_file.csv")
以csv为例,需要在第一个选项指定 'csv’格式,其他格式的数据也需要指定其他格式,HF上的格式基本在HF官网点进去可以知道,如: