本文将介绍如何在魔搭上创建数据集,首先登录后通过网页创建数据库集。
通过 git 命令 clone 数据集
创建数据集,初始化训练数据和测试数据 train.csv,test.csv,注意 csv 的首行为列名称
创建子数据集,魔搭上子数据集就是子目录,创建目录 yy2024
对子数据集,创建训练集以及测试集数据
最后最重要的是数据集的配置,在 README.md 中添加配置
---
license: Apache License 2.0
configs:
- config_name: default
data_files:
- split: train
path: "train.csv"
- split: test
path: "test.csv"
- config_name: yy2024
data_files:
- split: train
path: "yy2024/train.csv"
- split: test
path: "yy2024/test.csv"
---
通过代码下载数据集,FORCE_REDOWNLOAD 解决缓存问题,每次都强制下载,subset_name 为子数据集名称。
from modelscope import MsDataset
from modelscope.utils.constant import DownloadMode
ds = MsDataset.load('model1001/ds1',
download_mode=DownloadMode.FORCE_REDOWNLOAD,
subset_name='yy2024',
split='train',
use_streaming=True
)
print(next(iter(ds)))
总结
魔搭的数据集功能感觉还是没有 HuggingFace 的好用,文档也不详细,好处是魔搭有一个钉钉群有问必答,客服非常有耐心,产品要是在好些就更好了。