文章目录
- 遇到的问题
- 解决方法
- 参考
遇到的问题
使用服务器下载Huggingface的数据集,显示ConnectionError: Couldn’t reach ‘Salesforce/dialogstudio’ on the Hub (ConnectionError)
具体代码如下:
dataset = load_dataset("Salesforce/dialogstudio", "TweetSumm")
具体报错信息如下:
1451 raise ConnectionError(f"Couldn't reach '{path}' on the Hub ({type(e).__name__})")
1452 elif "404" in str(e):
1453 msg = f"Dataset '{path}' doesn't exist on the Hub"
ConnectionError: Couldn't reach 'Salesforce/dialogstudio' on the Hub (ConnectionError)
解决方法
这是因为服务器连接不上huggingface,也就是服务器不能上外 网,下载不了数据集。那么解决方法是什么呢?
使用本地电脑先将数据集下载到本地,然后手动上传到服务器上。
本地电脑运行:
from datasets import Dataset, load_dataset, load_from_disk
dataset = load_dataset("Salesforce/dialogstudio", "TweetSumm")
dataset.save_to_disk("dataset/Salesforce/dialogstudio") # 保存到该目录下
dataset
使用save_to_disk
将数据集保存到本地磁盘,然后将dataset文件夹上传到服务器,上传到服务器代码的相同路径下。
我的服务器举例如下:
服务器电脑运行:
from datasets import Dataset, load_dataset, load_from_disk
# dataset = load_dataset("Salesforce/dialogstudio", "TweetSumm")
dataset = load_from_disk("dataset/Salesforce/dialogstudio")
dataset
使用load_from_disk
从磁盘导入数据集。
参考
[1] https://blog.csdn.net/weixin_44942303/article/details/129859895