系列文章目录
huggingface学习 | 云服务器使用git-lfs下载huggingface上的模型文件
文章目录
- 系列文章目录
- 一、hf_hub_download介绍
- 二、找到需要下载的huggingface文件
- 三、准备工作及下载过程
- 四、全部代码
一、hf_hub_download介绍
hf_hub_download是huggingface官方支持(Downloading files/hf_hub_download)的下载模型或数据集的方法。该方法涉及的参数如下:
实际上用到的参数并不多,一般情况下只需设置repo_id,filename,subfolder,local_dir,token参数即可
- repo_id:仓库名称
- filename:需要下载的文件名
- subfolder:需要下载的文件在仓库中的哪一个文件夹(可选)
- repo_type:仓库类型(可选),如果不填写就默认下载的是model,否则需要设置对应值(如下载数据集就设为datase)
- revision:指定Git的修订版本(可选)
- library_name:对象对应的库的名称(可选)
- library_version:库的版本号(可选)
- cache_dir:缓存文件存储的文件夹路径(可选)
- local_dir:下载的文件存放的目录(可选)
- local_dir_use_symlinks:与 local_dir 参数一起使用的选项。如果设置为 “auto”,则会使用缓存目录,并根据文件大小将文件复制或创建符号链接到本地目录。如果设置为 True,则无论文件大小如何,都将创建符号链接。如果设置为 False,则文件将从缓存中复制(如果已存在),或者从Hub下载而不缓存。
- user_agent:指定用户代理信息,可以是一个字典或一个字符串(可选)
- force_download:如果该文件已经在本地缓存中存在,是否强制性下载文件(可选)
- proxies: 设置代理服务器(可选)
- etag_timeout:当获取ETag时,等待服务器发送数据的最长时间(以秒为单位)。如果服务器在这段时间内没有响应,将放弃请求(可选)
- resume_download:如果设置为 True,可以继续之前中断的下载操作,即继续下载先前未完成的文件(可选)
- token:用于下载的身份验证令牌,如果设置为 True,则从HuggingFace配置文件夹中读取令牌。如果是一个字符串,它将被用作身份验证令牌。(可选)
- local_files_only:如果设置为 True,则避免下载文件,如果本地缓存中存在文件,则返回本地缓存文件的路径(可选)
- legacy_cache_layout:如果设置为 True,则使用旧的文件缓存布局,即只需调用 hf_hub_url() 然后进行缓存下载。这已经不推荐使用,因为新的缓存布局更强大。(可选)
二、找到需要下载的huggingface文件
huggingface官网链接:https://huggingface.co/
以stable-diffusion-xl-base-1.0中unet文件夹里的diffusion_flax_model.msgpack文件为例:链接为stable-diffusion-xl-base-1.0。该文件大小为10.3G,如果采用官网直接下载的方法,会耗费较长的时间,采用git-lfs的方法在运行过程中容易自动跳过部分大文件,因此可以采用官网提供的hf_hub_download函数进行下载。
三、准备工作及下载过程
- 安装huggingface_hub包
pip install huggingface_hub
- 导入相关包,并使用hf-mirror.com镜像进行下载
import os
# 注意os.environ得在import huggingface库相关语句之前执行。
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
from huggingface_hub import hf_hub_download
-
确定身份验证令牌token
在注册完成huggingface账户后,访问huggingface个人主页(profile)里的settings:https://huggingface.co/settings/profile
点击左侧:SSH AND GPG keys
如果已有token,复制即可,如果没有则点击new token设置完毕后再进行复制
-
确定相关参数
local_dir:你想要将文件保存到的地址
repo_id:想要下载的文件所在的仓库
filename:文件名
subfolder:如果文件不是直接在仓库里,而是在仓库的文件夹里,需要指定文件夹
token:身份验证令牌
repo_id=‘stabilityai/stable-diffusion-xl-base-1.0’
filename=‘diffusion_pytorch_model.safetensors’
subfolder=‘unet’
token=‘第三步中复制得到的’
local_dir = r’models\sdxl’
- 定义下载函数
这个函数可以将下载的进程呈现出来,只需要输入local_dir,repo_id,filename,subfolder,token参数即可完成下载。(参考自【AI之路】使用huggingface_hub通过huggingface镜像站hf-mirror.com下载大模型(附代码,实现大模型自由))
def download_model(local_dir,repo_id,filename,subfolder,token):
print(f'开始下载\n仓库:{repo_id}\n大模型:{filename}\n如超时不用管,会自定继续下载,直至完成。中途中断,再次运行将继续下载。')
while True:
try:
hf_hub_download(local_dir=local_dir,
repo_id=repo_id,
token=token,
filename=filename,
subfolder=subfolder,
local_dir_use_symlinks=False,
resume_download=True,
etag_timeout=100
)
except Exception as e :
print(e)
else:
print(f'下载完成,大模型保存在:{local_dir}\{filename}')
break
- 运行代码进行下载
if __name__ == '__main__':
repo_id='stabilityai/stable-diffusion-xl-base-1.0'
filename='diffusion_pytorch_model.safetensors'
subfolder='unet'
token='第三步复制得到'
local_dir = r'models'
download_model(local_dir,repo_id,filename,subfolder,token)
开始下载:
如超时不用管,会自定继续下载,直至完成。中途中断,再次运行将继续下载;
最终下载完成界面:
四、全部代码
import os
# 注意os.environ得在import huggingface库相关语句之前执行。
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
from huggingface_hub import hf_hub_download
def download_model(local_dir,repo_id,filename,subfolder,token):
print(f'开始下载\n仓库:{repo_id}\n大模型:{filename}\n如超时不用管,会自定继续下载,直至完成。中途中断,再次运行将继续下载。')
while True:
try:
hf_hub_download(local_dir=local_dir,
repo_id=repo_id,
token=token,
filename=filename,
subfolder=subfolder,
local_dir_use_symlinks=False,
resume_download=True,
etag_timeout=100
)
except Exception as e :
print(e)
else:
print(f'下载完成,大模型保存在:{local_dir}\{filename}')
break
if __name__ == '__main__':
repo_id='stabilityai/stable-diffusion-xl-base-1.0'
filename='diffusion_pytorch_model.safetensors'
subfolder='unet'
token='复制得到'
local_dir = r'models'
download_model(local_dir,repo_id,filename,subfolder,token)
参考:
如何快速下载huggingface模型——全方法总结
【AI之路】使用huggingface_hub通过huggingface镜像站hf-mirror.com下载大模型(附代码,实现大模型自由)