如何在windows中使用hfd.sh aria2c下载huggingface文件

news2024/9/24 15:19:16

这里写目录标题

  • 简介
  • hfd.sh使用方法
  • windows系统安装aria2c

aria2c官方文档: https://aria2.github.io/manual/en/html/aria2c.html

简介

我们在下载huggingface上模型权重的时候,要么在浏览器上直接下,要么使用官方下载程序。浏览器上还得一个一个点击,下载权重也是单线程(虽然有时单线程也能跑满带宽)。官方下载鲁棒性较差,时不时断个网,或者最后1%卡死。
padeoe作者开发了一个多线程下载权重脚本hfd,基于aria2实现多线程。aria2会将一个文件切分成多个小块,然后使用多线程方式同时下载多个块。
然而大家都在linux上安装aria2,windows安装时多有不便,所以今天给大家带来windows下使用hfd.sh aria2c下载huggingface文件的方法。

hfd.sh使用方法

  1. 下载hfd.sh文件:https://gist.github.com/padeoe/697678ab8e528b85a2a7bddafea1fa4f
    可以点右上角download zip下载,里面有hfd.sh
    在这里插入图片描述
  2. 由于windows的cmd无法运行sh文件,所以可以先安装git,在git bash中运行sh文件,并给该文件执行权限
    chmod a+x hfd.sh
    
  3. 首先设置镜像端点,否则无法连接上远程库
    export HF_ENDPOINT="https://hf-mirror.com"
    
  4. 然后运行sh文件下载,THUDM/glm-4-9b-chat为huggingface上的模型名称,–tool表示使用wget还是aria2c(默认)下载,-x表示线程数
    通常模型文件会下到同级目录下
    sh ./hfd.sh THUDM/glm-4-9b-chat --tool aria2c -x 4
    
    具体用法为
    hfd <model_id> [--exclude exclude_pattern] [--hf_username username] [--hf_token token] [--tool wget|aria2c] [-x threads] [--dataset]
    
    • model_id: 下载的模型ID,格式为’repo/model_name’。
    • --exclude: 可选参数,用于排除哪些文件。例如,有些库中既给了.bin的模型文件,又给了.safetensors的,就可以使用--exclude *.bin排除.bin文件。
    • --hf_username: 可选参数,huggingface账户的用户名。有些模型(例如llama)需要申请才能下载,这时候就需要提供账户信息。
    • --hf_toke: 可选参数,huggingface账户的访问令牌,与--hf_username一起使用,token获取方法在下面。
    • --tool: 可选参数,指定下载工具。可以是wget或aria2c(默认)。aria2c支持多线程下载,可能更快。
    • -x: 可选参数,仅当使用aria2c时有效。用于指定下载时的线程数。例如-x 8表示使用8个线程下载。
    • --dataset: 可选参数,用来标记下载的是数据集而非模型。
  5. 若感觉每次下载需要初始化环境变量或者指定一堆参数太麻烦,可以在外面套个sh文件,例如我就在hfd同级目录下新建了一个downloads_hf_model.sh文件,每次在这里面修改就可以了。
    export HF_ENDPOINT="https://hf-mirror.com"
    
    sh ./hfd.sh THUDM/glm-4-9b-chat --tool aria2c -x 4 --exclude *.bin
    

huggingface token获取方法

  1. 进入huggingface官网,登录后点击头像,点击自己名字
    在这里插入图片描述
  2. 左侧点击settings设置
    在这里插入图片描述
  3. 点击左侧access tokens,右边没有token就创建一个,新建的时候只需要read权限就可以了
    在这里插入图片描述
  4. 当前huggingface的规则是新建一个需要自己离线保存的token值,往后无法得到,token值忘记后需要重新刷新
    在这里插入图片描述

windows系统安装aria2c

  1. 去aria2c github仓库中下载windows版本的zip压缩包,自己找个目录将其解压
    在这里插入图片描述

  2. 将aria2加入系统环境变量,路径是自己解压的路径,写到文件夹名
    在这里插入图片描述

  3. 之后重新打开cmd或PowerShell窗口(重新打开才能生效),输入aria2c或aria2c --version查看是否生效
    在这里插入图片描述

  4. 添加配置文件aria2.conf,第1步中刚下载的zip文件中是没有配置文件的,新建一个文件命名为aria2.conf,将以下信息写入。(相当于执行aria2c时的默认参数,也可以在执行时用-d、-k等覆盖)

    # 下载文件的保存路径,使用hfd.sh下载huggingface文件时不用管这个,hfd.sh文件中用-d重新指定路径了
    dir=D:\learning\python
    # 启用RPC功能,一种网络通信技术
    enable-rpc=true
    RPC监听端口
    rpc-listen-port=6800
    # 最大同时下载任务数
    max-concurrent-downloads=5
    

    也可以将下面这些配置文件都放进去,等以后用的时候再修改

    ## '#'开头为注释内容, 选项都有相应的注释说明, 根据需要修改 ##
    ## 被注释的选项填写的是默认值, 建议在需要修改时再取消注释 ##
     
    ## 文件保存相关 ##
     
    # 文件的保存路径(可使用绝对路径或相对路径), 默认: 当前启动位置
    dir=D:\learning\python
    # 启用磁盘缓存, 0为禁用缓存, 需1.16以上版本, 默认:16M
    disk-cache=32M
    # 文件预分配方式, 能有效降低磁盘碎片, 默认:prealloc
    # 预分配所需时间: none < falloc ? trunc < prealloc
    # falloc和trunc则需要文件系统和内核支持
    # NTFS建议使用falloc, EXT3/4建议trunc, MAC 下需要注释此项
    file-allocation=falloc
    # 断点续传
    continue=true
     
    ## 下载连接相关 ##
     
    # 最大同时下载任务数, 运行时可修改, 默认:5
    max-concurrent-downloads=3
    # 同一服务器连接数, 添加时可指定, 默认:1
    max-connection-per-server=5
    # 最小文件分片大小, 添加时可指定, 取值范围1M -1024M, 默认:20M
    # 假定size=10M, 文件为20MiB 则使用两个来源下载; 文件为15MiB 则使用一个来源下载
    min-split-size=10M
    # 单个任务最大线程数, 添加时可指定, 默认:5
    split=5
    # 整体下载速度限制, 运行时可修改, 默认:0
    #max-overall-download-limit=0
    # 单个任务下载速度限制, 默认:0
    #max-download-limit=0
    # 整体上传速度限制, 运行时可修改, 默认:0
    #max-overall-upload-limit=0
    # 单个任务上传速度限制, 默认:0
    #max-upload-limit=0
    # 禁用IPv6, 默认:false
    disable-ipv6=true
     
    ## 进度保存相关 ##
     
    # 从会话文件中读取下载任务
    input-file=aria2.session
    # 在Aria2退出时保存`错误/未完成`的下载任务到会话文件
    save-session=aria2.session
    # 定时保存会话, 0为退出时才保存, 需1.16.1以上版本, 默认:0
    save-session-interval=60
     
    ## RPC相关设置 ##
     
    # 启用RPC, 默认:false
    enable-rpc=true
    # 允许所有来源, 默认:false
    rpc-allow-origin-all=true
    # 允许非外部访问, 默认:false
    rpc-listen-all=true
    # 事件轮询方式, 取值:[epoll, kqueue, port, poll, select], 不同系统默认值不同
    #event-poll=select
    # RPC监听端口, 端口被占用时可以修改, 默认:6800
    #rpc-listen-port=6800
     
    ## BT/PT下载相关 ##
     
    # 当下载的是一个种子(以.torrent结尾)时, 自动开始BT任务, 默认:true
    #follow-torrent=true
    # BT监听端口, 当端口被屏蔽时使用, 默认:6881-6999
    listen-port=51413
    # 单个种子最大连接数, 默认:55
    #bt-max-peers=55
    # 打开DHT功能, PT需要禁用, 默认:true
    enable-dht=false
    # 打开IPv6 DHT功能, PT需要禁用
    #enable-dht6=false
    # DHT网络监听端口, 默认:6881-6999
    #dht-listen-port=6881-6999
    # 本地节点查找, PT需要禁用, 默认:false
    #bt-enable-lpd=false
    # 种子交换, PT需要禁用, 默认:true
    enable-peer-exchange=false
    # 每个种子限速, 对少种的PT很有用, 默认:50K
    #bt-request-peer-speed-limit=50K
    # 客户端伪装, PT需要
    peer-id-prefix=-TR2770-
    user-agent=Transmission/2.77
    # 当种子的分享率达到这个数时, 自动停止做种, 0为一直做种, 默认:1.0
    seed-ratio=0
    # 强制保存会话, 话即使任务已经完成, 默认:false
    # 较新的版本开启后会在任务完成后依然保留.aria2文件
    #force-save=false
    # BT校验相关, 默认:true
    #bt-hash-check-seed=true
    # 继续之前的BT任务时, 无需再次校验, 默认:false
    bt-seed-unverified=true
    # 保存磁力链接元数据为种子文件(.torrent文件), 默认:false
    bt-save-metadata=true
    

    写完.conf文件后,打开cmd或PowerShell窗口,执行以下命令(aria2.conf为自己的.conf路径,可以先cd到该文件目录下)

    aria2c --conf-path==aria2.conf
    

这样再执行hfd.sh文件就可以顺利下载啦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2093544.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Lagent 自定义 Agent 智能体

准备 安安装环境 mindsearch 工具 画图工具

算法设计与分析:实验五 图论——桥问题

实验内容&#xff1a; 1. 桥的定义 在图论中&#xff0c;一条边被称为“桥”代表这条边一旦被删除&#xff0c;这张图的连通块数量会增加。等价地说&#xff0c;一条边是一座桥当且仅当这条边不在任何环上。一张图可以有零或多座桥。 2. 求解问题 找出一个无向图中所有的桥…

用MATLAB 画一个64QAM的星座图

由于QAM采用幅度和相位二维调制&#xff0c;其频谱效率大大提高&#xff0c;而且不同点的欧式距离也要大于调幅AM调制方式&#xff0c;QAM也是LTE和5G NR首选的调制方式&#xff0c;本期教大家画一个64QAM的星座图。 如下&#xff1a; 首先产生一个64QAM的调制数据&#xff0…

18044 成绩等级评分

### 思路 1. 从键盘输入一个整数成绩。 2. 判断成绩是否在0到100之间&#xff1a; - 如果不在范围内&#xff0c;输出“error”。 - 如果在范围内&#xff0c;根据成绩范围输出对应的等级&#xff1a; - 90分以上为A - 80到89分为B - 70到79分为C - …

数仓架构:离线数仓、实时数仓Lambda和Kappa、湖仓一体数据湖

往期推荐 大数据HBase图文简介-CSDN博客 数仓分层ODS、DWD、DWM、DWS、DIM、DM、ADS-CSDN博客 数仓常见名词解析和名词之间的关系-CSDN博客 目录 往期推荐 1. 数仓架构 1.1 离线数仓架构 1.1.1 数据集市架构 1.1.1.2 独立数据集市 1.1.1.2 从属数据集市 1.1.2 Inmon企…

Java的线程池简述

线程池的工作原理 线程池是为了减少频繁的创建线程和销毁线程带来的性能损耗&#xff0c;线程池的工作原理如下图&#xff1a; 线程池分为核心线程池&#xff0c;线程池的最大容量&#xff0c;还有等待任务的队列&#xff0c;提交一个任务&#xff0c;如果核心线程没有满&…

基于SpringBoot+Vue+MySQL的宠物寄养服务管理系统

系统背景 互联网社会的到来&#xff0c;让各行各业通过互联网实现了浴火重生的可能&#xff0c;每个行业都发现了完全可以使用互联网技术用来提高信息在内部的传递效率&#xff0c;提高管理水准。通过本次对宠物寄养服务系统的设计和开发&#xff0c;不仅能巩固已经学到的知识&…

代码随想录 刷题记录-22 动态规划(6)习题

1.300.最长递增子序列 子序列问题是动态规划解决的经典问题&#xff0c;当前下标i的递增子序列长度&#xff0c;其实和i之前的下标j的子序列长度有关系. 动规五部曲&#xff1a; 1.dp数组及下标含义 dp[i] : 从任意位置开始&#xff0c;以nums[i]元素作为结尾的所有 递增子…

Unity编辑器开发 Immediate Mode GUI (IMGUI)

1. 简介&#xff1a; IMGUI是代码驱动gui系统&#xff0c;由 OnGUI 函数驱动&#xff1a; void OnGUI() {if (GUILayout.Button("Press Me")){ Debug.Log("Hello!");} } IMGUI常用于&#xff1a; 创建 in-game debugging displays and tools&#xff1b…

Redis基础命令和事务,redis持久化和主从复制

目录 第一章、Redis数据库的下载和安装1.1&#xff09;nosql数据库和 Redis 介绍1.2&#xff09;Windows中下载安装Redis数据库1.3&#xff09;Linux中安装Redis数据库1.4&#xff09;Linux中启动redis1.5&#xff09;Linux中关闭redis 第二章、三种Redis客户端连接Redis数据库…

AI安全立法:加州新法案的争议与未来影响

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

版本管理工具 Git 的下载安装及使用

1 基本介绍 Git 是目前最流行的分布式版本控制软件 什么是分布式版本控制软件&#xff1f; 所有版本信息仓库全部同步到本地的每个用户可以在本地查看所有版本历史&#xff0c;可以离线在本地提交&#xff0c;只需在连网时 push 到相应的服务器或其他用户那里。每个用户那里…

一键翻译全球:2024年跨文化交流的得力助手

翻译工具作为沟通不不同语言桥梁上的重要使者&#xff0c;正在从古老的字典查阅到现代的机器翻译软件发展。今天&#xff0c;让我们一同探索与搜狗翻译工具相似的翻译工具们怎么带我们走进奇妙世界。 1.福晰翻译 链接直达>>https://www.foxitsoftware.cn/fanyi/ 这款多…

数字芯片中I/O单元及电源domain布局中SIPI的考虑

芯片设计的物理实施过程通常也简称为布局布线&#xff08;P&R&#xff0c;Place-and-Route&#xff09;&#xff0c;布局一般被分为布局规划&#xff08;Floorplan&#xff09;和标准单元摆放&#xff08;Place&#xff09;两个过程。而其中的布局规划是芯片后端物理实现过…

用Starbound星际边界服务器开服联机

1、登录服务器&#xff08;百度莱卡云游戏面板&#xff09; 进入控制面板后会出现正在安装的界面&#xff0c;安装大约10分钟&#xff08;如长时间处于安装中请联系我们的客服人员&#xff09; 2、连接游戏 开机后等待服务器地址下方正常运行时间的表由黄色变成灰色并且在计时…

Centos7.x安装grafana11

第一步&#xff1a;yum安装 sudo yum install -y https://dl.grafana.com/enterprise/release/grafana-enterprise-11.2.0-1.x86_64.rpm 第二步&#xff1a;改成中文 vim /etc/grafana/grafana.ini 第三步&#xff1a;启动 systemctl start grafana-server 第四步&#x…

linux文件——文件系统——学习、理解、应用软硬件链接

前言:本篇内容主要讲解文件系统的软硬件链接。 经过前两篇文件系统的文章——讲解硬件&#xff08;磁盘&#xff09;、讲解文件系统底层&#xff0c; inode&#xff0c; 我们本节内容可以很好的理解我们要讲解的内容。 并且本节内容较少&#xff0c; 友友们学习本节的时候将会比…

Linux(CentOS 7)

Linux(CentOS 7) super space : 切换输入法 ctrl alt : 级别三(大黑屏)呼出鼠标 Fn Ctrl Alt F1 : 进入图形化界面 Fn Ctrl Alt F2 : 进入控制台界面 第 1 章 Linux 入门 1.1 概述 Linux是一个操作系统(OS) 1.2 Linux 和 Windows 区别 第 2 章 VM 与 Linux 的安装…

Apache Paimon:开启实时湖仓存储新时代

Apache Paimon&#xff1a;开启实时湖仓存储新时代 前言Apache Paimon 前言 在当今数字化浪潮汹涌澎湃的时代&#xff0c;数据已成为企业最为宝贵的资产之一。如何高效地处理、存储和利用这些海量数据&#xff0c;成为了企业在激烈竞争中脱颖而出的关键。而在数据处理的广阔领…

rsyslog交叉编译(armv7、armv8、aarch64、arm32平台通用)

文章目录 1、依赖库列表2、编译建议3、编译3.1、编译libestr3.2、编译libfastjson3.3、编译zlib3.4、编译libuuid3.5、编译libgpg-error3.6、编译libgcrypt3.7、编译openssl3.8、编译curl3.9、编译rsyslog该文档描述了如何交叉编译rsyslog到arm64嵌入式平台。 1、依赖库列表 li…