LLaMA代码笔记 --基于lit-llama

news2024/11/14 13:45:11

代码来自:lit-llama
modelscope模型下载 :llama-7b
下载后的模型需要转换为lit-llama使用的格式,详见 howto 文件夹下的 download_weights.md

文中代码为了方便说明,删减了一些内容,详细代码请查看源码。

generate

输入参数:

  • idx: 输入的prompt经过 tokenizer encode之后输出的序列tensor.使用了默认的输入,token长度为6。
  • max_new_tokens: 每次新生成的最大token数
  • max_seq_length: 输入的序列最大长度.
  • temperature: 温度越高,结果越多样性;温度越低,确定性越高。
  • top_k: 默认为200。topk越大,结果越多样性;topk越小,结果确定性越高。
@torch.no_grad()
def generate(
    model: LLaMA,
    idx: torch.Tensor,
    max_new_tokens: int,
    *,
    max_seq_length: Optional[int] = None,
    temperature: float = 1.0,
    top_k: Optional[int] = None,
    eos_id: Optional[int] = None,
) -> torch.Tensor:

    # create an empty tensor of the expected final shape and fill in the current tokens
    T = idx.size(0)
    T_new = T + max_new_tokens
    if max_seq_length is None:
        max_seq_length = min(T_new, model.config.block_size)

    device, dtype = idx.device, idx.dtype
    # 创建了一个空的tensor,包括输入的idx,加上允许生成的最大tokens 数,定义了最终结果变量
    empty = torch.empty(T_new, dtype=dtype, device=device)
    empty[:T] = idx
    idx = empty
    input_pos = torch.arange(0, T, device=device) #指明输入的数据在idx中的pos。

    # generate max_new_tokens tokens
    for _ in range(max_new_tokens):
        x = idx.index_select(0, input_pos).view(1, -1) #在结果变量idx中使用input_pos 取出当前输入。

        # forward
        logits = model(x, max_seq_length, input_pos)   #(1,seq,32000)
        logits = logits[0, -1] / temperature

        # optionally crop the logits to only the top k options
        if top_k is not None:
            v, _ = torch.topk(logits, min(top_k, logits.size(-1)))
            logits = torch.where(logits < v[[-1]], -float("Inf"), logits)

        probs = torch.nn.functional.softmax(logits, dim=-1)
        idx_next = torch.multinomial(probs, num_samples=1).to(dtype=dtype) #多项式采样

        # advance
        input_pos = input_pos[-1:] + 1#下一个输入的pos

        # concatenate the new generation
        idx = idx.index_copy(0, input_pos, idx_next) #把生成结果copy到结果变量中

        # if <eos> token is triggered, return the output (stop generation)
        if idx_next == eos_id:
            return idx[:input_pos]  # include the EOS token

    return idx

LLAMA Model

使用默认配置,7B模型。block_size 定义了rope和mask的大小,自然也限制了最大输入长度,超过了block_size的输入,无法取得位置编码和mask。

@dataclass
class LLaMAConfig:
    block_size: int = 2048
    vocab_size: int = 32000
    padded_vocab_size: Optional[int] = None
    n_layer: int = 32
    n_head: int = 32
    n_embd: int = 4096

    def __post_init__(self):
        if self.padded_vocab_size is None:
            self.padded_vocab_size = find_multiple(self.vocab_size, 64)

    @classmethod
    def from_name(cls, name: str) -> Self:
        return cls(**llama_configs[name])


llama_configs = {
    "7B": dict(n_layer=32, n_head=32, n_embd=4096),
    "13B": dict(n_layer=40, n_head=40, n_embd=5120),
    "30B": dict(n_layer=60, n_head=52, n_embd=6656),
    "65B": dict(n_layer=80, n_head=64, n_embd=8192),
}

LLaMA模型主要有多层attention模块构成。
预测第一个token的时候,需要创建 build_rope_cache 和 build_mask_cache,以及 kv_caches。
然后从rope_cache 和mask_cache 根据 input_pos 取出对应位置的值。
kv_caches 即 缓存模型中所有层的kv值,7B有32层,则 kv_caches 的长度为32.
kv的shape为(B, self.config.n_head, max_seq_length, head_size),使用torch.zeros 初始化。
逐层运行,并将每层的kv值保存在kv_caches 中。
这里每次输入的长度肯定是小于max_seq_length,也就是只更新相应index的kv_caches中的值。
最后经过RMSNorm后,经过线性层,输出每个vocab的概率.

class LLaMA(nn.Module):
    def __init__(self, config: LLaMAConfig) -> None:
        super().__init__()
        assert config.padded_vocab_size is not None
        self.config = config

        self.lm_head = nn.Linear(config.n_embd, config.padded_vocab_size, bias=False)
        self.transformer = nn.ModuleDict(
            dict(
                wte=nn.Embedding(config.padded_vocab_size, config.n_embd),
                h=nn.ModuleList(Block(config) for _ in range(config.n_layer)),
                ln_f=RMSNorm(config.n_embd),
            )
        )

        self.rope_cache: Optional[RoPECache] = None
        self.mask_cache: Optional[MaskCache] = None
        self.kv_caches: List[KVCache] = []

    def forward(
        self, idx: torch.Tensor, max_seq_length: Optional[int] = None, input_pos: Optional[torch.Tensor] = None
    ) -> Union[torch.Tensor, Tuple[torch.Tensor, List[KVCache]]]:
        B, T = idx.size()

        block_size = self.config.block_size
        if max_seq_length is None:
            max_seq_length = block_size
        assert T <= max_seq_length, f"Cannot forward sequence of length {T}, max seq length is only {max_seq_length}"
        assert max_seq_length <= block_size, f"Cannot attend to {max_seq_length}, block size is only {block_size}"
        assert T <= block_size, f"Cannot forward sequence of length {T}, block size is only {block_size}"

        if self.rope_cache is None:
            self.rope_cache = self.build_rope_cache(idx)
        if self.mask_cache is None:
            self.mask_cache = self.build_mask_cache(idx)
        #从rope_cache 和 mask_cache 取出对应位置的rope和mask
        if input_pos is not None:
            rope = self.rope_cache.index_select(0, input_pos) #(6,64,2),(1,64,2)
            mask = self.mask_cache.index_select(2, input_pos) #(1,1,6,2048),(1,1,1,2048)
            mask = mask[:, :, :, :max_seq_length] #1,1,6,56),(1,1,1,56)
        else:#未给出input_pos,则根据输入长度
            rope = self.rope_cache[:T]
            mask = self.mask_cache[:, :, :T, :T]

        # embeddings
        x = self.transformer.wte(idx)  # token embeddings of shape (b, t, n_embd) #(1,1,4096)

        if input_pos is None:  # proxy for use_cache=False
            for block in self.transformer.h:
                x, _ = block(x, rope, mask, max_seq_length)
        else:
            if not self.kv_caches: #创建kv_caches
                head_size = self.config.n_embd // self.config.n_head  #128
                cache_shape = (B, self.config.n_head, max_seq_length, head_size) #(1,32,56,128)
                self.kv_caches = [
                    (torch.zeros(cache_shape, device=x.device, dtype=x.dtype), torch.zeros(cache_shape, device=x.device, dtype=x.dtype))
                    for _ in range(self.config.n_layer)
                ]
            for i, block in enumerate(self.transformer.h):
                x, self.kv_caches[i] = block(x, rope, mask, max_seq_length, input_pos, self.kv_caches[i])
        #RMSNorm
        x = self.transformer.ln_f(x) #(1,6,4096)

        logits = self.lm_head(x)  # (b, t, vocab_size) (1,6,32000)

        return logits
        
    def build_rope_cache(self, idx: torch.Tensor) -> RoPECache:
        return build_rope_cache(
            seq_len=self.config.block_size,
            n_elem=self.config.n_embd // self.config.n_head,
            dtype=idx.dtype,
            device=idx.device,
        )
       # mask_cache 的shape为 (block_size,block_size),右上角为False。
    def build_mask_cache(self, idx: torch.Tensor) -> MaskCache:
        ones = torch.ones((self.config.block_size, self.config.block_size), device=idx.device, dtype=torch.bool)
        return torch.tril(ones).unsqueeze(0).unsqueeze(0)

build_rope_cache

rope 按照下面的计算方法计算,有很多的shape转换,可以使用较小的维度对照公式逐步查看。
参考:一文通透位置编码:从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long(含NTK-aware简介)
rope_cache 的shape为 (2048,64,2),2048是模型定义的block_size,64 为 attention中每个head 的dim 再除以2。

旋转角度计算公式
在这里插入图片描述

def build_rope_cache( #2048,128=4096/32
    seq_len: int, n_elem: int, dtype: torch.dtype, device: torch.device, base: int = 10000
) -> RoPECache:

    # 上面的角度计算公式,2(i-1),i从1到d/2,就等于torch.arange(0, d, 2)
    theta = 1.0 / (base ** (torch.arange(0, n_elem, 2, dtype=dtype, device=device) / n_elem))  #(64)

    # Create position indexes `[0, 1, ..., seq_len - 1]`
    seq_idx = torch.arange(seq_len, dtype=dtype, device=device)  #(2048)

    # Calculate the product of position index and $\theta_i$
    #每个角度都乘以index
    idx_theta = torch.outer(seq_idx, theta).float()  #(2048,64)

    cache = torch.stack([torch.cos(idx_theta), torch.sin(idx_theta)], dim=-1) #(2048,64,2)

    # this is to mimic the behaviour of complex32, else we will get different results
    if dtype in (torch.float16, torch.bfloat16, torch.int8):
        cache = cache.half()
    return cache

在这里插入图片描述
在attention中,只有q和k需要添加位置信息,按照上图来计算。

def apply_rope(x: torch.Tensor, rope_cache: RoPECache) -> torch.Tensor:
    # truncate to support variable sizes
    T = x.size(1) #(1,6,32,128)
    rope_cache = rope_cache[:T] #(6,64,2)

    # cast because the reference does
    xshaped = x.float().reshape(*x.shape[:-1], -1, 2) #(1,6,32,64,2)
    rope_cache = rope_cache.view(1, xshaped.size(1), 1, xshaped.size(3), 2)  #(1,6,1,64,2)
    x_out2 = torch.stack(
        [
            xshaped[..., 0] * rope_cache[..., 0] - xshaped[..., 1] * rope_cache[..., 1],
            xshaped[..., 1] * rope_cache[..., 0] + xshaped[..., 0] * rope_cache[..., 1],
        ],
        -1,
    )  #(1,6,32,64,2)

    x_out2 = x_out2.flatten(3) #(1,6,32,128)
    return x_out2.type_as(x)

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/0eff924a1239455e906050c003365315.png
图片是llama2的结构图,llama1并没有使用GQA,其他结构是一样的。

先RMSNorm,再attention,残差相加,然后再RMSNorm,MLP,再次残差相加。

class Block(nn.Module):
    def __init__(self, config: LLaMAConfig) -> None:
        super().__init__()
        self.rms_1 = RMSNorm(config.n_embd)
        self.attn = CausalSelfAttention(config)
        self.rms_2 = RMSNorm(config.n_embd)
        self.mlp = MLP(config)

    def forward(
        self,
        x: torch.Tensor,
        rope: RoPECache,
        mask: MaskCache,
        max_seq_length: int,
        input_pos: Optional[torch.Tensor] = None,
        kv_cache: Optional[KVCache] = None,
    ) -> Tuple[torch.Tensor, Optional[KVCache]]:
        h, new_kv_cache = self.attn(self.rms_1(x), rope, mask, max_seq_length, input_pos, kv_cache)
        x = x + h
        x = x + self.mlp(self.rms_2(x))
        return x, new_kv_cache

在attention部分中,q和k添加了rope。
使用了kv_cache,kv_cache的初始值都是 0,这里就需要把计算出的k 和 v copy到 kv_cache中对应的index位置。
在generate的for循环中,第一次输入全部的prompt,假设长度为 6;第二次只输入生成的token,长度为1,也就是说第二次以后,每次的x size都是(1,1,4096),因为之前的kv值都已经存在kv_cache中了。
如果input_pos >= max_seq_length,cache_k 和cache_v 就要左移,丢弃最早的kv值。

class CausalSelfAttention(nn.Module):
    def __init__(self, config: LLaMAConfig) -> None:
        super().__init__()
        assert config.n_embd % config.n_head == 0

        # key, query, value projections for all heads, but in a batch
        self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd, bias=False)
        # output projection
        self.c_proj = nn.Linear(config.n_embd, config.n_embd, bias=False)

        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.block_size = config.block_size

    def forward(
        self,
        x: torch.Tensor,
        rope: RoPECache,
        mask: MaskCache,
        max_seq_length: int,
        input_pos: Optional[torch.Tensor] = None,
        kv_cache: Optional[KVCache] = None,
    ) -> Tuple[torch.Tensor, Optional[KVCache]]:
        B, T, C = x.size()  # batch size, sequence length, embedding dimensionality (n_embd) #(1,6,4096)

        # calculate query, key, values for all heads in batch and move head forward to be the batch dim
        q, k, v = self.c_attn(x).split(self.n_embd, dim=2) #(1,6,4096)

        head_size = C // self.n_head #128
        k = k.view(B, T, self.n_head, head_size) #(1,6,32,128)
        q = q.view(B, T, self.n_head, head_size)
        v = v.view(B, T, self.n_head, head_size)

        q = apply_rope(q, rope)
        k = apply_rope(k, rope)

        k = k.transpose(1, 2)  # (B, nh, T, hs) (1,32,6,128)
        q = q.transpose(1, 2)  # (B, nh, T, hs)
        v = v.transpose(1, 2)  # (B, nh, T, hs)

        if kv_cache is not None:
            cache_k, cache_v = kv_cache #(1,32,56,128),(1,32,56,128)
            # check if reached token limit
            if input_pos[-1] >= max_seq_length:
                input_pos = torch.tensor(max_seq_length - 1, device=input_pos.device)
                # 左移,丢弃最早的kv值
                cache_k = torch.roll(cache_k, -1, dims=2)
                cache_v = torch.roll(cache_v, -1, dims=2)
            k = cache_k.index_copy(2, input_pos, k) #(1,32,56,128)
            v = cache_v.index_copy(2, input_pos, v) #(1,32,56,128)
            kv_cache = k, v

        # causal self-attention; Self-attend: (B, nh, T, hs) x (B, nh, hs, T) -> (B, nh, T, T)
        #  att = (q @ k.transpose(-2, -1)) * (1.0 / math.sqrt(k.size(-1)))
        #  att = att.masked_fill(mask[:,:,:T,:T] == 0, float('-inf'))
        #  att = F.softmax(att, dim=-1)
        #  y = att @ v # (B, nh, T, T) x (B, nh, T, hs) -> (B, nh, T, hs)
        
        #这里使用了kv_cache后,kv的shape和q不再相同,
        #(1,32,6,128),(1,32,56,128),(1,32,56,128) => (1,32,6,128)
        y = F.scaled_dot_product_attention(q, k, v, attn_mask=mask, dropout_p=0.0) 
        y = y.transpose(1, 2).contiguous().view(B, T, C)  # re-assemble all head outputs side by side #(1,6,4096)
        # output projection
        y = self.c_proj(y)
        return y, kv_cache

MLP使用了SwiGLU函数,n_hidden也是个奇怪的数。
Llama改进之——SwiGLU激活函数

class MLP(nn.Module):
    def __init__(self, config: LLaMAConfig) -> None:
        super().__init__()
        hidden_dim = 4 * config.n_embd
        n_hidden = int(2 * hidden_dim / 3)
        n_hidden = find_multiple(n_hidden, 256)

        self.c_fc1 = nn.Linear(config.n_embd, n_hidden, bias=False)
        self.c_fc2 = nn.Linear(config.n_embd, n_hidden, bias=False)
        self.c_proj = nn.Linear(n_hidden, config.n_embd, bias=False)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        x = F.silu(self.c_fc1(x)) * self.c_fc2(x)
        x = self.c_proj(x)
        return x

参考:
LLaMA的解读与其微调

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2075431.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

磁场强度H和磁感应强度B,磁化强度M和磁极化强度J

磁场强度H、磁感应强度B、磁化强度M和磁极化强度J是四个非常重要的磁学基本概念&#xff0c;他们之间关联但有时又很容易混淆。分清这四个概念对于磁材行业从业者是非常重要的&#xff0c;今天我们就为大家细说一下它们的概念和关系。 磁场强度H 磁场强度H其实是一个没有实际…

自动化巨头施耐德电气,部分业务被其供应商收购:之前还收购过霍尼韦尔

导语 大家好&#xff0c;我是社长&#xff0c;老K。专注分享智能制造和智能仓储物流等内容。 新书《智能物流系统构成与技术实践》 供应商逆袭&#xff1a;小鱼吃大鱼的商业奇迹 英国电气行业掀起一阵惊涛骇浪。斯塔福德郡的中型企业Goodfish Group竟然收购了全球巨头施耐德电气…

AppInventor2 现已全面支持安卓14!

//重磅升级&#xff1a;支持安卓14// MIT于2024/08/19升级Android SDK至34&#xff08;安卓14&#xff09;&#xff0c;因为在 2024 年 8 月 31 日之后&#xff0c;在 Google Play 商店中添加或更新应用时必须执行此更新。 国内估计也会跟进&#xff0c;因此使用最新版本的 s…

CleanMyMac如何帮助用户清空DNS缓存,Mac清除dns缓存命令

什么是DNS缓存&#xff1f;这个缓存有什么危害&#xff1f;相信大家平时使用浏览器时&#xff0c;有时候会遇到一个很奇怪的问题&#xff0c;就是Mac打开许多网站如百度网站&#xff0c;都是可以访问的&#xff0c;但是在打开某个特定网站时&#xff0c;却发现浏览器提示检测不…

网上商城|基于SprinBoot+vue的分布式架构网上商城系统(源码+数据库+文档)

分布式架构网上商城系统 目录 基于SprinBootvue的分布式架构网上商城系统 一、前言 二、系统设计 三、系统功能设计 5.1系统功能模块 5.2管理员功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 博主介绍…

Halcon根据灰度特征值选择区域

Halcon根据灰度特征值选择区域 与select_shape算子类似&#xff0c;灰度值图像也可以快捷地根据特征值选择符合设定条件的区域。select_gray算子用于实现这一功能&#xff0c;该算子能接受一组区域作为输入&#xff0c;然后根据选定的特征计算其是否满足特定的条件。当所有区域…

网络安全 DVWA通关指南 DVWA File Upload(文件上传)

DVWA File Upload&#xff08;文件上传&#xff09; 文章目录 DVWA File Upload&#xff08;文件上传&#xff09;修复建议 LowMediumHighImpossible 修复建议 1、使用白名单限制可以上传的文件扩展名 2、注意0x00截断攻击&#xff08;PHP更新到最新版本&#xff09; 3、对上传…

【系统安全】Kernel Streaming WOW Thunk 服务驱动程序特权提升漏洞(CVE-2024-38054)

文章目录 前言一、漏洞概述二、影响范围三、漏洞复现四、修复方法前言 安全研究员 “Frost” 发布了CVE-2024-38054漏洞的概念验证漏洞利用代码,这加剧了人们对最近修补的 Windows 安全漏洞的担忧。内核流 WOW Thunk 服务驱动程序中的这个高严重性漏洞可能使本地攻击者能够通…

【赵渝强老师】使用Docker Machine远程管理Docker

Docker Machine是Docker官方提供的一个远程管理工具。通过使用Docker Machine&#xff0c;可以帮助开发人员在远程主机上安装Docker&#xff1b;或者在远程的虚拟主机上直接安装虚拟机并在虚拟机中安装Docker。Docker Machine还提供了相应的命令来管理这些远程的Docker环境和虚…

四川财谷通信息技术有限公司引领新风尚

在数字经济蓬勃发展的今天&#xff0c;电子商务已成为推动经济增长的重要引擎之一。而在这股浪潮中&#xff0c;短视频平台抖音凭借其庞大的用户基数和高度活跃的社区氛围&#xff0c;为无数小微企业和个人创业者提供了前所未有的发展机遇。四川财谷通信息技术有限公司&#xf…

如何防止图纸外泄?图纸安全管理措施有哪些(必备清单)

当今数字化和信息化的时代&#xff0c;图纸作为企业设计、制造等环节中的重要资料&#xff0c;其安全性尤为重要。图纸的泄露不仅可能导致企业的技术秘密被竞争对手获取&#xff0c;还可能造成巨大的经济损失和法律纠纷。因此&#xff0c;建立健全的图纸安全管理措施是每个企业…

虚幻5|音效设置—环境音效,低血量和恢复血量音效,音效衰减,脚步音效

一&#xff0c;环境音效——学习使用SoundCue 1.打开主界面 拖入一个环境音效 2.选择一个音效&#xff0c;但这个音效围绕整个环境的&#xff0c;设置听听就行了 听完后删掉&#xff0c;我们要设置一个有一定范围的音效 3.找到存放音效的文件&#xff0c;创建一个音频SoundC…

【机器学习西瓜书学习笔记——强化学习】

机器学习西瓜书学习笔记【第十六章】 第十六章 强化学习16.1 任务与奖赏四种主要的机器学习方式马尔可夫决策过程 16.2 K K K-摇臂赌博机探索与利用$\epsilon $-贪心 S o f t m a x Softmax Softmax 16.3 有模型学习策略评估策略改进策略迭代与值迭代 16.4 免模型学习蒙特卡罗…

电商渠道有效的治理方法和流程

在当今消费模式不断推陈出新的时代&#xff0c;品牌为了紧跟市场潮流&#xff0c;持续拓展销售途径。从传统的电商平台到新兴的直播带货、社区团购以及到家服务平台&#xff0c;多样化的线上渠道为品牌销售开辟了广阔天地。然而&#xff0c;机遇与挑战总是相伴相生&#xff0c;…

开发者社区✖️外滩大会「创新者舞台」——《特斯拉,不止于车》

备受瞩目的“2024 Inclusion外滩大会”将于2024年9月5日至7日在上海黄浦世博园区盛大开幕。 外滩大会云集了蚂蚁集团、清华大学、复旦大学、上海交通大学、同济大学、浙江大学、上海报业集团、外滩投资集团等在学术界和产业界享有科技盛誉的组织。 大会将延续 “科技创造可持续…

合作文章(IF=7.7)|非靶+靶向+16S +RNA-Seq探究广东虫草对非酒精性脂肪肝的功效

研究背景 肥胖症的持续增长已成为一个全球性的公共卫生问题&#xff0c;世界卫生组织(WHO)报告称&#xff0c;全球超过八分之一的人患有肥胖症。目前&#xff0c;全球范围内代谢功能障碍相关脂肪性肝病(MASLD)&#xff0c;以前被称为非酒精性脂肪性肝病(NAFLD)&#xff0c;随着…

【CTF Reverse】CTFShow re2 Writeup(反编译+XOR+RC4)

re2 30 感谢W22提供的题目 工具 RC4 加密/解密 - 在线工具 https://www.toolhelper.cn/SymmetricEncryption/RC4 解法 解压压缩包。 txt 文件里是乱码。 exe 文件导入 DIE 分析。是一个 PE32 程序。 导入 IDA&#xff0c;按 F5 查看 main_0 函数伪代码。 int __cdecl main_…

基于imx6ull平台opencv的图像采集和显示屏LCD显示功能(不带Qt界面)

目录 一、概述二、环境要求2.1 硬件环境2.2 软件环境 三、开发流程3.1 编写测试3.2 验证功能 一、概述 本文档是针对imx6ull平台opencv的图像采集和显示屏LCD显示功能&#xff0c;opencv通过摄像头采集视频图像&#xff0c;将采集的视频图像送给显示屏LCD进行显示。 测试结果…

OpenFeign服务的接口调用

为了保障文章的流畅性&#xff08;文章穿插大量的环境搭建没意思&#xff0c;会干扰文章的主题&#xff0c;无聊的很&#xff09;&#xff0c;将环境的搭建与测试&#xff0c;工具的版本说明放了文末&#xff1a; 四、环境搭建。 一、概述 1.1、官网 Feign 是一个声明式 Web…

Linux系统——服务器长时间训练不间断指令(nohup的简单用法)

Linux服务器训练中nohup的用法 在模型训练过程中&#xff0c;许多人选择在服务器上运行代码&#xff0c;而大多数服务器运行在Linux环境下。通常情况下&#xff0c;我们可以直接在Linux终端中使用如下命令来启动训练代码&#xff08;以运行main.py为例&#xff09;。 python …