DeepSeek底层揭秘——《推理时Scaling方法》技术对比浅析

news2025/4/13 21:08:02
4月初,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。

笔者尝试对比了“关于推理时Scaling”与现有技术,粗浅分析如下:

与LoRA的对比

  • 区别
    • 应用场景:LoRA是一种参数高效微调方法,主要用于在训练阶段对模型进行微调,以适应特定的任务或数据集。而“推理时Scaling”主要关注推理阶段的性能提升,通过动态调整奖励机制来实现,不涉及模型参数的改变。
    • 优化目标:LoRA旨在通过引入低秩矩阵来近似模型参数的变化,从而减少训练时的计算量和内存占用。而“推理时Scaling”则侧重于在推理过程中,通过增加计算资源来提升模型的推理能力,如逻辑一致性和事实准确性。
  • 优势
    • 推理时Scaling:无需改变模型参数,避免了重新训练模型的高成本,同时能够在推理阶段灵活地提升模型性能。
    • LoRA:在训练阶段能够有效减少计算资源的消耗,适用于资源有限的情况下的模型微调。
  • 劣势
    • 推理时Scaling:可能需要在推理阶段投入更多的计算资源,导致推理延迟增加和计算成本上升。
    • LoRA:仅在训练阶段有效,对于已经训练好的模型,在推理阶段无法进一步提升性能。

与知识蒸馏的对比

  • 区别
    • 知识传递方式:知识蒸馏通过将大型教师模型的知识传递给小型学生模型,以提高学生模型的性能。而“推理时Scaling”不涉及模型间的知识传递,而是通过在推理过程中增加计算资源来提升同一模型的推理能力。
    • 模型规模变化:知识蒸馏通常会减小模型的规模,以提高推理效率。而“推理时Scaling”不改变模型的规模,只是在推理阶段动态调整计算资源。
  • 优势
    • 推理时Scaling:无需对模型进行重新训练或蒸馏,能够快速提升推理性能,适用于对模型规模有严格限制的场景。
    • 知识蒸馏:通过减小模型规模,降低了存储和计算成本,同时保留了教师模型的大部分性能,适用于资源受限的设备部署。
  • 劣势
    • 推理时Scaling:可能需要更多的计算资源,且性能提升的效果可能因任务和模型而异。
    • 知识蒸馏:蒸馏过程需要额外的训练成本,且蒸馏效果可能受到教师模型质量和蒸馏方法的影响。

与模型剪枝的对比

  • 区别
    • 模型结构改变:模型剪枝通过去除模型中的冗余参数或连接,减小模型规模,从而提高推理效率。而“推理时Scaling”不改变模型结构,只是在推理阶段动态调整计算资源。
    • 性能提升方式:模型剪枝通过优化模型结构来提升推理效率,但可能会降低模型的表达能力。而“推理时Scaling”通过增加计算资源来提升推理性能,不会影响模型的结构和表达能力。
  • 优势
    • 推理时Scaling:无需对模型进行结构修改,避免了剪枝可能导致的性能下降,同时能够灵活地根据推理需求调整计算资源。
    • 模型剪枝:能够显著减小模型规模,降低存储和计算成本,适用于对模型大小有严格限制的场景,如移动设备和嵌入式系统。
  • 劣势
    • 推理时Scaling:需要额外的计算资源,可能不适用于资源极度受限的环境。
    • 模型剪枝:剪枝过程可能导致模型性能的下降,且需要重新训练模型以恢复性能,增加了训练成本。

与动态Batch Size的对比

  • 区别
    • 资源调整方式:动态Batch Size通过在训练过程中根据计算资源和内存限制动态调整Batch Size,以提高训练效率。而“推理时Scaling”在推理阶段通过增加计算资源,如多次采样和并行采样,来提升推理性能。
    • 应用场景:动态Batch Size主要用于训练阶段的资源优化,而“推理时Scaling”专注于推理阶段的性能提升。
  • 优势
    • 推理时Scaling:能够在推理阶段灵活地利用计算资源,提升推理的准确性和效率,适用于对推理性能要求较高的场景。
    • 动态Batch Size:在训练阶段能够有效利用计算资源,提高训练速度和效率,适用于大规模模型的分布式训练。
  • 劣势
    • 推理时Scaling:可能增加推理延迟和计算成本,需要在性能提升和资源消耗之间进行权衡。
    • 动态Batch Size:仅在训练阶段有效,对推理阶段的性能提升没有直接帮助。

与模型并行的对比

  • 区别
    • 并行方式:模型并行通过将模型的不同部分分配到不同的计算设备上进行并行计算,以提高训练和推理速度。而“推理时Scaling”主要通过在推理过程中增加计算资源,如多次采样和并行采样,来提升推理性能。
    • 目标:模型并行侧重于提高模型的训练和推理速度,特别是在处理大规模模型时。而“推理时Scaling”侧重于提升推理阶段的性能,如逻辑一致性和事实准确性。
  • 优势
    • 推理时Scaling:无需对模型进行复杂的并行化处理,能够快速提升推理性能,适用于对模型并行化有困难的场景。
    • 模型并行:能够有效利用多个计算设备的资源,提高大规模模型的训练和推理速度,适用于需要快速处理大量数据的场景。
  • 劣势
    • 推理时Scaling:可能需要更多的计算资源,且性能提升的效果可能因任务和模型而异。
    • 模型并行:实现复杂,需要对模型进行仔细的划分和优化,且可能会引入通信开销,影响整体性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2331085.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android Coli 3 ImageView load two suit Bitmap thumb and formal,Kotlin(四)

Android Coli 3 ImageView load two suit Bitmap thumb and formal,Kotlin(四) 对 Android Coli 3 ImageView load two suit Bitmap thumb and formal,Kotlin(三)-CSDN博客 进行完善,注意完善 …

Adam优化器研究综述

摘要 Adam优化器(Adaptive Moment Estimation)是一种广泛应用于深度学习的优化算法,通过自适应学习率加速梯度下降过程。本文从Adam的定义、算法原理、优势与局限性、应用场景及变体等方面进行调研,结合学术文献和实践经验&#x…

在 macOS 上连接 PostgreSQL 数据库(pgAdmin、DBeaver)

在 macOS 上连接 PostgreSQL 数据库 pgAdmin 官方提供的图形化管理工具,支持 macOS。 下载地址:https://www.pgadmin.org/ pgAdmin 4 是对 pgAdmin 的完全重写,使用 Python、ReactJs 和 Javascript 构建。一个用 Electron 编写的桌面运行时…

2018年真题

数学基础 一、 (共4分)用逻辑符号表达下列语句(论域为包含一切事物的集合) 1、(2分)集合A的任一元素的元素都是A的元素 经过对图片文字的识别与逻辑分析,结果如下: 符号定义&…

Efficient Burst Raw Denoising:稳定噪声方差和分频率降噪

Efficient Burst Raw Denoising with Stabilization and Multi-Frequency Denoising Network Burst Raw Denoising必要性Burst Raw Image Denoising流程Main Contributions具体方法介绍集成noise priorCMOS sensor 噪声建模噪声变换(Variance stabilization&#xf…

mapbox进阶,使用本地dem数据,加载hillshade山体阴影图层

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:mapbox 从入门到精通 文章目录 一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️hillshade 山体阴影图层 api1.3.1 ☘️…

【C++】Stack Queue 仿函数

📝前言: 这篇文章我们来讲讲STL中的stack和queue。因为前面我们已经有了string、vector和list的学习基础,所以这篇文章主要关注一些stack和queue的细节问题,以及了解一下deque(缝合怪)和priority_queue &am…

代码随想录_单调栈

代码随想录_单调栈 739.每日温度 739. 每日温度 给定一个整数数组 temperatures ,表示每天的温度,返回一个数组 answer ,其中 answer[i] 是指对于第 i 天,下一个更高温度出现在几天后。如果气温在这之后都不会升高,…

BoostSearch搜索引擎项目 —— 测试用例设计 + web自动化测试代码

web自动化代码: https://gitee.com/chicken-c/boost-search/tree/master/AutoTest

【Ansible自动化运维】一、初步了解,开启自动化运维之旅

在当今数字化时代,随着企业 IT 基础设施规模的不断扩大,传统的手工运维方式逐渐显得力不从心。自动化运维技术应运而生,其中 Ansible 凭借其简洁易用、功能强大的特点,成为众多运维工程师和开发人员的首选工具。本篇文章将从基础概…

条件概率、概率乘法公式、全概率公式和贝叶斯 (Bayes) 公式

定义 设 P ( A ) > 0 P(A) > 0 P(A)>0,若在随机事件 A A A发生的条件下随机事件 B B B发生的概率记作 P ( B ∣ A ) P(B|A) P(B∣A),定义 P ( B ∣ A ) P ( A B ) P ( A ) P(B|A) \frac{P(AB)}{P(A)} P(B∣A)P(A)P(AB)​ 则称 P ( B ∣ A ) …

kotlin,Android,jetpack compose,日期时间设置

AI生成,调试出来学习,这些小组件会用了,就可以组合一个大点的程序了。 package com.example.mydatetimeimport android.app.AlertDialog import android.os.Bundle import androidx.activity.ComponentActivity import androidx.activity.co…

ASP.NET图书馆借阅系统(源码+lw+部署文档+讲解),源码可白嫖!

摘要 近些年来,随着科技的飞速发展,互联网的普及逐渐延伸到各行各业中,给人们生活带来了十分的便利,图书馆借阅系统利用计算机网络实现信息化管理,使图书信息、图书借阅、归还的管理发展和服务水平有显著提升。 本文拟…

vi/vim常用快捷键

那么今天我们继续昨天没有介绍完的vi编辑器,来看看常用的一些快捷键,方便我们对文件的编辑. 1.拷贝当前行yy,拷贝当前行向下的5行5yy,并粘贴(输入p) 2.删除当前行dd,删除当前行向下的5行5d 3.在文件中查找某个单词[命令模式/关键字,回车查找,输入n就是查找下一个] ⭐️&…

opencv无法设置禁用RGB转换问题

树莓派连接摄像头,摄像头输出格式为YUYV(YUV422)。 通过执行 v4l2-ctl --list-formats --device/dev/video0 可以看的具体的摄像头的数据格式。 使用opencv获取视频流,通过cap.set(cv2.CAP_PROP_CONVERT_RGB, 0)设置禁用自动转换RGB格式,但是打印输出…

MCP+Blender创建电力塔

MCP(Model Context Protocol)与Blender的结合是当前AI与3D建模领域的热门技术,它通过协议化的方式让Claude等AI模型直接控制Blender,实现自动化3D建模。 1. 功能与原理 • 核心能力:用户通过自然语言指令(…

Selenium自动化:玩转浏览器,搞定动态页面爬取

嘿,各位爬虫爱好者和自动化达人们!是不是经常遇到这种情况:信心满满地写好爬虫,requests一把梭,结果抓下来的HTML里,想要的数据空空如也?定睛一看,原来数据是靠JavaScript动态加载出…

QAI AppBuilder 快速上手(8): 图像修复应用实例2

LaMa-Dilated模型旨在通过扩张卷积技术实现高效的图像擦除和修复。该模型采用先进的卷积神经网络架构,能够处理复杂的图像输入,并填补图像中的缺失部分,使修复后的图像更加自然和逼真。LaMa-Dilated不仅在图像编辑领域表现出色,还…

【计网】作业4

一. 单选题(共22题,64分) 1. (单选题)主机甲采用停止-等待协议向主机乙发送数据,数据传输速率是4kb/s,单向传播时延为30ms,忽略确认帧的发送时延。当信道利用率等于80%时,数据帧的长度为&#…

MPDrive:利用基于标记的提示学习提高自动驾驶的空间理解能力

25年4月来自南方科技大学、百度、英国 KCL和琶洲实验室(广东 AI 和数字经济实验室)的论文“MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving”。 自动驾驶视觉问答(AD-VQA)…