大模型时代,什么样的算法工程师更吃香?

news2024/9/19 9:38:47

毫无疑问,全栈型的算法工程师将更为抢手,如果你精通大模型从训练到应用的整个流程,你走到哪里都不怕。

但往往人的精力有限,如果从数据、预训练、微调、对齐、推理、应用几个方面来看的话,个人觉得现在重要性排序是“预训练>应用>数据>对齐>推理>微调”。

先说一下各个方向的特点,再说我为啥这么排序吧。纯个人看法,不喜勿喷,交流欢迎讨论。

数据方面

不可否认的一点,现在很多算法工程师,都可以称为数据工程师,在模型调优的绝大时间里,其实90%甚至更多的时间,都在做数据相关的工作,无论是数据爬取、数据构造,还是数据清洗、数据混合。

“garbage in, garbage out”也是业界公认,数据的质量和数据量决定着模型的效果。这也是为什么都是基于llama的模型,都用lora方法训练,用的都是llama-factory的代码,但你的模型效果不行的原因,很多时候是数据层面的因素,可能是你的数据并没有很好的激发出模型本身的性能,也可能是给模型灌入的知识质量很差。

对于数据方面,已经有很多工作,但哪些有效,哪些适合你自己的场景,对于你自己的场景是否有更好地数据构造、清洗方法,都是算法工程师要考虑的事情。

现在合成数据也变成了大模型可以走更远的基础,无论是Llama3.1,还是Qwen2系列模型,都用了很多合成数据,并且各细分领域的合成数据也可以更好的激发模型效果(Qwen2-Math)。

预训练方面

大模型时代可以做真正做预训练的企业非常少,做该部分工作的算法工程师也就更少。(当然用20B Token数据,对1B参数模型预训练,咱不算哈,别杠~)

真正对千万级别参数大模型进行几甚至十几T tokens进行预训练的,对机器要求很高。在多机之间通信过程中,会存在很多问题,训练过程中也会出现很多问题,那么如何解决这些问题,是十分宝贵的经验。毕竟Llama3.1 450B预训练阶段54天也是断了466次。

由于真正有机会做这些的人少之又少,所有该部分算法工程师很宝贵,毕竟物以稀为贵。如果有了这些人,也许可以少走很多坑,或者说可以更快的训练出大模型。

当然除了从头预训练还有一些增量预训练,虽然资源消耗没用那么明显,但超大模型的全量参数训练,依然需要考虑性能、成本的因素。

说白了,就是你最多用过多少张卡,训练优没优化相关性能。

微调方面

现在网上开源项目很多,微调基本上已经成为了有手就行。把数据准备好,环境准备好,甚至可以web-ui一键训练。全参、lora、qlora等等方法已经成为了很多项目的标配。

可能当你任务有特殊要求时,会简单修改一些dataloader部分,trainer、deepspeed基本就是config参数配置,改改学习率,改改轮数,然后bash train.sh。

现在基本上在面试实习生的时候,人手标配,微调过xxxx模型,然后细节一概不知,反正就是跑起来了,一问效果就是感觉好了一些。

但模型调的好不好,还是看人。

对齐方面

无论是人类偏好对齐,还是安全性对齐,对于ToC端大模型是必要的,这样可以大幅度提高模型的友好性。对齐过程也是坑比较多,有时模型对着对着,就炸了,开始不说人话了。

llama2是根据多种reward模型进行rlhf对齐,现在也有很多简单高效的对齐方法,比如DPO、ORPO等,但实际训练过程中也是一言难尽,需要深入研究。反正我对齐不好,就是怪数据不行。

但对于ToB端来说,貌似对齐的意义不大,因为很大程度上,大模型已经被限制了仅在固定场景中使用,或者即使内部出现不安全问题,也不会引发公众影响,ToB更关心的是效果。

那么就看你司业务主攻方向了。

推理方面

大模型参数太大了,对于推理资源的消耗是巨大的,因此加速大模型推理速度、减少大模型推理资源是十分重要的。

随着时代的发展,相信以后端侧大模型会越来越多,直接把大模型部署在手机上,有效解决推理资源的问题;并且现在很多模型都支持100K以上的Token,如何提升用户体验、减少自己的硬件资源消耗,是至关重要的。

现在推理加速框架也是很多,例如:vllm、fastllm、llamacpp等等,但很多大厂有自己更好的一套,比较轮子不能白造。

对于99%的公司来说,vllm、llamacpp真就够了。当然只是我个人片面的想法,很多时候研究半天,不如等vllm更新一波。

不过前一阵子月之暗面的大模型推理论文确实值得一读,《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》。

应用方面

大模型最简单的形态是以Chat形式展现,但可以有更好的产品形态,让用户在某些场景可以更好地利用大模型的能力,来解决核心问题。那么就需要将大模型包装成一个好的产品,需要更好地激发大模型能力。

当然真正做应用的,并不是说调调prompt、few-shot一下就完事儿了,这里是只需要考虑如何将复杂问题进行拆分,当一些模型能力不足时如何利用其他手段进行兜底。

当然很多做应用的还需要少量的模型微调,甚至要灵活运用之前的小模型,以满足产品对应的要求。

写在最后

上面在说各个方面特点的时候,你应该就可能知道我为啥觉得“预训练>>应用数据>对齐>推理>微调”了。

因为掌握预训练的人才较少,毕竟物以稀为贵;而数据由是大模型的重点,毕竟有多少数据就有多少智能嘛;对齐主要是很多场景真没必要,毕竟我是做ToB较多,认知也许比较狭隘了;推理其实主要是很多开源框架已经支持的很好了,感觉对于很多厂商来说也许开源就够用了;微调到现在这个阶段,真快成为了有手就行;各大公司已经不在无脑砸钱做底层训练,大模型应用落地、变现是现在的重点。

当然,将技术这么区分是很极端的,很多时候技术也确实是交叉的。大模型时代技术更新也是十分迅速,2023年初的时候,真不敢想象各大公司追赶CloseAI的速度会这么快。

每天读不完的论文,看不完的爆炸消息,以至于很多人对很多LLM的内容已经脱敏了。

但学就完事儿了~

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2069680.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python测试框架之Pytest

初识Pytest Pytest1.Pytest的特点:2.Pytest的基本使用规则3.pytest安装1)使用编译器安装2)使用命令安装 4.pytest规则 Pytest Pytest是python的一个第三方单元测试库,它的目的是让单元测试变得容易,并且也能扩展到支持…

同一个wifi不同电脑ip一样吗?网络ip地址怎么修改

‌在数字化时代,Wi-Fi已成为我们日常生活与工作中不可或缺的一部分,它让多台设备能够轻松接入互联网,实现信息共享与数据传输。然而,你是否曾好奇过,在同一个Wi-Fi网络下,不同电脑的IP地址是否会不一样&…

10个Python自动化日常任务实战脚本示例

小编准备入门了Python入门学习籽料80个Python入门实例 点击 领取(无偿获得) 1. 自动备份文件夹 目标 : 每天自动将指定文件夹的内容备份到另一个位置。 import shutil import datetime def backup_files(source, destination): """…

DevEcoStudio创建的默认工程HelloWorld build失败请问如何解决?

解决方法: 方法一: 方法二: 确认当前登录的windows用户是否是Administrator,出现这种情况,大概率都是普通用户,所以造成权限不足的问题。一种解决办法是切换到Administrator用户再打开项目进行build。 如…

已拿证 | 2024深圳驾考科目四全攻略:技巧、知识点一网打尽

目录 _head 精简500题 区分变道和左转,变道手下垂,左转手伸直 紧急包扎需要柔软介质 网状线内禁止停车 会车千万不能开远光灯 只准直行 城3公4 城5公7 一急二反三连续 落水救援 驾驶陋习 车到路肩人在外 交警先看脸!&#xff01…

Redis保姆级安装教程

下载:https://github.com/redis-windows/redis-windows/releases 然后就慢慢等待 下载完解压,打开 以管理员身份运行,这里一直按回车就可以了 复制路径 这里勾错了,是编辑 修改配置文件redis.conf 加这一行 以管理员身份运行cmd,输入redis-cli 在输入ping 再输入info 这样就完…

IP-RDS-222、IP-PRZ-59-AM12、EG-TRZ-42-L、EG-TRZ-42-H比例减压阀放大器

IP-DAR-250、IP-DAR-43C-L、IP-DAR-43C-H、IP-RDS-222、IP-PRZ-59-AM12、EG-TRZ-42-L、EG-TRZ-42-H比例减压阀 EE-PRB、EE-PRD比例压力阀 EE-P2G、ET-P2S、EB-P2A、EE-P2A、ET-P2A、EE-P2H、EG-F2A、EU-F2A比例流量阀 EF-F3G、EU-F3G比例压力补偿流量阀 EQ-S4M、EG-S4M、EQ…

【JAVA CORE_API】Day21 Map接口、在线聊天室v3.0、Java的反射机制(P1)

Map接口 Map接口 Map是Java中用于存储键值对(key-value pairs)的接口,每个键(key)对应一个值(value)。它不允许重复的键,但允许不同的键映射相同的值。 关键特点: 键值…

Linux 可视化管理工具:宝塔面板(BT)

😀前言 在 Linux 系统的运维管理中,命令行界面(CLI)是主要的操作方式。然而,对于许多系统管理员或开发者来说,使用 CLI 进行管理和维护任务并不总是最直观或最方便的方式。为了简化操作并提高效率&#xff…

【注解】反序列化时匹配多个 JSON 属性名 @JsonAlias 详解

JsonAlias 注解是 Jackson 提供的一个功能强大的注解,允许一个字段在反序列化时匹配多个 JSON 属性名。它适用于在处理多种输入数据格式时,或当 JSON 数据的键名可能变化时。 一、JsonAlias 的作用 多种别名:JsonAlias 允许你为一个字段定义…

利用深度学习技术来实现街景图像的语义分割(街景图像语义分割)

本项目致力于利用深度学习技术来实现街景图像的语义分割。通过精确地识别和分类图像中的每个像素,该技术能够自动划分出街道、人行道、车辆、行人等各种不同的物体类别。这在智能交通系统、自动驾驶、城市规划等领域有着广泛的应用前景。 技术实现 深度学习模型&am…

网站上线流程完全手册:域名、服务器与CDN

网站上线的核心要点 需要买域名 域名备案(国内) 买服务器 把服务器IP和域名(网址)绑定 把本地网站代码文件上传到服务器上 我来先来了解下以上的概念 域名介绍 域名是网站的地址,类似于你的家在街上的位置。它让人们通过简单的名字(如 www.baidu.…

大模型时代的AI应用开发,可以不用,但必须会

成熟的“格子衫”和年轻的“脸庞”,与开发者有关的大会总是少不了这两种元素,Create 2024百度AI开发者大会也不例外。 过去几十年,层出不穷的编程语言、框架等新技术,把一代又一代年轻的脸庞,塑造为成熟的格子衫&…

网络安全威胁2024年中报告

近日,奇安信威胁情报中心发布《网络安全威胁2024年中报告》,内容涵盖高级持续性威胁(APT)、勒索软件、互联网黑产、漏洞利用等几方面。 APT攻击活动:2024 年上半年,APT 攻击主要集中在信息技术、政府、科研…

设计模式笔记07(java版)

文章目录 迭代器模式定义结构优缺点使用场景迭代器模式在JDK源码中的使用 访问者模式定义结构案例实现优缺点使用场景扩展1. 分派:2. 动态分派:3. 静态分派:4. 双分派: 备忘录模式概述定义结构“黑箱”备忘录模式优缺点使用场景 解…

递归神经网络 (RNN) 简介

文章目录 一、介绍二、什么是递归神经网络 (RNN)?三、展开递归神经网络四、训练递归神经网络五、RNN 的类型六、现实生活中的 RNN 用例七、RNN 的两个主要限制八、RNN的变体8.1 双向递归神经网络 (BRNN)8.2 长短期记忆…

色彩的含义和使用色彩象征的艺术

无论你走到哪里,你都能看到颜色:天空中的白云,绿色的植被逐渐上升,灰色的石头结构和红砖建筑,在你脚下磨砺着棕色的土壤。你不只是看到这些颜色......你感觉到它们。 一,颜色的含义从何而来? 熟…

华为OD算法题整理目录

目录 专栏导读华为OD机试算法题太多了,知识点繁杂,如何刷题更有效率呢? 一、逻辑分析二、数据结构1、线性表① 数组② 双指针 2、map与list3、队列4、链表5、栈6、滑动窗口7、二叉树8、并查集9、矩阵 三、算法1、基础算法① 贪心思维② 二分查…

面试搜狐大模型算法工程师,体验真棒!!!

搜狐大模型算法工程师面试题 应聘岗位:搜狐大模型算法工程师 面试轮数: 整体面试感觉:偏简单 面试过程回顾 1. 自我介绍 在自我介绍环节,我清晰地阐述了个人基本信息、教育背景、工作经历和技能特长,展示了自信和沟通…

代码随想录算法训练营第 53 天 |卡码网110.字符串接龙 卡码网105.有向图的完全可达性 卡码网106.岛屿的周长

代码随想录算法训练营 Day53 代码随想录算法训练营第 53 天 |卡码网110.字符串接龙 卡码网105.有向图的完全可达性 卡码网106.岛屿的周长 目录 代码随想录算法训练营前言卡码网110.字符串接龙卡码网105.有向图的完全可达性卡码网106.岛屿的周长 一、卡码网110.字符串接龙1.题…