大模型创业的3条军规

news2024/11/14 14:27:51

上周,一家初创公司未能围绕LLM和 RAG 开展业务,尽管他们获得了第一份 B2B 大型合同。 以下是原因以及如何避免这种情况:

创始人写了一篇博客解释了为什么他不得不关闭他的业务,我在这里总结了他的要点。

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包 

产品非常好。 那部分没问题。产品只是一个使用 GPT-4 回答用户查询的聊天应用程序。 但在回答之前,它会搜索数据库(文档、常见问题解答、产品等)并根据这些数据进行回答(是的,这只是 RAG)!

该初创公司的潜在客户旨在每月处理数十万次用户查询。 因此,这家初创公司评估了选择哪些模型。 GPT-4 为他们带来了最好的结果。 所以,创始人选择了GPT-4。

该初创公司没有选择其他开源替代方案,因为它们的测试不够好。 我不能完全同意这个结论,但对于他们的特定用例来说,这个结论很可能是正确的。 他一定处理过高度复杂的数据。 普通的开源LLM可能不适合他。

在这个阶段,这家初创公司面临着第一次现实检验。 财务现实检查。 GPT-4 太贵了!

对于每月数十万的用户查询来说,差异是每月巨大的 ChatGPT 账单。 锦上添花的是,似乎只有 GPT-4 适合这家初创公司的复杂用例。

因此,该公司很可能在评估成本提案后做出了让步。 简而言之,对于客户来说,花费巨额资金购买聊天机器人似乎不是一个可行的想法。

该初创公司未能达成合同并停止生产该产品。

故事结局。 继续阅读以获取故事链接!

但是,如果我处于他的立场并建立这家初创公司,我会记住以下 3 条规则:

1、保持对开源模型的信心

让我们一起 fork 并创造一些更加‘forktastic’的东西!

忘记 GPT-4 API,尤其是对于大量用户查询。 它只适合标记、测试和生成数据集进行微调,不能作为主模型。 技术上是最好的,但经济上不是最好的!

此外,对 Llama 2 这样的开源模型有信心。Anyscale 证明,经过微调的 Llama 2 模型在某些任务中可以优于 GPT-4。 测试您的问题并尝试看看您的微调模型是否也能优于 GPT 4! 请在此处阅读 Anyscale 的微调指南。

Llama-2 模型的性能增益是通过对每个任务进行微调而获得的。 每种颜色的较深阴影表示带有基线提示的 Llama-2-chat 模型的性能。 紫色显示 GPT-4 的性能,提示相同。 堆叠条形图显示了微调 Llama-2 基础模型所带来的性能增益。 在经过微调的函数表示和 SQL gen 任务中,我们可以获得比 GPT-4 更好的性能,而在数学推理等其他任务上,微调模型虽然在基础模型上有所改进,但仍然无法达到 GPT -4的性能水平。

另一方面,Anyscale 还证明,尽管两个模型的事实水平大致相同,但使用 GPT-4 进行汇总的成本仍然是 Llama-2-70b 成本的 30 倍。

为什么您对开源模型失去信心?

此外,Gradient AI 提出了一种新颖的解决方案。 这就是所谓的人工智能专家混合 (MoE) 方法! 那么它是什么。 它基本上是针对特定任务微调 Llama 2 7b 等开源模型。

例如,假设您将公司数据分为 4 类。 财务、工程、产品和运营。 现在,您可以针对 4 项任务微调 4 个模型。 每个模型都擅长完成自己的任务。

现在,当用户编写查询时,我们将尝试查找其类型。 例如,用户编写这样的查询 - 给我们推荐引擎产品的 H100 GPU 的估计数量。

最好的答案可能来自工程、产品或财务。 如果我们对前两个结果进行标准化,我们可以权衡 75% 工程和 25% 产品的答案。 我们可以通过合并这两个微调模型的响应来生成最终响应。

来源:https://gradient.ai/blog/the-next-million-ai-models

了解如何通过多个微调模型超越 GPT-4 模型。 初创公司也可以省钱。 如何?

GPT-4 的成本是 Llama-2–70b 的 18 倍! 如果我没记错的话,Llama-2–7b 比 GPT-4 便宜 30 倍。 提供 4 个经过微调的 Llama-7b 模型不会让您破产!

2、巨型人工智能模型的时代已经结束

GPT-4 可能是最后的重大进步!

这是萨姆·奥尔特曼说的,不是我说的。 Altman 的声明表明,GPT-4 可能是 OpenAI 使模型更大并为其提供更多数据的战略中出现的最后一个重大进步。

我先给大家讲一个故事。 在准备商学院入学考试时,我担心竞争。 我问老师,记住 GMAT 高频词汇表是否就足够了。 他说是的,但我还是担心。 如果考试中出现了不在列表中的困难词汇怎么办? 在这场竞争激烈的考试中,即使是一个分数也可能产生影响。

我的老师向我保证,说没有人能够回答这个问题。 他说我应该集中精力记住给定的高频词汇表,这就足够了。

我意识到我不能担心所有事情,所以我专注于我能控制的事情:记住一些高频 GMAT 词汇。 不试图记住一切。

我不怕练过一万种腿法的人,但我害怕一种腿法练过一万遍的人。-李小龙

顺便说一句,我认为李小龙练习了10,000种踢法10,000次! 不想再读文章了,那就看李小龙的视频吧

因此,当这位创始人因为 GPT-4 成本高昂而其他模型性能较差而关闭他的初创公司时,这个投资回报率问题对每个人来说都是真实的,而且是无法解决的。 所以,不用担心。 没有人能够达到那么高的准确性。 你应该专注于你所拥有的。

与大多数创始人一样,您没有资金或资源来自行微调并向数十万用户提供微调后的模型。

但我虔诚地相信一件事(同样是因为同样的财务现实)。

我相信未来不在于 1 万亿个参数,而在于开源 7B 模型!

看看 Mistral 7B 或 Llama 2 7B! 但不要总是选择最新模型。 因为新模型很可能经过专门训练,在基准数据上表现最佳,但在现实生活中表现不佳。 Mistral 7B 在基准测试中比 Llama 13B 表现更好,但如果你问我哪个模型更好,我会简单地告诉你在给出任何结论性意见之前先测试一下你的用例!

我不会责怪LLM模型创建的创始人。 有的VC认为雇9个妈妈1个月就可以生个孩子! 为了保持资金流动并在 1 个月而不是 9 个月内生出婴儿,创始人将生产一些基准崩溃的糟糕模型。 甚至有一篇有趣的论文证明选择性训练数据可以优于每个模型! 谨防。

不管怎样,我也给出了足够多的例子,证明经过微调的 Llama 2 模型可以超越 GPT 4。所以,尽情测试并选择最好的开源模型和 ROI!

最后,Huggingface CEO的一句话证明巨型AI模型的时代已经结束了!

你看,大公司在这方面都失败了!

3、高度重视 RAG 和提示微调

我相信未来主要是 RAG,而不是微调。 同样,因为同样的财务现实!

GPT 3.5 微调已于上个月推出。 GPT 4 也将很快提供同样的功能。 但我不相信他们实际上是根据你的数据进行微调。 在这种规模上这根本不可能。 他们可能正在使用一种称为提示调整的技术。

我们可以通过及时调整来完成此任务。 一篇名为“P-Tuning:Prompt Tuning Can Comparable to Fine-tuning Across Scales and Tasks”的论文向我们展示了这一点。 我认为 OpenAI 并没有分享他们的研究成果!

Finetune 或多或少与新的格式和响应风格有关。 微调意味着告诉 LLM 模型以某种方式行事或执行不同的任务,而不仅仅是成为一个多面手聊天机器人。

RAG 基本上是让LLM了解您的新数据。 (即财务统计数据)

因此,我再次确信大规模微调不是未来。 RAG、很少的镜头提示、思想链提示和提示调整是未来的趋势,因为它成本更低,复杂性也更低。 历史一再告诉我们,简单的想法总是获胜! 再看看这个世界。 所有伟大的想法和生意都很简单。

我们将看到 RAG 领域的彻底创新! 记住我的话! 这家初创公司采用 RAG 的方式在开源模型中取得了糟糕的结果,这表明他们可以做得更好。

关于 RAG 的最后一句话:

  • 使用 RAG 进行实验。 针对您的用例测试所有新颖的技术,例如 RAG Fusion。
  • 构建一个复杂的 RAG 系统,而不是一个简单的系统。 Llama Index 方法很棒,但也可以构建适合您自己的方法。 每次都重新发明它。 这是一个艺术问题,而不是一个科学问题。
  • 将所有语义搜索和领域知识投入其中。抛开 RAG 不谈,我在这里展示了理解语义搜索问题的重要性。

我甚至看到一位资深创始人在咆哮,他告诉你,你只需要RAG中的向量数据库。 如果图形数据库和关键字搜索足够结构化,有时可以产生更好的结果。 质疑现状。

4、结束语

是的,您可以围绕LLM建立可扩展且可行的业务。 大多数时候,都是大规模的。

GPT 4 是最好的,但它不可扩展或不可行。 因此,您正在尝试猜测撰写博客和数据透视的初创公司名称! 这是 Llamar.ai。 博客在这里:Llamar.ai:深入探讨 RAG 与LLM的可行性

我的看法是——可行多于不可行。 我希望其他初创公司能够通过构建可盈利且可扩展的人工智能产品来证明我是对的。


原文链接:大模型创业的3条军规 - BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1424249.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于VMware和Unbuntu18.04编译 嘉立创·泰山派 Linux SDK

主机硬件要求 内存最少32G 硬盘腾出200-500G,虽然编译最终占了73G,但富余一些以后可以搞别的方便 操作系统win7/10/11 VMware 安装 1.去vmware官网下载:https://customerconnect.vmware.com/cn/downloads/info/slug/desktop_end_user_comp…

docker安装elasticsearch+kibana

目录 1.安装es 2.安装kibana 3.kibana监控es 1.安装es 拉取镜像 docker pull elasticsearch:7.6.1 创建存放配置文件、数据、插件的各个文件夹 mkdir -p /home/docker/elasticsearch/config mkdir -p /home/docker/elasticsearch/data mkdir -p /home/docker/elasticsearch…

2024最新版MongoDB安装使用指南

2024最新版MongoDB安装使用指南 Installation and Usage Guide of the Latest MongoDB Community Edition in 2024 By JacksonML MongoDB is a document database with the scalability and flexibility that you want with the querying and indexing that you need. – mon…

网络异常案例三_RST

问题现象 在做功能测试的时候,经常看到设备离线的消息(MQTT遗嘱)。 在终端连接的网络设备上抓包分析,看到终端设备发起大量的RST请求。 151这个设备,7min,重置断开了8个TCP连接(mqtt连接&#…

Ansible自动化运维实战

一、abstract简介 ansible是新出现的自动化运维工具,基于Python开发,集合了众多运维工具(puppet、cfengine、chef、func、fabric) 的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能.无客户端。我们要学一些Ansible的安装和一些基…

地平线旭日 X3 VNC 远程桌面灰屏解决

解决 windows 使用 VNC 远程连接地平线旭日 X3 开发板桌面环境灰屏的问题。 1 查看问题 通过启动vncserver后的log文件确认问题。 启动 vnc 服务 vncserver :1通过 terminal 输出可以看到日志文件的存储位置 打开查看该文件后发现首当其冲是权限问题:说xstartup…

【spring】springcloud中的组件有那些?

🍎个人博客:个人主页 🏆个人专栏:spring ⛳️ 功不唐捐,玉汝于成 目录 正文 我的其他博客 正文 说出主要的组件: Spring Cloud Eureka,服务注册中心,特性有失效剔除、服务保护Spring Cloud Zuul,API服…

系统分析师-23年-下午题目

系统分析师-23年-下午题目 更多软考知识请访问 https://ruankao.blog.csdn.net/ 试题一必答,二、三、四、五题中任选两题作答 试题一 (25分) 说明 某软件公司拟开发一套汽车租赁系统,科学,安全和方便的管理租赁公司的各项业务&#xff0…

YOLOv7独家改进:上采样算子 | 超轻量高效动态上采样DySample,效果秒杀CAFFE,助力小目标检测

💡💡💡本文独家改进:一种超轻量高效动态上采样DySample, 具有更少的参数、FLOPs,效果秒杀CAFFE和YOLOv5网络中的nn.Upsample 💡💡💡在多个数据集下验证能够涨点,尤其在小目标检测领域涨点显著。 收录 YOLOv7原创自研 https://blog.csdn.net/m0_63774211/ca…

【每日一题】 2024年1月汇编

🔥博客主页: A_SHOWY🎥系列专栏:力扣刷题总结录 数据结构 云计算 数字图像处理 力扣每日一题_ 【1.4】2397.被列覆盖的最多行数 2397. 被列覆盖的最多行数https://leetcode.cn/problems/maximum-rows-covered-by-columns/ 这…

服务攻防-开发组件安全Solr搜索Shiro身份Log4j日志本地CVE环境复现

知识点: 1、J2EE-组件安全-Solr-全文搜索 2、J2EE-组件安全-Shiro-身份验证 3、J2EE-组件安全-Log4J-日志记录 章节点: 1、目标判断-端口扫描&组合判断&信息来源 2、安全问题-配置不当&CVE漏洞&弱口令爆破 3、复现对象-数据库&中间…

Qt 5.9.4 转 Qt 6.6.1 遇到的问题总结(三)

1.QSet: toList 中的toList 函数已不存在,遇到xx->toList改成直接用,如下: 2.开源QWT 图形库中QwtDial中的 setPenWidth 变成 setPenWidthF函数。 3.QDateTime 中无setTime_t 改为了setSecsSinceEpoch函数。 4.QRegExp 类已不存在 可以用Q…

STM32的中断系统详解

一、什么是中断 中断是指CPU在正常执行程序时,遇到外部/内部的紧急事件需处理,暂停当前程序的执行,转而去处理紧急事件,待事件处理完毕后,返回被打断的程序继续执行,这个过程就称之为中断。 中断的意义&a…

单片机驱动多个ds18b20

目录 1设计内容 2ds18b20介绍 2.1传感器引脚及原理图 2.2寄存器配置 3程序实现 3.1配置初始化 3.2配置寄存器 3.3ROM读取 3.4温度读取 1设计内容 通过51单片机,读取总线上挂载的多个ds18b20的温度信息。 如下图,成功读取到3路温度数据。 2ds18…

python打造光斑处理系统4:裁切光斑感兴趣区域

文章目录 图像裁切给定坐标裁切手动阈值裁切 光斑处理:python处理高斯光束的图像 光斑处理系统:程序框架🌟打开图像🌟参数对话框/伪彩映射 图像裁切 一般来说,光斑只占图像很小一部分,为了更好的观感和更…

Oracle 面试题 | 04.精选Oracle高频面试题

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

中国城市统计年鉴,多种数据格式可用,时间覆盖1995-2022年

基本信息. 数据名称: 中国城市统计年鉴 数据格式: pdf、jpg、excel、html不定 数据时间: 1995-2021不定 数据几何类型: 文本 数据坐标系: —— 数据来源:国家统计局 示例数据: 目录一、全国城市行政区划1-1 城市行政区划和区域分布1-2 分地区城市情况一…

隧道穿越:隧道穿透技术介绍

后面会进行一些隧道穿越的实验,因此在本篇中这里先介绍一些有关隧道穿越的技术知识点 隧道和隧道穿透 隧道是一种通过互联网基础设施在网络之间传递数据的方式,设计从数据封装、传输到解包的全过程,使用隧道传递的数据(或者负载…

存内计算——发展史与近期成果

存内计算的概念早在上个世纪就已经被提出,但当时的人们寄希望于通过优化处理器设计以及工艺制程的升级,来获得性能和能效比的提升,存内计算的研究仅停留在理论阶段。随着大数据时代的到来,存内计算由于其结构特点以及摩尔定律的“…