从业务到数据,大模型应用成功的再思考!

news2024/12/23 13:16:48

自2022年底OpenAI发布ChatGPT以来,大模型在企业的应用方兴未艾。

大模型必须要结合落地应用,才算是长出手跟脚,真正应用于实际业务场景的解决方案中,配合“大脑”完成任务。从医疗诊断到自动驾驶,从个性化营销到智能客服,大模型应用正在将AI的强大潜力转化为现实世界中的实用工具。它们通过微调、集成和行业定制,让AI技术能够精准赋能于企业的具体业务需求。

作为一名数据团队的管理者,已经带着团队入局大模型一年有余,相信很多数据团队也在进行大模型应用的尝试。数据团队搞大模型,挑战还是很大的,我这里主要谈谈自己团队当前面临的挑战,同时也谈谈初步的解决思路,供大家参考。

PART 0 1

想清楚why和what,寻找最合适的,最细分的业务场景。

企业搞大模型,应用为王,这是业界的共识。但很多想搞大模型的团队,其实是缺乏业务场景的。比如数据团队相对于CRM、ERP、人力、财务、综合办公、客户服务等业务团队,那应用场景就少太多了。

当然对于数据团队来讲,数据管理、数据分析本身也算是一种业务,因此ChatBI、ChatSQL等都是可以尝试的方向。

但即使有了方向,也一定要想清楚在哪个合适的业务场景进行切入。我曾经想象老板使用ChatBI的场景,比如对着APP说“我要看下近三个月的欠费指标“,但老板这种自助要指标的场景实际是不存在的。

很多研究ChatSQL的数据团队设想的场景是业务人员嘴巴一说,SQL就写好了,然后取数和报表呈上来了,然后大家就解放了。

我对项目经理说:“你到实际一线调研看看,这是真实的场景,还是你想象出来的需求?”

项目经理回来告诉我某个地市某渠道人员有这个需求,我说有几个人有?现在的支撑流程有很大问题吗?人家提个需求给IT也很方便,为啥要自己动手?然后…。

20年前,老外就开始提BI这个概念,20年过后,我们的BI用的很好吗?也许老外喜欢自己DIY数据,但国内大多数企业不是这样的,这里面有机制和文化的原因。因此还是要实事求是,因地制宜,不要脑补需求。

有人讲,我们可以培养用户习惯啊。但是这需要公司老板的支持,还要很多的运营资源,不到必要时,谁愿意改变工作习惯呢?因此一定要慎重,毕竟咱们不是乔布斯。

我并不否认数据团队要往ChatBI、ChatSQL这些方向努力,但一定要分析清楚公司什么样的角色,针对哪些特定的报表、指标、取数场景, 有简单的、高频的这类分析需求,比如为某类渠道人员提供灵活的特定考核指标的生成能力,鉴于受限的开源大模型能力,场景的选择还要越细越好,因为简单能降低对技术的要求。

因此,对于各种“ALL IN AI”的说法,大家看看就好,回到企业,还是要“业务为王,场景细分,谨慎入局”。

【一一AGI大模型学习 所有资源获取处一一】

①人工智能/大模型学习路线

②AI产品经理入门指南

③大模型方向必读书籍PDF版

④超详细海量大模型实战项目

⑤LLM大模型系统学习教程

⑥640套-AI大模型报告合集

⑦从0-1入门大模型教程视频

⑧AGI大模型技术公开课名额

PART 0 2

想清楚who来做,大模型应用的成功概率与业务参与度成正比。

就像大数据刚起来的时候一样,当前技术人员是最有激情去做大模型应用的,现在各种技术大佬都在宣传大模型,畅谈对大模型的看法,感觉大模型就是技术界的盛宴。

但普通企业做大模型应用,还是要回归商业本质,就是为了赚钱或者提升效率,因此,一定是要让懂业务的人员来进行方向的把控和场景的选择。

例如,我们做了数据目录元数据自动生成的“智典”大模型应用,效果还是不错的。其实我就是这个大模型应用的首席产品经理,因为我做了20年的数据管理和治理,我对这个业务场景有足够的发言权,比如我知道数据目录元数据的问题在哪里,原始的语料够不够用,对误判率的容忍度有多高,做出来的东西最低限度可以用在哪个环节等等。

例如,针对报表取数这种场景,一定是前端人员(比如需求管理员)走在最前面, 应该由他们担任产品经理,不懂大模型也不要紧,在干中学就可以了。考虑到大家平时忙于日常事务,组织可能还需要做出岗位和职责的调整。

但光有懂业务的人员,没有数据团队的支持也不行,因此一定要做好业务团队和数据团队的协同,组建跨专业的项目团队是一种可行的方式。

我正好同时管理着管信和数据两只团队,因此在chatoa、公文核稿这类大模型的应用场景上做了深度融合的尝试。管信团队由于对人力、财务、办公、供应链等业务非常熟悉,因此由其做产品经理是非常适合的,数据团队的人员则负责语料和建模,这样可以发挥各自所长。

组织架构决定系统架构,我们的第一个成功的大模型应用”智能核稿“就是两者成功合作的产物,有条件的企业如想搞大模型,一定要想清楚如何优化组织架构以适配新的生产力的要求。面对这一波生产力革命,组织一定要进行变革。

可以这么说,一个企业搞大模型应用成功的概率,与这个企业当前调动了多少业务力量成正比,与业务和数据协同的深度成正比。 没有多少前端人员参与的各种大模型应用,几乎都会失败,我承认技术人员在面对一项新技术时会更加敏感,也更富激情,但这些都不足以让其在业务上获得成功。

现在很多大模型应用卡在技术上,大家都觉得技术很重要,这一点我也承认,但技术到了一定的水平后,需要转化为业务问题来解决。比如幻象问题本身就是AIGC的一个特征,在解决到一定程度后,我们能做的,就是基于特定的业务场景解决特定的幻象问题,而这个也完全依赖场景的选择和业务对幻象问题的接受度。

PART 0 3

就是想清楚how,而语料是企业大模型应用成功的决定因素

大家都知道要做大模型,场景+算力+算法+数据缺一不可,当然很多人会说平台和工具也很重要,但考虑到当前大多数企业都在从0到1做大模型应用,离规模化还为时尚早,因此,诸如MaaS这种平台当前建设或购买的必要性还不是很大,至少迫切性不是那么高。

那么,除了前面说到的场景,算力+算法+数据这三者,哪个是企业大模型应用成功的决定性因素呢?

算力显然不是,当前有智算的企业的确抢了先机,但毕竟智算还是能买到,或者至少慢慢大家都会有,随着量化等算法的推出,也许100亿参数对企业大模型就足够了。

算法在机器学习时代可能大家差距很大,但到了深度学习阶段变小了,而到了大模型阶段,基础大模型和开源大模型让大家在算法上的差距抹的更平了,基础大模型成为社会的基础设施是必然的趋势,就像水电煤一样。

现在各类基础大模型你方唱罢我登场,大家其实都是为了争取生态位置,跟大多数企业没啥关系,基础大模型成为不了企业大模型的竞争力,你要做的就是做好测试选择,不同的基础大模型在不同业务场景的表现可能天差地别。

最后决定企业大模型成功的关键因素,其实是语料+微调能力,微调能力随着各种平台工具的推出,门槛会越来越低,直到大家都差不多,预计这种平台马上会成为红海,当前现在还是比较稀缺的。

只有语料,是所有通用基础设施都提供不了的,它是企业特有的生产资料,这种特有的生产资料创造了特有的生产力,体现了企业领域大模型独一无二的价值。

但现实情况是,大多企业并没有做好自身语料的准备工作,未来越来越多的企业会深陷“巧妇难为无米之炊”的困境,根本原因是数字化水平低了,或者数据治理能力不够,这将极大限制企业大模型的应用拓展和深化。

首先,AIGC需要的语料大多是非结构化数据,但大多企业对非结构化数据的的管理能力非常薄弱,大量的非结构化的日志数据没有保留,大量的文档数据散落在各个系统。

比如我们团队虽然已经做了多年的数据治理,但也仅仅是把结构化数据管好了,但非结构数据的记录、采集、解析还处于刚起步的阶段,我想大多数企业的大模型团队都会有“数到用时方恨少”的感叹。

其次,大量的业务系统都是匆忙上马,关于业务系统本身的元数据信息极度缺乏,没有任何Chat的基础,准备语料的工作繁杂而艰巨,而由草台班子构建起来语料准备团队很难保证数据的质量,而低质量的语料又很容易导致很差的微调效果。

对于大多数企业来讲,这是一个大模型语料数据极度匮乏的时代,我们以前以为把系统和应用文档写好了聊胜于无,大家都是实用主义,急着上线,现在发现原来它们是全面智能化的基础。

举个例子:

我们想做个管信系统的应用导航功能,发现管信对各类应用系统的描述信息非常少,比如商旅100是公司订酒店和机票的系统,但没有足够的元数据信息,当用户在大模型上输入”订酒店“想找到商旅100这个应用时,大模型就推理不出来了。

为了做这个应用,我们只能重新去梳理和完善每个应用的元数据描述信息,其工作量很大,难度很高。因为公司的应用太多了,我们几乎不可能调动公司这么多资源去梳理这些语料,目的就是为了一个导航功能,因此很多大模型应用的想法很好,但实际上落地的代价极大。

最后,语料的梳理和完善是个苦活累活,现在非结构数据的管理还是个技术活,企业如果没点基本的数据治理能力和技术能力,门槛还是挺高的。当初我们做错别字大模型的时候,为了高质量语料处理了上万的文档,足足花了几个月时间,效率还是很低的。我们并没有为语料准好准备,每次大模型应用在数据准备上的代价太大了。

李彦宏说出了未来应用都可以用大模型重构一遍的论断,意味着企业所有的应用的数据采集模式需要重构一遍,未来数据治理的要求会贯穿在任何一个应用的构建过程中,不留存数据不允许应用上线还真的成为了可能,这凸显了企业数据治理的巨大价值。

大模型时代,数据团队最重要的一个工作,就是把公司的大模型数据集供给体系建立起来,这一定是大模型应用的最重要的基础,而有没有足够的语料,将成为企业评判是否要上马一个大模型应用的黄金标准,数据团队真的是三生有幸,每10年都碰到一次建功立业的机会。

在大模型应用上,想清楚为什么做,做什么,由谁来做,怎么提供生产资料,这是大模型应用建设的大道,这些工作,大多时候比攻克一个技术难题重要的多。

Be different, not better,希望于你有所启示!

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解
  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
      - L1.4.1 知识大模型
      - L1.4.2 生产大模型
      - L1.4.3 模型工程方法论
      - L1.4.4 模型工程实践
    • L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
      - L2.1.1 OpenAI API接口
      - L2.1.2 Python接口接入
      - L2.1.3 BOT工具类框架
      - L2.1.4 代码示例
    • L2.2 Prompt框架
      - L2.2.1 什么是Prompt
      - L2.2.2 Prompt框架应用现状
      - L2.2.3 基于GPTAS的Prompt框架
      - L2.2.4 Prompt框架与Thought
      - L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
      - L2.3.1 流水线工程的概念
      - L2.3.2 流水线工程的优点
      - L2.3.3 流水线工程的应用
    • L2.4 总结与展望
阶段3:AI大模型应用架构实践
  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
      - L3.1.1 Agent模型框架的设计理念
      - L3.1.2 Agent模型框架的核心组件
      - L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
      - L3.2.1 MetaGPT的基本概念
      - L3.2.2 MetaGPT的工作原理
      - L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
      - L3.3.1 ChatGLM的特点
      - L3.3.2 ChatGLM的开发环境
      - L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
      - L3.4.1 LLAMA的特点
      - L3.4.2 LLAMA的开发环境
      - L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景
学习计划:
  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1945610.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构重置版(概念篇)

本篇文章是对数据结构的重置,且只涉及概念 顺序表与链表的区别 不同点 顺序表 链表 存储空间上 物理上一定连续 逻辑上连续,但物理上不一定连续…

【办公软件】Office 2019以上版本PPT 做平滑切换

Office2019以上版本可以在切页面时做平滑切换,做到一些简单的动画效果。如下在快捷菜单栏中的切换里选择平滑。 比如,在两页PPT中,使用同一个形状对象,修改了大小和颜色。 选择切换为平滑后,可以完成如下的动画显示。 …

milvus的collection操作

milvus的collection操作 创建collection import uuidfrom pymilvus import (connections,FieldSchema, CollectionSchema, DataType,Collection, )collection_name "hello_milvus" host "192.168.230.71" port 19530 username "" password…

JavaScript:数组排序(冒泡排序)

目录 一、数组排序 二、sort()方法 1、基本语法 2、默认排序 3、自定义排序 三、冒泡排序 1、基本概念 2、实现步骤 3、过程解析 4、代码示例 5、时间复杂度 一、数组排序 对一个给定数组进行处理,使其从无序变为有序,这个过程就是数组排序&…

Python文件打包exe文件

作者的一点话 你是否还在为py文件无法像其他可视化项目展示出来,制造图形界面的移动使用,那接下来我会与你一同使用它,并进行study,如有困惑,可随时联系。 然后,需要使用pysimplgui,如果…

Vue3+.NET6前后端分离式管理后台实战(三十一)

1,Vue3.NET6前后端分离式管理后台实战(三十一)

数据开发/数仓工程师上手指南(一)数仓概念总览

前言 笔者毕业最开始从事的就是大数据开发和数据仓库建设工作,途中曾担任过人工智能工程师和计算机视觉工程师,没想到最后兜兜转转还是回到了最原本的工作数据开发工程师。但很少有写关于本职工作的技术内容输出。 之前笔者撰文内容大部分都是关于算法…

Spring Boot集成screw实现数据库文档生成

1.什么是screw? 在企业级开发中、我们经常会有编写数据库表结构文档的时间付出,从业以来,待过几家企业,关于数据库表结构文档状态:要么没有、要么有、但都是手写、后期运维开发,需要手动进行维护到文档中&…

Postman接口测试工具的使用

一、postman简介 Postman是一款功能强大的网页调试与发送网页HTTP请求的Chrome插件。作用:常用于进行接口测试。不需要安装。 特征:简单,实用,美观,大方。 二、Postman接口测试工具的使用 Postman不需要安…

qt 自定义样式 switch开关,已解决

在日常需求中,需要对功能增加一个开关,因此做了简单封装。结果能正常使用。自定义信号接收! 实现 QWidget* switchBtn new CCendSwitchWidget(btn_value);connect(switchBtn, SIGNAL(clicked(bool,QString)), this, SLOT(clickedSlot(bool,…

【吊打面试官系列-ZooKeeper面试题】Zookeeper 的典型应用场景

​大家好,我是锋哥。今天分享关于 【Zookeeper 的典型应用场景 】面试题,希望对大家有帮助; Zookeeper 的典型应用场景 Zookeeper 是一个典型的发布/订阅模式的分布式数据管理与协调框架,开发人员可以使用它来进行分布式数据的发布…

Zabbix监控应用

目录 一.监控tomcat 二.Zabbix监控TCP 三.zabbix监控nginx 四.snmp监控 五.监控web 六.聚合图形 一.监控tomcat 1.在tomcat服务器上安装zabbix-agent服务 [rootnode2 etc]#vim zabbix_agentd.conf 94 Server192.168.240.13 #指向当前zabbix server ##### Passive chec…

Web 性能入门指南-3.5 优化单页应用程序 (SPA)

🌸 欢迎来到前端后花园!这里是一个温馨的小角落,专为热爱前端技术的你打造。没有华丽的辞藻,只有真诚的分享。希望你能在这里找到实用的内容,学到新知识,同时也欢迎你畅所欲言,分享你的思考和见…

【Linux学习 | 第1篇】Linux介绍+安装

文章目录 Linux1. Linux简介1.1 不同操作系统1.2 Linux系统版本 2. Linux安装2.1 安装方式2.2 网卡设置2.3 安装SSH连接工具2.4 Linux和Windows目录结构对比 Linux 1. Linux简介 1.1 不同操作系统 桌面操作系统 Windows (用户数量最多)MacOS ( 操作体验好,办公人…

jenkins替换配置文件

1.点击首页的【Manage Jenkins】-【Manage Plugins】,在选项【Available plugins】安装 Config File Provider Plugin ,安装后重启jenkins 2.安装完成后会有这个图标,点进去 3.点击新建,选择自定义,填入要替换的文件…

C语言 | Leetcode C语言题解之第268题丢失的数字

题目&#xff1a; 题解&#xff1a; /* 求和运算 */ /* 对[0,n]求和, 减去数组每个元素, 得出丢失的元素 */ int missingNumber(int* nums, int numsSize){int i;int sum numsSize;for (i 0; i < numsSize; i) {sum i - nums[i];}return…

【Spring】SpringRetry重试机制和Spring异步任务发送操作结合应用场景实操,通俗易懂

平时调用一些第三方接口或者内部接口&#xff0c;可能出现处理异常或者超时或者意外因素&#xff0c;我们可以使用重试机制来为用户提高体验。 1.引用依赖 <dependency><groupId>org.springframework.retry</groupId><artifactId>spring-retry</a…

【单片机毕业设计选题24079】-基于单片机的室内通风系统

系统功能: 系统分为手动和自动模式&#xff0c;上电默认为自动模式&#xff0c;自动模式下系统根据采集到的传感器值 自动控制&#xff0c;温度过低后自动开启加热&#xff0c;湿度过低后自动开启继电器加湿&#xff0c;获取到烟雾值大于设定值或获取到的CO值大于设定的CO值时…

视图,存储过程和触发器

目录 视图 创建视图&#xff1a; 视图的使用 查看库中所有的视图 删除视图 视图的作用&#xff1a; 存储过程&#xff1a; 为什么使用存储过程&#xff1f; 什么是存储过程&#xff1f; 存储过程的创建 创建一个最简单的存储过程 使用存储过程 删除存储过程 带参的存储…

【已解决 Python】 TypeError: can only concatenate list (not “int”) to list

【已解决 Python】 TypeError: can only concatenate list (not “int”) to list 在Python编程中&#xff0c;TypeError: can only concatenate list (not "int") to list是一个常见的错误。此错误表明你尝试将一个整数&#xff08;int&#xff09;与列表&#xff…