RAG快问:大数据与AI真有价值还是炒过头?

news2024/10/20 8:49:36

过去一年多,RAG(检索增强生成,retrieval augmented generation)正成为大数据与 AI 融合的“新宠”。想象一下,当你用 AI 助手快速总结论文或分析数据时,背后可能已经是 RAG 技术在默默发力。它就像是AI界的瑞士军刀,让大数据和AI的结合不仅仅是潮流,更是效率的革命。

显而易见,随着生成式 AI 如 ChatGPT 的兴起,“大数据 +AI”的热度不断飙升,特别是在 RAG 技术的加持下,它们的结合为企业创造价值的潜力正逐渐被认可。

不过,技术的发展总是伴随着质疑和探索。虽然很多人看到这股潮流的迅猛发展,但也难免心生疑惑和不安:大数据和 AI 的融合到底是不是又一轮泡沫?它所谓的价值是什么?具体要怎样才能借助 AI 与大数据来提升竞争力?RAG 为什么这么火爆?

带着这些疑问,日前相关从业人员围绕“大数据 +AI”的真实价值、RAG 技术如何从这浪潮中突围展开讨论。

一,Data 加 AI 真有价值?

虽然大模型和AI抢尽风头,但别忘了,大数据才是幕后英雄。它就像是AI的健身房,提供了锻炼智能肌肉所需的一切。没有大数据,AI就像是没有食谱的厨师,空有一身本领却无处施展。对于屏幕前的你来说,当在电脑端想要搜索一些知识点或寻找答案时,你是会选择传统搜索引擎,还是像 ChatGPT 这样的 AI 平台?同样地,当你希望能快速了解一篇论文的要点时,会不会直接让大模型帮你做个总结?

从 C 端用户的反馈来看,通用大模型无疑已经逐渐渗透进日常工作,特别是在那些比较简单、重复性的任务上,AI 的效率优势显而易见。

不过,这只是 AI 大模型的其中一面。在企业级应用、专业性更强的 B 端场景下,大模型是否同样带来效率提升呢?

部分研究人员倾向于认为答案是正面的。尤其是在 RAG 技术的推动下。RAG 正在成为数据 +AI 的主流应用方案。根据 InfoQ 的统计,RAG 技术在今年的多场技术大会上成为了焦点之一。而且从 arXiv 上与 RAG 相关的文章数量来看,年初时还比较少,而到了年中,相关研究已经呈现显著增长,几乎每天都有新论文发表。这说明,RAG 技术的受欢迎程度在工业界、产业界和学术界正逐渐成为共识。

如今,大模型技术,尤其是结合 RAG 解决“幻觉”、私域数据使用等问题,便可以有效提升这些数据的应用,解决企业在生产和服务中的实际问题。

二、为什么大数据“不够火”?

大模型很火、AI 很火、RAG 也很火,但大数据技术本身却似乎没有那么火。

“大数据依然非常重要,只是目前它被大模型的光环所遮盖。”相关从业人员表示,虽然 C 端用户更关注体验和产品,但要构建一个好的大模型,算力、算法和数据依然是三大要素,而数据的收集、处理和清洗仍是关键,很多公开的大模型没有对外披露如何处理数据,这部分的工作往往被忽视。

从企业和市场的角度来看,业界常讨论的“AI for data”或者“data for AI”,也不会是一个“谁主导谁”的问题。数据和 AI 是相辅相成的。大模型的性能不仅依赖于 AI 的算法和算力,要产生好的 AI 模型,首先还是需要大量且高质量的清洗数据。有时候,一些较小的模型,尽管参数规模不如大的模型,但因为数据质量高,表现反而更好。

同时,AI 的发展对大数据技术提出了新的要求,特别是在云原生和弹性计算方面。以大模型训练为例,正常情况下只需几百核的算力,但在处理大规模数据时可能需要扩展到几万核,对大数据系统的弹性能力提出了非常高的要求。此外,随着数据量的增长,降低成本和提升存储性能也是大数据领域未来发展的核心。

总之,大数据从未远离,它始终是 AI 背后不可或缺的支撑。无论是过去、当下,还是未来,数据的管理和应用仍然是核心。

三、为什么数据质量很重要?

在AI的世界里,数据就像是食材。质量越高,做出来的菜越美味。清洗数据就像是挑选新鲜食材,虽然辛苦,但为了那一口美味,值得!大模型本质上是通过数据训练出来的网络,网络中的权重反映了数据的知识结构。因此,大模型本身就代表了数据与 AI 的融合。要训练出一个好的大模型,数据的质量至关重要。通常需要先收集大量数据,可能达到几十个 PB,但经过清洗和去重处理后,实际用于训练的数据可能只有几个 T。而这个过程十分关键,因为数据量越大,对算力的需求就越高,数据清洗则可以降低计算资源的消耗。

从技术流程来看,数据从收集、清洗到用于模型训练的每一步,都离不开大数据系统。腾讯云提供了从数据的收集、处理、开发到训练的全流程支持,确保数据与 AI 深度融合。通过这套方案,开发者和企业可以更便捷地训练出他们所需的模型。

而从另一角度看,模型训练完成后,AI 反过来也能帮助优化大数据分析。黄世飞表示,过去,他们需要依赖经验去诊断大数据系统中的问题,但现在,AI 可以通过分析日志和诊断信息来辅助判断。以前可能使用规则引擎,今天大模型让 AI 能够更灵活地处理大数据的复杂问题。

实际上,不管是制造业还是其他行业,AI 的应用都依赖于数据平台。比如,生产中的每一条数据都可以视为一个标签,通过 AI 挖掘这些标签与其他数据的关系,就能生成可操作的商业洞察。无论是 AIOps、BusinessOps,还是制造业中的生产优化,AI 都能通过数据分析帮助企业提升效率和决策能力。同时,AI 还可以处理复杂的操作流程和知识管理。过去,工业领域的操作人员需要依赖手册查找机械操作步骤。如今,通过大模型,AI 可以有逻辑地给出精准的操作指令,减轻操作人员的负担。

此外,数据平台的核心在于如何高效导入、处理和展示数据,而 AI 也能够显著提升这一过程的效率。过去,理清某个数据字段的血缘关系是一项复杂的任务,而现在 AI 可以迅速梳理出数据的来源与关系,提升开发效率。此外,AI 还能帮助自动检测代码错误,大幅提高开发者的生产力。

未来,数据平台中很可能会引入 AI 助手,进一步辅助开发者完成数据分析、优化数据处理流程,这将是 AI 赋能数据平台的一个重要发展方向。

传统企业的数字化转型很大程度上取决于文化的转变。如果公司能够将 IT 视为核心资产而非单纯的成本,就能更好地应用数据和 AI 技术,提升整体的业务竞争力。

随着 AI 和数据技术的深度融合,开始出现这样的声音:是否会有一个工具能够超越 Excel,成为数据分析的“新王者”?腾讯云负责人黄世飞认为,这是完全有可能的。不可否认,Excel 是一款非常强大的工具,几乎可以处理各种类型的报表和分析任务。但是,它的操作门槛较高,用户需要对各种函数有深入的了解,才能真正发挥它的全部功能。对于许多非技术用户来说,这是一个巨大的障碍。“未来的 AI 可能会通过简化这些复杂的操作过程,让数据分析变得更加简单直观。”他表示,AI 可以通过自动化生成分析过程来帮助用户。用户只需要提出他们想要的结果,AI 就能根据需求选择合适的函数和方法来完成任务。这样的工具将不再依赖用户的专业知识,而是通过 AI 的智能支持,极大降低了使用门槛。

除了操作门槛,Excel 的另一个局限性在于它的性能限制。随着数据量的增加,Excel 在处理大型文件时往往会变得非常慢,甚至会导致文件崩溃。而如今,数据量的爆炸式增长已成常态,几百兆甚至上 GB 级别的文件已经不足为奇。

云计算有望解决这个问题。云上有强大的存储和计算能力,处理几百 G 甚至 TB 级别的数据都不在话下。如果未来能开发出类似“云 Excel”的应用,将数据存储在云端,并通过云计算来处理,那就能够打破当前 Excel 的数据量限制。

因此,未来的应用可能通过两个关键途径超越 Excel:一是通过 AI 简化数据分析的过程,让用户不再需要熟练掌握复杂的函数和操作;二是通过云计算扩大数据存储与处理的能力,打破当前 Excel 在数据量和性能上的限制。随着数据量的持续增长,未来对这种工具的需求也会越来越强烈。

四、为什么是 RAG ?

AI有时候也会“说谎”,这就是所谓的“幻觉”问题。大模型的“幻觉”问题,指的是在复杂逻辑推理中,模型生成的结果可能与真实情况不符。而 RAG 的引入,成为当下解决这一问题的重要技术方案。但别担心,RAG技术就像是AI的“真相血清”,确保AI给出的答案是真实可靠的。它不仅解决了问题,还能快速更新知识库,让AI始终保持最新状态。

解决这些问题的过程实际上涉及数据的向量化。向量化本身是一个复杂的过程,需要将数据转化为向量形式。不同场景对向量化的需求不同,因此作为技术服务商也需要支持更多样化的 embedding 技术,才能更好地应对多样化的场景需求。

大模型有时候无法控制返回的答案,因为它太智能了。这时候,RAG 可以帮助他们构建自己的私有知识库,确保大模型生成的答案符合企业需求。当然,有人可能觉得这是对大模型的限制,但对于企业应用来说,建立一个安全、可靠的知识库是至关重要的。通过 RAG 技术,可以帮助客户将他们的知识库构建在 ELK 系统中,确保了数据安全和答案的准确性。

过去,生成报表和进行复杂数据分析往往需要专业的技术能力。而如今,AI 与数据的结合让用户可以通过自然语言完成数据分析,大大降低了数据分析的门槛,尤其是对非技术背景的用户而言,这无疑是一种便利。但AI 大模型的普及是否能真正降低数据分析的门槛?RAG 技术的确已经讨论了一段时间,随着大模型的普及,RAG 的应用越来越广泛。尤其是在利用 AI 进行数据检索和生成时,RAG 提供了极大的便利。不过,高昂的专业服务费用仍是一大痛点,许多客户都提到这是他们面临的挑战之一。如果大模型技术能够进一步普及,并且降低使用成本,接下来就会有更多非专业用户能更容易地使用这些技术,而不仅仅局限于专业人士。

五、数据分析市场在本土和海外有何不同

国内市场的数据分析就像是快餐,追求的是快速、实惠、立等可取。而海外市场则更像是高级餐厅,他们喜欢慢慢来,通过文档和API自己烹饪。这说明,不同的市场有不同的口味,而一个好的服务商需要成为万能的厨师。

在国内市场,企业在选择数据分析产品时,最关注的往往是成本和投资回报率。许多企业会优先考虑自建系统,如果外部产品的成本高于自建,他们可能会选择放弃购买外部产品。因此,确保产品的成本优势,是很多服务商设计产品的首要任务。

此外,国内企业客户对服务的即时性有着很高的要求。他们习惯于通过即时通讯工具获得服务支持,并期望遇到问题时能够迅速得到回应。相比之下,海外客户则更习惯于通过提交工单或邮件的方式获得支持,也更习惯通过阅读详细的文档来解决问题,如果文档解决不了,才会进一步寻求支持,所以文档的完善、本地化和英文化也很重要。

同时,由于海外市场的企业代码能力很强,他们更倾向于通过 API 将外部服务集成到自建平台中,而不是依赖官方的控制台,因此产品模块要足够灵活,才可以通过 API 进行高效对接。

六、大数据 +AI 时代,人才何去何从

“大数据 + AI” 快速发展,企业面临着技术变革带来的挑战,员工的职业发展也因此充满了更多的不确定性和机遇。如何在大数据和 AI 时代下,抓住机会提升自我,是许多职场人关心的话题。

然而,不安定的环境往往是学习新技能的最佳时机。在技术变革下,最重要的是敢于走出舒适区,主动学习那些你尚未掌握的技能。无论是 IT 技术还是其他领域,个人和公司的成长都发生在不安稳的状态下。因此,面对大数据和 AI 技术的不断进步,不要害怕新技术,反而要主动去掌握它们。并且不要等别人先尝试,要成为第一个行动的人,“to be the leader,not the follower。”

关于大数据和 AI 技术对人才培养的实际影响。今天的学习门槛相比以往已经大大降低。过去可能需要花很多时间买书、看视频,而现在,AI 技术本身就能帮助我们更有效地获取知识。例如,大模型可以快速搜索文献、资料,极大地提升了学习效率。因此,学习条件的提升意味着我们更有机会掌握新的技能,关键在于是否愿意付出时间和精力。在大数据和AI的舞池里,唯一不变的就是变化。这是一个学习新舞步的绝佳时机,勇敢地走出舒适区,去学习那些让你心跳加速的新技能,创造没有的可能。

版权声明:除原创作品外,本平台所使用的文章、图片、视频及音乐属于原权利人所有,因客观原因或会存在不当使用的情况,如,部分文章或文章部分引用内容未能及时与原作者取得联系,或作者名称及原始出处标注错误等情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系。

更多AI知识可以关注我们,也欢迎关注公主号“顺网智算”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2219172.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue学习笔记 Class绑定 Style绑定 侦听器 表单输入绑定 模板引用 组件组成 组件嵌套关系

文章目录 Class绑定绑定对象绑定数组注意事项 style绑定绑定对象代码效果展示 绑定数组 侦听器注意的点代码效果 表单输入绑定示例代码效果展示 修饰符.lazy.number.trim 模板引用组件组成组件组成结构引入组件步骤style中的scoped作用 组件嵌套关系 Class绑定 绑定对象 绑定数…

论文精读:PRL 交变磁MnTe中的手性分裂磁振子

DOI: 10.1103/PhysRevLett.133.156702 摘要节选 与电子带的自旋分裂一样,预测交变磁体中的磁振子带也表现出交替的手性分裂。本文通过对α-MnTe进行非弹性中子散射(INS),直接观察到α-MnTe的磁振子分裂现象。磁振子的简并解除可以…

【计算机网络 - 基础问题】每日 3 题(四十七)

✍个人博客:https://blog.csdn.net/Newin2020?typeblog 📣专栏地址:http://t.csdnimg.cn/fYaBd 📚专栏简介:在这个专栏中,我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞…

硬盘格式化后能恢复数据吗?4款好用的数据恢复软件,格式化后也能安心

咱们今天来谈谈一个挺烦人的问题——硬盘格式化后能恢复数据吗?别担心,能的!只要你用对方法,就算硬盘被清空了,那些重要文件还是能找回来的。下面,我就给你们介绍几款超给力的数据恢复软件,让你…

Axure重要元件三——中继器修改数据

亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢! 课程主题:中继器修改数据 主要内容:显示编辑内容、表格赋值、修改数据 应用场景:更新行、表单数据行修改 案例展示: 正文…

玫瑰花HTML源码

HTML源码 <pre id"tiresult" style"font-size: 9px; background-color: #000000; font-weight: bold; padding: 4px 5px; --fs: 9px;"><b style"color:#000000">0010000100000111101110110111100010000100000100001010111111100110…

【Qt】控件——Qt按钮类控件、常用的按钮类控件、按钮类控件的使用、Push Button、Radio Button、Check Box

文章目录 Qt3. Qt按钮类控件Push ButtonRadio ButtonCheck Box Qt 3. Qt按钮类控件 Push Button 使用 QPushButton 表示一个按钮。当点击按钮时可以触发各种事件。QPushButton 继承自 QAbstractButton。这个类是一个抽象类。是其他按钮的父类。 PushButton和QAbstractButton的…

Flink时间语义和时间窗口

前言 在实际的流计算业务场景中&#xff0c;我们会发现&#xff0c;数据和数据的计算往往都和时间具有相关性。 举几个例子&#xff1a; 直播间右上角通常会显示观看直播的人数&#xff0c;并且这个数字每隔一段时间就会更新一次&#xff0c;比如10秒。电商平台的商品列表&a…

算法笔记day05

目录 1.最小公倍数 2.最长连续的子序列 3.字母收集 1.最小公倍数 求最小公倍数_牛客题霸_牛客网 算法思路&#xff1a; 这就是一道数学题&#xff0c;a,b的最小公倍数 a * b / 最大公约数。 使用辗转相除法&#xff0c;求a&#xff0c;b的最大公约数。 #include <iostre…

比亚迪车机安装第三方应用教程

比亚迪车机安装第三方应用教程 比亚迪车机U盘安装APP&#xff0c; 无论是dlink3.0还是4.0都是安卓系统&#xff0c;因此理论上安卓应用是都可以安装的&#xff0c;主要就是横屏和竖屏的区别。在比亚迪上安装软件我主要推荐两种方法。 第一种&#xff0c;直接从电脑端下载安装布…

一次使用LD_DEBUG定位问题的经历

在实际工作中&#xff0c;当遇到段错误&#xff0c;我们会很容易的想到这是非法访问内存导致的&#xff0c;比如访问了已经释放的内存&#xff0c;访问数据越界&#xff0c;尝试写没有写权限的内存等。使用gdb进行调试&#xff0c;查看出异常的调用栈&#xff0c;往往可以定位到…

RTThread-Nano学习二-RT-Thread启动流程

一、简介 上一章&#xff0c;我们已经了解了如何通过MDK来移植RTT&#xff0c;不熟悉的可以看如下链接&#xff1a;RTThread-Nano学习一-基于MDK移植-CSDN博客本章我们就来继续了解一下&#xff0c;RTT的启动流程。 二、启动流程 官方给了一幅非常清晰的启动流程图&am…

11.学生成绩管理系统(Java项目基于SpringBoot + Vue)

目录 1.系统的受众说明 2 总体设计 2.1 需求概述 2.2 软件结构 3 模块设计 3.1 模块基本信息 3.2 功能概述 3.3 算法 3.4 模块处理逻辑 4 数据库设计 4.1 E-R图 4.2 表设计 4.2.1 管理员信息表 4.2.2 课程基本信息表 4.2.3 课程扩展信息表 4.2.4 专业信…

Cuda By Example - 8 (性能测量)

时间戳记录API 使用constant内存&#xff0c;究竟带来多少性能提升&#xff0c;如何尽可能精确的测量GPU完成某项任务所花的时间&#xff1f;CUDA提供了cudaEvent_t 以及 CUDA event API来做运行时间的测量。 cudaError_t cudaEventCreate(cudaEvent_t *event); cudaError_t c…

架构设计笔记-22-论文

1.论企业应用系统的数据持久层架构设计 2.论企业信息化规划的实施与应用 3.论企业应用系统的分层架构风格 4.论分布式存储架构系统设计 5.论云原生架构及其应用 6.论企业集成架构设计及应用 7.论数据湖技术及其应用 8.论系统安全架构设计及其应用 9.论企业集成平台的理解与应用…

【双指针算法】快乐数

1.题目解析 2.算法分析 由图可知&#xff0c;不管是最后可以变成1的还是不可以变成1的都相当于形成环了&#xff0c;只是成环处值不一样 问题转变成&#xff0c;判断链表是否有环 采用双指针&#xff0c;快慢指针算法 1.定义快慢指针2.慢指针每次向后移动一步&#xff0c;快…

ES-入门-javaApi-文档-新增-删除

新增指定索引的文档数据的代码如下&#xff1a; package com.atgulgu.es.test;import com.fasterxml.jackson.databind.ObjectMapper; import org.apache.http.HttpHost; import org.elasticsearch.action.index.IndexRequest; import org.elasticsearch.action.index.IndexRe…

UNI VFX Missiles Explosions for Visual Effect Graph

Unity URP和HDRP的通用视觉效果 使用在视觉效果图中制作的高性能GPU粒子系统。 无需进入视觉效果图编辑器即可轻松自定义VFX。 使用(VFX)事件——一个游戏对象可存储多个效果,这些效果可通过C#或视觉脚本触发。 总共32个事件(不包括“停止”事件)。 ❓ 什么是(VFX)事件?…

STM32Cubemx 配置ADC(HAL库)

一、ADC几种模式 1、扫描模式&#xff1a; 使用STM32CUBEMX配置了多通道后&#xff0c;这一项默认开启且无法设置成关闭。这个模式就是自动扫描你开启的所有通道进行转换&#xff0c;直至转换完。例如你开启了CH0、CH1、CH2、CH3这四个通道&#xff0c;启动转换后ADC会自动将这…

动态规划原理及算法题(1)

课程规划会分为四个阶段进行&#xff1a; 1.题目解析 2.讲解算法原理(动态规划的原理) 3.编写代码 4.空间优化 1. 第 N 个泰波那契数&#xff08;easy&#xff09; 泰波那契数相当于斐波那契数的孪生兄弟&#xff0c;是它的加强版。 1.题目解析 2.讲解算法原理 如果用动态规…