AI大语言模型时代构建全新数据平台

news2024/10/13 4:20:01

在大语言模型的引领下,数据平台领军企业 Databricks 和 Snowflake 的未来重置,探讨了 Databricks 和 Snowflake 等知名平台,

存储领域的 Delta、udi、Iceberg,还是实时化数据处理领域的 Databricks、Snowflake

1、LLM 给大数据企业带来改变

        大模型给企业带来的改变范围很广。它可以帮助企业取代许多人的工作,例如数据开发、数据调优、数据库管理员(DBA)等,大模型的成功依赖于三个要素:模型、数据和算力,Bloomberg 公司发布了一款名为“BloombergGPT”的大模型,专注于新闻和财经领域。由于在这个领域积累了丰富的数据,其生成的大模型在知识深度和逻辑结构方面更为优越

2、LLM 并发挥出数据的价值

        AI 作为核心功能融入数据平台,目前 AI 链路还在快速演进中,变化很多。企业基础设施需要能保持灵活性。插件化体系本身可以通过 UDF、FunctionCompute 或者专门的 PipelineManagement 系统来解决,LLM 应用的组件已有很多,比如 LangChain、向量数据库、LLM runtime,这些组合可以很容易搭建起来一个端到端 LLM 服务链路。很多新兴的更易用的 LLMOps 组件都在涌现,比如 Lepton.ai, XInference

3、开源产品 Spark/Flink/Clickhouse、以及 SaaS 化的 Snowflake 相比

第四种新的计算方式,即增量计算。我们希望通过增量计算来统一这三种传统计算模式,最终形成一个一体化的引擎。

Flink 是比较早去尝试做一体化的解决方案,并且提出过“流批一体”的口号,目前看落地案例并不太多

 4、BI 和 AI/ML 正在逐渐融合

        系统解耦 / 开放与高性能的平衡,两种计算模式的联动。数据分析领域 SQL 是主流语言,AI 领域 Python 最流行,如何方便地编程两种系统,是关键挑战。SQLML、SQL+UDF 内嵌 Python、Python 的 SQLAlchemy 库、原生 Python 接口等都是选择

5、BI+AI/ML,甚至是 LLM,数据平台也需要逐渐支持 OLAP、OLTP、流、Graph、向量

        数据领域分成 OLTP、OLAP、AI 三个大方向,OLAP 数据分析领域内的典型场景基本固定,Lambda 架构问题业界有明确共识,一体化架构统一所有分析类的 Workload 是未来方向。

        OLAP+AI 一体化是目前的热点,这两类数据的重合度以及交互的诉求都够强。Databricks 一直主打这个方向,它一直坚持 Data+AI 的战略。Snowflake 从 OLAP 领域出发,最近也在加速同时支持 AI 的布局,比如一直在发力的 SnowPark。

        支持数据分析和其它计算范式。SQL 引擎和 AI 引擎都能支持好,数据分析的架构将趋于统一。在数据分析领域,大家最终可能都会向着增量计算的方向发展,从而逐渐打破 Lambda 架构的限制,一体化的架构会成为未来。跟我们前两年预测湖仓一体会成为未来一样,希望一体化架构两年后也会真正落地

        大语言模型带来了半结构化和非结构化数据处理能力的显著增强。以前处理这些数据几乎是很困难的,但现在已经变得相对容易。以前阅读一个 PDF 文件,很难理清其中的内容,而现在这方面的处理变得更加简便。在这个层面上,如果以前我们只能处理结构化数据,现在又多了两类,半结构化和非结构化数据。处理这些数据能力的显著增强,势必会带来存储和计算的需求显著增长。

        大语言模型到来,数据交换 / 隐私保护会得到更多投资。数据的安全和隐私的要求进一步提升了,数据共享的需求变得更加迫切。因为数据本质上就是知识。

        BI+AI 成为数据平台必选项,数据平台需要内置或插件化支持异构数据、finetune、向量检索等 AIOps 技术。AI 让所有的平台智能化,数据平台的智能化也成为必然。大幅降低使用门槛的数据平台会被更多人所使用

《2023 中国人工智能成熟度模型报告》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/992647.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何为虚拟机添加磁盘,扩充原有分区的磁盘空间

如何为虚拟机添加磁盘,扩充原有分区的磁盘空间 关机新增磁盘 虚拟机关机的状态下,在 VMware 当中新增一块磁盘,选中左边要添加磁盘的虚拟机镜像,然后鼠标右键点击设置。 选中磁盘点击添加 点击下一步,悬着SCSI这个…

【数字IC/FPGA】Verilog中的force和release

在Verilog中,将force用于variable会覆盖掉过程赋值,或者assign引导的连续(procedural assign)赋值,直到release。 下面通过一个简单的例子展示其用法: 加法器代码 module adder ( input logic [31:0] a, …

ISYSTEM调试实践12-软件运行时间的优化

实际工程的运行要比上篇文章提到的例程复杂的多 ISYSTEM调试实践11-Profiler Timeline和软件运行时间分析 由于复杂的应用层模型和底层任务,假定应用层模型的运行周期是10ms,任务函数的执行时间往往超过1ms,这时候就必须要考虑函数执行本身的…

什么是护网行动?

护网,也称“网络保护”,是指网络安全人员对企业或组织的网络进行检查、维护和保护,以防止网络受到黑客攻击、病毒、木马或其它恶意程序的侵入和损害。护网工作包括:网络安全规划、网络配置和控制、漏洞发现和修复、入侵检测和防范…

ES6 拓展(下)

一、函数的拓展 1.1、默认参数 在ES5中设置默认参数: function func(words, name) {name name || "闷墩儿";console.log(words, name); } func("大家好!我是"); func("大家好!我是", "憨憨");func(…

使用React18+Ts创建项目

1. 创建项目 首先,使用create-react-app工具创建一个新的React项目: npx create-react-app 项目名 --template typescript2. 安装依赖项 使用脚手架创建项目后,自带react-dom等依赖项,但react中的所用的路由方法是react-router…

建站系列(八)--- 本地开发环境搭建(WNMP)

目录 相关系列文章前言一、准备工作二、Nginx安装三、MySQL安装四、PHP安装及Nginx配置五、总结 相关系列文章 建站系列(一)— 网站基本常识 建站系列(二)— 域名、IP地址、URL、端口详解 建站系列(三)— …

cookie、session、Token区别

1 HTTP无状态,什么是无状态? http 无法知道是哪个客户端发出的请求,也无法判断是否为已登录用户请求,这就导致了 http 无法记住用户的登录状态。 2 cookie和session的是什么?为什么session这么好还要用cookie? coo…

VR钢铁实训 | 铁前事业部虚拟仿真培训软件

随着科技的发展,虚拟现实技术在各个行业中的应用越来越广泛。在钢铁冶炼行业中,VR技术也逐渐得到了应用,其中铁前事业部虚拟仿真培训软件就是一项非常有优势的技术。 铁前事业部虚拟仿真培训软件是广州华锐互动打造的《钢铁生产VR虚拟培训系统…

MySQL的用户管理

1、MySQL的用户管理 (1)创建用户 create user zhang3 identified by 123123;表示创建名称为zhang3的用户,密码设为123123。 (2)了解user表 1)查看用户 select host,user,authentication_string,select…

react memo判断刷新机制 自定义的比较函数 避免重复渲染

需求: 1. 需要在courseList参数变化时重新渲染组件。 2. 需要在currentWeekNumber参数 等于我指定值才重新渲染组件。 3.以上2个条件同时满足。 遇到的坑 一开始实现了我上面指定的问题需要的函数,后面发现怎么都刷新不了,经过深入观察发现m…

【ESP32】串口+wifi 透传,以及回调函数的使用

本文主要记录【ESP32】串口wifi 透传】的学习记录,主要包括 1.串口的AT 模式和透传模式 2. 串口命令解析 3. socket 连接 4. 回调函数的使用 【ESP32】串口wifi 透传,以及回调函数的使用 1. 函数接口说明2.开发环境3.硬件连接4.测试结果4.1发送 ATWS 命令…

Linux学习笔记-Ubuntu系统用户、群组、权限管理

一、概述 本文记录Ubuntu系统下通过命令操作用户账户进行管理。 Ubuntu系统版本: Linux ubuntu 5.15.0-1034-raspi #37-Ubuntu SMP PREEMPT Mon Jul 17 10:02:14 UTC 2023 aarch64 aarch64 aarch64 GNU/Linux 注:查看系统版本号的指令如下 uname -…

YOLOV7改进-针对小目标的NWD(损失函数)

link 1、复制这些 2、utils-loss,这里加 3、把这几行复制到utiils的loss.py 4、先对CoputerLoss类做修改 5、把那一行替换成这个 6、修改 7、iou_ration是超参,可以调,如果小目标比较多的话,这个值可以低一些,…

Vuex - state 状态(获取和使用共享数据)

文章目录 一、state是什么?二、state状态的作用三、如何使用store数据呢?使用数据的两种方式:1. 通过store 直接访问2. 通过辅助函数访问(简化) 一、state是什么? state是状态(数据) , 类似于v…

redis集群最少使用三个主节点的原因

集群最少三个主节点的原因 https://redis.io/docs/management/scaling/ 官网建议,搭建 redis 集群最少三主三从。 但是这么做是出于什么考虑呢? https://blog.csdn.net/qq_35549286/article/details/127057374 借鉴这位的解答 为什么是三个? cluster各…

骨传导与入耳式耳机哪种音质好?该如何选择?

骨传导耳机和传统耳机的定位不同,所以没有可比性,如果一定要说哪款耳机音质好,答案是入耳式耳机音质比较好! 首先入耳式耳机是直接塞入耳朵佩戴,会最大程度减少漏音,同时不会改变音质,会直接传…

构建自定义美颜应用:全局美颜SDK的开发指南

美颜技术已经成为许多应用程序和平台的标配之一,为用户提供了改善外观的机会。为了在你的应用中提供自定义的美颜功能,你可以考虑使用全局美颜SDK。本文将向你介绍如何构建自定义美颜应用,以及开发全局美颜SDK的关键步骤和技巧。 一、明确需…

Revit SDK 介绍:RayTraceBounce 光线反弹

前言 这个例子模拟光线反弹。 内容 通过修改参数,从(0,0,0)点向(1,0,0)方向射出光线,经过若干次反弹之后的结果。如图所示: 在Revit API 中&…

通过 http-server 运行刚打包出来的脚手架项目

这里 我打包了自己的vue项目 react其实也一样 如果我直接 打开打包出来的 dist 下面的index.html 会出现白屏资源找不到 或者跨域等问题 这个问题其实配个nginx也能解决 但是其实如果只是想做个测试 nginx就太麻烦了 我们可以通过npm指令 全局安装一个http-server 终端执行 …