2023 龙蜥操作系统大会演讲实录:《兼容龙蜥的云原生大模型数据计算系统——πDataCS》

news2024/9/22 1:59:20

image.png

本文主要分三部分内容:第一部分介绍拓数派公司,第二部分介绍 πDataCS 产品,最后介绍 πDataCS 与龙蜥在生态上的合作。

杭州拓数派科技发展有限公司(简称“拓数派”,英文名称“OpenPie”)是国内基础数据计算领域的高科技创新企业。作为国内云上数据库和数据计算领域的引领者,以“Data Computing for New Discoveries”「数据计算,只为新发现」为使命,致力于在数字原生时代,运用突破性计算理论、独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准,驱动企业实现从“软件公司”到“数据公司”再到“数学公司”的持续进阶,加速数字化转型升级。

拓数派自成立以来专注于数据计算领域,旗下大模型数据计算系统(PieDataComputingSystem, 缩写:πDataCS),以云原生技术重构数据存储和计算,一份存储,多引擎数据计算,让 AI 模型更大更快,全面升级大数据系统至大模型时代。πDataCS 旨在助力企业优化计算瓶颈、充分利用和发挥数据规模优势,构建核心技术壁垒,更好地赋能业务发展,使得自主可控的大模型数据计算系统保持全球领先,让大模型技术全面赋能各行各业。 目前大模型数据计算系统,面向国内市场提供公有云版、社区版、企业版及一体机多个版本,满足企业不同业务场景需求,并已为金融、制造、医疗及教育等行业用户构建了 AI 数据底座。

image.png

拓数派拥有强悍的研发核心团队和有成功上市经验的管理团队。其核心团队成员主要来自 Pivotal、IBM、腾讯、字节跳动、快手、Oracle 等世界 500 强以及国内头部互联网公司。拓数派创始人兼 CEO 冯雷(Ray Von)是数据云和人工智能领域的连续创业者和技术引领者。冯雷于 2010 年从美国硅谷归国,曾在 500 强公司 EMC 旗下创建 Greenplum 中国研发部门工作。2013 年随着全球 Pivotal 组建,冯雷先生在中国 Greenplum 大数据和 VMWare 的 PaaS 云的基础上组建了 Pivotal 中国研发中心,推动了 Greenplum 大数据库、CloudFoundry PaaS 云等知名开源产品的领域领先地位。

image.png

拓数派 2021 年创立,迅速进入快速发展阶段,引领数据计算时代的到来。成立当天即获得头部产业基金天使轮投资,成为 DAY-1 准独角兽。2022 年拓数派发布了云原生虚拟数仓 PieCloudDB 社区版与商业版。2023 年拓数派大模型数据计算系统 πDataCS 正式亮相,让 AI 模型更大更快。

image.png

下面介绍 πDataCS。数据分析的目的最终是为了发现解释世界规则的模型。有了数据和计算,最终用来描述世界规律,构建一个模型系统。构建模型系统的关键是要有足够多的数据,数据是核心竞争力。有了数据后要构造出解释世界的模型。拓数派团队既具备大数据分析的丰富经验,也具备云计算方面的实战经验。

image.png

一提到模型可能首先想到有几千亿参数的大模型数据系统,其实日常生活中的模型无处不在。例如自由落体模型,由物理实验推导而来。最早的物理规律并不是理论推导而成,而是由数据分析得出,例如开普勒行星运动三定律,就是通过分析天文学家几十年的观测数据总结得出。以自由落体模型为例,可以考虑物体的自由落体运动以时间和变量为参数。构造这样简单的一套模拟系统,通过观测收集到数据,再经过计算发现 p0、p1 参数都是 0,只有 p3 是5 。经过分析后得出,只有当 p0、p1 值为该值时才符合客观规律,这就是简单的模型训练过程。进行数据分析时,不仅要构造像大模型这种复杂系统,生活中也有很多像自由落体这种模型等待我们发现。

下面是 πDataCS 产品的架构图。

image.png

πDataCS 打造了全新的云原生架构,支持一份数据,多引擎计算。πDataCS 支持多种云平台,包括公有云和私有云。πDataCS 以云原生技术重构数据存储和计算,先将数据计算系统中的计算和数据分离,增强系统的弹性。接着,考虑到未来数据治理和交易,拓数派把元数据和用户数据再次分离,实现了全新的 eMPP 架构。元数据被映射到块存储,由元数据管理系统「木牍」进行管理;用户数据被映射到对象存储,由「简墨」存储系统来管理;计算被映射到容器或者虚拟机,由计算系统来管理。元数据可以在系统中描述数据的结构,找到数据位置。将元数据单独处理后简化了数据交换。例如进行黄金交易时不一定一手交钱一手交货,可以将存储黄金的保险柜钥匙交出,此处的保险柜钥匙就相当于元数据管理系统,避免了数据遗漏等风险。此外 πDataCS 还利用 FPGA 硬件加速技术来提高对数据文件的访问。

目前,πDataCS支持三种计算引擎:

  • PieCloudDB: 作为拓数派首款云原生数仓计算引擎,支持 SQL 语言模型,兼容 HTAP
  • PieCloudVector: 为支持和大模型配合的向量计算而建立的云原生向量计算引擎
  • PieCloudML: 为支持 Python 和 R 等机器学习语言而建立的云原生机器学习引擎

πDataCS 的第一个优势是全面升级 Hadoop 大数据和 Greenplum 数仓至云原生数据平台。打造 πDataCS 是为了全面升级用户的数据平台。曾经谈到大数据时一定会提到 Hadoop,随着时间发展,人们发现 Hadoop 的很多问题,但很多用户的大数据系统还是基于 Hadoop 实现。自从 Hadoop 之后出现很多大数据技术,但只能解决一部分数据问题。例如 MPP 数据库,主要为了处理关系型数据,还有 MySQL 数据库只能处理某一个类型的数据。只有 Hadoop 平台可以使用它的若干个模块来处理所有的数据,包括结构化的、非结构化的、文本、图像等等。同 Hadoop 一样,πDataCS 和也可以通过一个平台多种计算引擎来为客户处理所有数据,包括结构化的、非结构化的、文本、图像等。

image.png

πDataCS 的第二优势是可以全面支持大语言基础模型和私域数据结合做垂直应用。拓数派第二款计算引擎 PieCloudVector,是一款可以用于存储、查询和分析向量数据(比如特征向量)的向量数据库。

image.png

某知名金融客户积累了很多金融方面的数据,包括各种各业的行业和所投资的各个公司的一些财务数据等,这些是他的核心竞争力。他希望打造一个他私有的大模型系统,使用问答的方式来使用他收集的这些金融方面数据,但是考虑到数据的隐私和安全等,不可能使用公开的大模型。上图是以 PieCloudVector 为核心,帮助客户找到了这样一套私有的金融方面的大模型系统。首先这些文档使用模型进行提取,将特征存入向量计算 Vector 数据中,再通过架构和他的应用程序进行交互,然后可以使用问答的方式来使用金融数据,也可以使用像大语言模型系统。

πDataCS 的第三个优势是云原生 eMPP 计算引擎全面颠覆 MPP 技术,打造大模型数据计算新范式。这一优势是通过第一款计算引擎 PieCloudDB Database 来实现的。

image.png

虚拟机技术可以把一台物理服务器切换成若干台小的服务器,把它一台物理服务器的资源切换虚拟机,给不同的用户来用。同样我们希望把数仓资源切算成若干的虚拟数仓,然后交给各个部门来使用,提高硬件的使用效率。以上解释了为什么拓数派团队要对 PieCloudDB 打造基于云原生的 eMPP 架构。

PieCloudDB 是基于 eMPP 架构的数仓系统,实现了把元数据收集到元数据服务木牍当中,把用户数据存储到了简墨系统中,然后实现了存储分离的虚拟数仓,实现了元数据、用户数据和虚拟数仓数据计算之间独立的扩缩容。使用基于 PC 架构的传统数仓系统,数据和计算紧紧绑定在一起。可以对它进行横向的扩展,但是同时必须要扩展存储,也需要扩展计算,计算和存储不能进行独立的扩展。这种架构下需要缩容时操作很困难。通过 PieCloudDB 虚拟数仓,将一个个数仓打造成不包含任何数据而且无状态的计算平台。可以根据需要对数仓的计算能力进行扩缩容。

image.png

在实际的应用场景中,简墨系统可以构建在 S3 对象存储中或者 HDFS 和 NAS 中。

image.png

PieCloudDB 通过映射,让每一个业务部门自己拥有独立的一套数仓系统,使用起来与传统 MPP 数据库没有太大区别。但各个部门进行数据交换时,不需要再进行 ETL 操作,通过数据授权对元数据进行操作,将不同部门之间的数据映射给其他部门。在存储系统中,所有数据只存储了一份。类似前文交换保险柜钥匙来获得黄金,而不是真正进行黄金交换。通过虚拟数仓系统,可以降低硬件和管理成本。虚拟化可以提高硬件的使用率,提升数据资源的应用效率,再通过一些技术提高数据安全性。

image.png

为了实现虚拟数仓系统,PieCloudDB 完成了四大技术突破。

image.png

首先,PieCloudDB 实现了云原生存算分离架构:用户数据,元数据和计算三层分离,可进行独立扩缩容。第二根据云原生特点打造优化器达奇。云原生优化器负责根据部署 PieCloudDB 架构的特点来生成更优的执行计划,提高数据分析效率。第三是全新的数据存储引擎简墨,还有相关缓存架构设计,提高虚拟数仓访问数据输出的效率。第四是 eMPP 分布式技术,为传统 MPP 架构增加弹性,使虚拟数仓进行横向的扩容和缩容变得非常方便。

πDataCS 第二款计算引擎PieCloudVector,针对一些像金融、保险这方面用户,对数据的安全性要求比较高,需要打造一个自己私有的大模型系统。

image.png

把用户收集的数据或者是公有的数据,通过特征提取,创建一系列 embeddings,存储到向量数组中,再通过其他一些开源框架和大模型进行一个交互。相当于 PieCloudVector 为客户自己构建自有大模型提供存储底座。相对于其他的向量数据库,包括一些专用的数据库,还有传统的关键数据库有这些向量的插件。

image.png

相比这两种方案,我们这套系统有哪些优势呢?第一,使用专用的向量数据库,其他一些相关数据,例如存储在数据库中的关键型数据等,需要进行若干数据移动。传统的数据库在高可用或者扩展方面有缺陷。所以 PieCloudVector 集中了两方面优势,比较方便进行水平的扩缩容,第二个同时具有这两方面的优点,既可以存储普通的关系型数据,也可以存储向量数据。

第三款计算引擎是正在开发的新一代(大模型)机器学习 PieCloudML,在现有这些架构的基础上,通过新一代 PieCloudML,增加机器学习、图像数据处理等大模型系统提供更深一步的支持。

image.png

大模型数据计算系统,面向国内市场提供云上云版、社区版、企业版、一体机四个版本,满足企业不同业务场景需求。πDataCS 有三种部署方式。第一种直接部署在云上,第二种部署在客户现有的云平台,第三种是一体机系统,用户接上网线,插上电源可以直接使用。

image.png

拓数派一直秉持着“开放互信、合作共赢”的理念,致力于构建蓬勃的数据生态。πDataCS 也非常注重软件生态打造,注重与社区方面的合作。πDataCS 需要适配各种各样的云环境,所以需要打造强大的软件生态系统。拓数派团队针对不同的部署方式与龙蜥平台进行了全方位的测试,测试结果显示,龙晰平台安全稳定、性能优异。因此,我们确信,龙蜥平台可以支持 πDataCS 良好运行。 除了龙蜥外,πDataCS 也完成了与其他主流软硬件平台的适配工作。拓数派将继续努力,打造完善的产品生态,为用户提供更安全稳定、高性能、易用的大模型数据计算平台。

image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1464517.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android platform tool中d8.bat不生效

d8.bat因找不到java_exe文件,触发EOF d8.bat中之前代码为: set java_exe if exist "%~dp0..\tools\lib\find_java.bat" call "%~dp0..\tools\lib\find_java.bat" if exist "%~dp0..\..\tools\lib\find_java.bat" …

【教3妹学编程-算法题】匹配模式数组的子数组数目 II

3妹:2哥2哥,你有没有看到上海女老师出轨男学生的瓜啊。 2哥 : 看到 了,真的是太毁三观了! 3妹:是啊, 老师本是教书育人的职业,明确规定不能和学生谈恋爱啊,更何况是出轨。 2哥 : 是啊…

petalinux_zynq7 驱动DAC以及ADC模块之一:建立IP

0. 环境 - ubuntu18 - vivado 2018.3 - mizar z7010 ada106模块 1. vivado 1.1 创建vivado工程 运行vivado source /tools/Xilinx/Vivado/2018.3/settings64.sh vivado& 创建vivado工程 Vivado -> Create Project -> Next -> -> Project name: …

【论文阅读笔记】Revisiting RCAN: Improved Training for Image Super-Resolution

论文地址:https://arxiv.org/abs/2201.11279 代码地址:https://github.com/zudi-lin/rcan-it 论文小结 本文的工作,就是重新审视之前的RCAN,然后做实验来规范化SR任务的训练流程。 此外,作者得出一个结论:…

Vue单文件学习项目综合案例Demo,黑马vue教程

文章目录 前言一、小黑记事本二、购物车三、小黑记账清单 前言 bilibili视频地址 一、小黑记事本 效果图 主代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"/><meta http-equiv"X-UA-Compatible&…

linux增加物理磁盘并挂载到文件系统

centos7增加物理磁盘并挂载到文件系统 1、查看所有磁盘情况 fdisk -l2、创建挂载路径 mkdir /data3、格式化磁盘 #磁盘filesystem(上图标红处) mkfs.xfs -f /dev/sda建议 与其它磁盘文件系统保持一致&#xff0c;我这里是xfs 可通过 cat /dev/sda查看 4、挂载 mount /dev/…

5个精美的wordpress中文企业主题模板

元宇宙WordPress主题模板 简洁大气的元宇宙 Metaverse WordPress主题模板&#xff0c;适合元宇宙行业的企业官网使用。 https://www.jianzhanpress.com/?p3292 职业技术培训WordPress主题模板 简洁大气的职业技术培训WordPress主题&#xff0c;适合用于搭建教育培训公司官方…

3个wordpress中文企业主题模板

农业畜牧养殖wordpress主题 简洁大气的农业畜牧养殖wordpress主题&#xff0c;农业农村现代化&#xff0c;离不开新农人、新技术。 https://www.jianzhanpress.com/?p3051 老年公寓wordpress主题 浅绿色简洁实用的老年公寓wordpress主题&#xff0c;适合做养老业务的老年公…

37.仿简道云公式函数实战-数学函数-SIN

1. SIN函数 SIN 函数可用于计算角度的正弦值&#xff0c;返回 -1 到 1 之间的数值。 2. 函数用法 SIN(弧度) 使用该函数时&#xff0c;需要将角度转化为弧度参与计算&#xff0c;可通过 RADIANS 函数 将角度转化为弧度。 3. 函数示例 如计算 SIN(30) 的值&#xff0c;可设…

【linux进程间通信(二)】共享内存详解以及进程互斥概念

&#x1f493;博主CSDN主页:杭电码农-NEO&#x1f493;   ⏩专栏分类:Linux从入门到精通⏪   &#x1f69a;代码仓库:NEO的学习日记&#x1f69a;   &#x1f339;关注我&#x1faf5;带你学更多操作系统知识   &#x1f51d;&#x1f51d; 进程间通信 1. 前言2. 共享内…

【stm32】hal库学习笔记-UART/USART串口通信(超详细!)

【stm32】hal库学习笔记-UART/USART串口通信 hal库驱动函数 CubeMX图形化配置 导入LCD.ioc RTC设置 时钟树配置 设置LSE为RTC时钟源 USART设置 中断设置 程序编写 编写主函数 /* USER CODE BEGIN 2 */lcd_init();lcd_show_str(10, 10, 16, "Demo12_1:USART1-CH340&q…

MLflow【部署 01】MLflow官网Quick Start实操安装、模型训练、数据预测(一篇学会部署使用MLflow)

一篇学会部署使用MLflow 1.版本及环境2.官方步骤Step 1 - Get MLflowStep 2 - Start a Tracking ServerStep 3 - Train a model and prepare metadata for loggingStep 4 - Log the model and its metadata to MLflowStep 5 - Load the model as a Python Function (pyfunc) an…

yolov5导出onnx转engine推理

yolov5导出注意事项 配置 需要提供配置文件和权重文件&#xff0c;不然导出模型不能正常推理。 默认提供检测头。 ModuleNotFoundError: No module named ‘tensorrt’安装TensorRT-python发现报错 由于ModuleNotFoundError: No module named ‘tensorrt’安装TensorRT-pyt…

备战蓝桥杯—— 双指针技巧巧答链表1

对于单链表相关的问题&#xff0c;双指针技巧是一种非常广泛且有效的解决方法。以下是一些常见问题以及使用双指针技巧解决&#xff1a; 合并两个有序链表&#xff1a; 使用两个指针分别指向两个链表的头部&#xff0c;逐一比较节点的值&#xff0c;将较小的节点链接到结果链表…

【学习iOS高质量开发】——协议与分类

文章目录 一、通过委托与数据源协议进行对象间通信1.委托模式2.要点 二、将类的实现代码分散到便于管理的数个分类之中1.如何实现2.要点 三、总是为第三方类的分类名称加前缀1.为什么总是为第三方类的分类名称加前缀2.要点 三、勿在分类中声明属性1.勿在分类中声明属性的原因2.…

OpenAI文生视频大模型Sora概述

Sora&#xff0c;美国人工智能研究公司OpenAI发布的人工智能文生视频大模型&#xff08;但OpenAI并未单纯将其视为视频模型&#xff0c;而是作为“世界模拟器” &#xff09;&#xff0c;于2024年2月15日&#xff08;美国当地时间&#xff09;正式对外发布。 Sora可以根据用户…

三维测量技术及应用

接触式测量&#xff08;Contact Measurement&#xff09;&#xff1a; 坐标测量机&#xff08;CMM, Coordinate Measuring Machine&#xff09;&#xff1a;通过探针直接接触物体表面获取三维坐标数据。优点是精度高&#xff0c;但速度慢&#xff0c;对软质材料测量效果不佳&am…

qt 软件发布(Windows)

1. 开发环境 QtCreator MSVC编译器 2. 源码编译 生成release或者debug版本的exe可执行文件(x64或x86) 3. windeployqt 打包 ①左下角开始菜单栏找到QT的命令交互对话框&#xff0c;如下图MSVC 2017 64-bit(根据第二步编译的类型选择64位或者32位)。 ②cd 切换到第二步可…

igolang学习2,golang开发配置国内镜像

go env -w GO111MODULEon go env -w GOPROXYhttps://goproxy.cn,direct

杂题——1097: 蛇行矩阵

题目描述 蛇形矩阵是由1开始的自然数依次排列成的一个矩阵上三角形。 输入格式 本题有多组数据&#xff0c;每组数据由一个正整数N组成。&#xff08;N不大于100&#xff09; 输出格式 对于每一组数据&#xff0c;输出一个N行的蛇形矩阵。两组输出之间不要额外的空行。矩阵三角…