火山引擎 DataLeap:一个易用、高效的数据目录,是如何搭建的?

news2025/2/12 17:42:57

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群

企业如何找到数据、了解数据以及使用数据?

这离不开数据目录的能力。数据目录有着类似于“字典”的作用,能够帮助数据生产者和使用者快速定位数据、解释数据、找到数据,并从中提取业务价值。

对以研发人员为代表的数据生产者来说,他们利用数据目录来组织、梳理各类元数据。例如,数据生产者会将元数据以目录等形式编排到一起,方便维护,并通过打业务标签、添加应用场景描述、字段解释等丰富业务相关属性。

对以数据分析师、产品、运营等数据使用者来说,他们通过数据目录来查找和理解数据,例如通过关键字检索,或目录浏览,来查找业务场景数据,并浏览详情介绍、字段描述、产出关系等,进一步理解并利用数据决策。

在字节跳动,也有这么一套被内部广泛使用的数据目录系统。目前,该系统已通过火山引擎DataLeap数据地图平台对外输出。外部用户也可以在DataLeap数据地图平台,收集、组织、访问和补充元数据信息,为自身数据建设和治理提供支持。

火山引擎DataLeap数据地图平台-数据目录

要构建一套扩展性强、易维护且易用的数据目录系统并非易事。在大数据领域,各类计算和存储系统百花齐放,概念和原理又千差万别,对于元数据的采集、组织、理解、信任等,都带来了很大挑战。

在调研各个开源软件及技术体系基础上,火山引擎DataLeap选择基于Apache Atlas改造,而这套数据目录系统主要依赖五大关键技术:

第一,数据模型统一。一方面,DataLeap通过充分复用各种元数据类型间的相似能力,获得数据模型定制灵活性;另一方面,DataLeap将数据源关联的能力进行收敛到一起,以降低后续的维护成本。

第二,数据接入标准化。当用户接入新的元数据时,只需要重新编写Source和Diff Operator,而其他组件可直接复用,以标准化的connector节省接入和运维成本。

第三,搜索优化。在数据目录中,搜索是用户最广泛使用的功能,也是用户找数主要的手段。搜索优化可分为离线部分和在线部分。离线部分负责汇集各类与搜索相关的数据,完成数据清洗或者模型训练,再根据不同的用途,写入不同的存储,供给在线搜索模块使用。在线部分则分为搜索理解、召回、精排三个主要阶段,步骤和概念与通用搜索引擎对齐。

第四,血缘能力。完备的血缘能力,既可以帮助数据生产者梳理、组织元数据,也可以帮助数据消费者找数、理解数据上下文。火山引擎DataLeap在设计上充分考虑血缘链路的多样性和复杂性,并在血缘质量上,通过定义有效的血缘准确率、覆盖率和时效性,确保血缘信息准确、全面和实时性。

第五,存储层优化。当业务中有越来越多的元数据接入数据目录,图存储中的点和边将分别到达百万和千万量级,造成读写性能出现问题。在读优化和写优化层面,火山引擎DataLeap分别通过开启MutilPreFetch 能力、去除Guid全局唯一性检查,最终实现小表性能小于100ms、中表性能2~5s、大表性能0.5~1min。

据介绍,火山引擎DataLeap能帮助企业快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,其中数据目录能力主要涵盖在数据地图平台,该平台通过提供数据检索、元数据详情查看、数据理解等功能,解决找数难、理解数据难的痛点,同时支持数据专题、血缘图谱、数据发现、库表管理等特色功能。

 

目前,火山引擎DataLeap的数据地图平台已接入全链路核心元数据,包括LAS、MySQL、ByteHouse CE、ByteHouse CDW、TOS、LasFS、EMR hive等,提供可视化的血缘关系展示能力,帮助用户全面的探查了解数据,支持表、字段级别血缘可视化查询,以及按层级、范围筛选展示,可根据用户需求灵活适配。

立即跳转火山引擎DataLeap了解详情

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/645713.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ESXI 环境搭建和配置

ESXI 环境搭建和配置 ESXI简介 ESXi专为运行虚拟机、最大限度降低配置要求和简化部署而设计。只需几分钟时间,客户便可完成从安装到运行虚拟机的全过程,特别是在下载并安装预配置虚拟设备的时候。 在VMware Virtual Appliance Marketplace 上有800多款…

RabbitMQ 安装

目录 一、安装RabbitMQ1、Linux 安装⑴、官网rpm包安装①、下载rpm安装包官网下载erlangrabbitmq packagecloud下载erlangrabbitmq ②、安装 erlang③、安装rabbitmq ⑵、packagecloud快速安装⑶、添加用户账号及权限并登陆⑷、卸载erlang与rabbitmq卸载rabbitmq卸载erlang 2、…

积聚产业发展新动能|2023开放原子全球开源峰会OpenAtom OpenHarmony分论坛成功举办

6 月 12 日,以“OpenHarmony 共建开放,共享未来”为主题的 2023 开放原子全球开源峰会 OpenAtom OpenHarmony(以下简称“OpenHarmony”)分论坛在北京北人亦创国际会展中心第一报告厅圆满落幕。开放原子开源基金会理事长孙文龙、华…

【mongoDB数据库基本操作】

mongoDB 基本命令使用 mongoDB数据库基本操作1、连接/创建数据库3、查看数据库4、删除数据库 表的基本操作1、创建表2、删除表3、查询表4、更新表删除表中的记录 mongoDB数据库基本操作 连接mongoDb服务器 进入到mongoDb安装目录 cd /data/mongodb/bin 使用./mongo连接到本…

为什么你的领导,总是挑刺,要求你要有自己的思考?

为什么你的领导,总是挑刺,要求你要有自己的思考? 如何思考?其实有方法论和框架,照这做,也能提升自己的思考能力和维度。 尴尬的问题 在职场的给位是否遇到过这种情况。领导在开完一次沟通会,或…

公元前后的王莽与屋大维

公元元年前后,地球的两端同时产生了两个辉煌的大国,z国和罗马。 我国经历了漫长而又松散的分封制后,在秦帝国时期实现了大一统,在那个时代,因为分封制有效的管理半径最多也就是500公里左右,所以非常不适合…

牛客网1658 页的 Java 岗面试突击手册,GitHub已下载量已过百万

不得不说程序员除了做项目之外,提升自己技能最快的方式就是【看书!】和【刷题!】,这里说的刷题不是无脑刷,而是要明白面试官为什么会问这个问题,以及这个问题的意义在哪里! 今天带来的是全新升…

Beyond Compare 4 正版激活码 -变化是不可避免的,因此,请使用最好的工具对其进行管理。

Beyond Compare 是开发人员、系统管理员和其他人用来比较、合并和同步数据的软件应用程序。它可以在Windows,macOS和Linux上运行。 功能特点 比较文件夹、文件 一、随时随地访问数据 Beyond Compare 是敏捷的。 我们的虚拟文件系统以透明的方式将您连接到您的数据…

Stable Diffusion实操示例

一、负向提示词 解决问题:生成的图片存在瑕疵,比如多只眼睛、多只手指等情况。通过embeddings可以将避免一些常用的不好结果。 方法:从https://civitai.com/?utm_sourcenettsz.com 中下载负向提示词的embeddings模型, EasyNeg…

SOLIDWORKS 2023修复遗漏配合参考及装配体磁力配合

1、修复遗漏的配合参考 ① 为面、边线、平面、轴和点的参考修复遗漏的配合参考 ② 位于与遗漏的参考相同的位置和方向的零部件上选择参考,可修复零 部件遗漏的参考 ③ 包含多个遗漏的配合参考的模型,右键单击配合 文件夹,然后单击自动修复…

AI Expo 2023 | 图技术激活数据资产主题论坛线下报名限时开放!

洞察关联数据 创造无限可能 图技术激活数据资产主题论坛 将于2023年6月25日在苏州召开。 大会背景 本次图技术激活数据资产论坛,由苏州市大数据服务中心协会主办、浙江创邻科技有限公司承办,苏州市计算机学会、苏州市大数据和人工智能产业联盟协办&…

(五) ElasticSearch 数据类型和文档CRUD操作

1.ES数据类型 官方文档地址:https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-types.html#_complex_datatypes 核心数据类型(Core Data Types): 核心数据类型是 Elasticsearch 最基本和常用的数据类型…

DataX 3.0 在Windows下基于MySQL做数据迁移示例

在 Windows 安装 Datax: Datax 官网:https://github.com/alibaba/DataX 环境要求: 1:JDK(1.8以上,推荐1.8,并配置好环境变量) 2:Python(网上推荐Python2.…

Java线程的同步机制(synchronized关键字)

线程的同步机制(synchronized ) 1.背景 例子:创建个窗口卖票,总票数为100张.使用实现Runnable接口的方式 * 1.问题:卖票过程中,出现了重票、错票 -->出现了线程的安全问题2.问题出现的原因:当某个线程操作车票的过…

罗马不是一天建成的,那为什么建了那么多罗马?

这一个罗马,那一个罗马,东一个罗马,西一个罗马,世界历史的大半部分都在跟罗马打交道。更要命的是四大文明古国还没有古代罗马。 存在感这么强,还不是四大文明古国,名字还难记,公元前居然就有共…

P19[6-7]编码器接口(硬)

编码器接口自动控制定时器时基单元中的CNT计数器进行自增或自减,(初始化后CNT=0;编码器右转,产生一个脉冲,CNT++,左转,产生一个脉冲,CNT--)。相当于外部时钟,同时控制CNT计数方向和计数时钟。每隔一段时间取CNT的值,再把CNT清零,就表示编码器的速度。 编码器测速即测频法…

总结linux查看当前用户的方法

操作环境:ubuntu 18.04系统 一、查看当前用户 1、shell终端中输入:who 当前用户为:root,使用pts的终端,后面是登陆的时间 2、shell终端中输入:whoami 当前用户为:root,很精简输出结果…

SpringBoot - spring-boot-maven-plugin插件介绍

简述 这个是SpringBoot的MAVEN插件,主要用来打包的,通常用来将项目打包成JAR或者WAR文件(生成FAT 包)。 这个插件生成的包是可执行的JAR。 Spring Boot Maven Plugin Documentation:https://docs.spring.io/spring-boo…

了解和使用 Kubernetes

文章目录 前言Kubernetes 集群安装Kubernetes 功能Kubernetes 核心概念Kubernetes 部署应用发布部署脚本发布服务使用 Ingress配置自动伸缩 Kubernetes 常用命令Kubernetes 故障排查 前言 通过 《容器集群管理工具 Docker Swarm》可以知道,在部署、调度、扩展和管理…

计算机时间到底是怎么来的?程序员必看的时间知识!

参考文章&#xff1a;https://xie.infoq.cn/article/22d762b26daee8b3f404f60a6 <title>计算机时间到底是怎么来的&#xff1f;程序员必看的时间知识&#xff01;_操作系统_Kaito_InfoQ写作社区</title><meta name"description" content"大家好&…