BitSail issue 持续更新中,快来挑战,赢取千元礼品!

news2024/11/20 8:37:12

背景介绍

近期,BitSail 社区发布了 Contributor 激励计划第一期,包含众多 issue,吸引了很多热衷开源的小伙伴的加入,详情可查看👉https://mp.weixin.qq.com/s/GkGs-EqTV-szvzndMYrG1g

Issue 介绍

为了扩展 BitSail 的使用场景、适配用户的需求,BitSail 社区新增了十余 issue 来优化 BitSail 的功能。这次的 issue 包含了类型系统优化、connector 功能支持、测试覆盖等方面,欢迎大家前来支持贡献!

下面介绍部分新增 issue,这些 issue 在各方面对 BitSail 进行了优化。

1.使用优化:Mysql Reader 支持 schema 发现

用户在使用 Mysql reader 时,需要在任务配置中指定 schema,即要读取列的列名和类型。Mysql reader 会根据用户配置拼出一个 select 语句,用以从 mysql 拉取数据。

这种方式的好处在于可以灵活地选择 mysql 中的部分列进行读取。但是在实际场景中,用户往往需要读取 mysql 表中的全部列,这种时候 schema 配置就成为了一种负担。下图展示了一个读取包含 4 列数据 mysql 表的 schema 配置。

{    "job":{        "reader":{            // 仅展示schema配置部分            "columns":[                {                    "name":"id",                    "type":"bigint"                },                {                    "name":"name",                    "type":"varchar"                },                {                    "name":"int_info",                    "type":"int"                },                {                    "name":"double_info",                    "type":"double"                },                {                    "name":"bytes_info",                    "type":"binary"                }            ]        }    }}

因此,本次 BitSail 社区新增一个 issue 用于优化 Mysql reader 的 schema 配置,希望能在用户未配置 schema 信息时直接使用 mysql 表的元信息。

https://github.com/bytedance/bitsail/issues/248

类似的,社区也新增了一个 issue 用于支持在 Hive writer 中自动获取 schema。

https://github.com/bytedance/bitsail/issues/249

2.接口优化:批场景下的分片分配支持

为了支持多并发读取数据,目前主流做法是将数据源分成多个分片后分配给多个子任务并发读取。BitSail 定义了SourceSplitCoordinator接口用以支持这样的分片过程。

在批式场景中,数据源往往是静态的,reader 通过连接数据源生成所有分片后,即可制定一份分片的分发计划。

本次社区新增了一个 issue 用于构建一个支持如上批式场景的SourceSplitCoordinator

https://github.com/bytedance/bitsail/issues/247

3.文档优化:并行度计算

BitSail 支持通过任务配置设置 reader 和 writer 的并行度,但是目前没有详细的文档进行说明。因此本次新增一个 issue 希望能添加文档介绍 BitSail 的并行度设置和计算。

目前所有文档都会在BitSail主页进行展示。

https://bytedance.github.io/bitsail/zh/

致谢

BitSail 社区目前已经有多位贡献者,在此也对各位贡献者和其他朋友由衷地表示感谢。期待更多开发者、技术爱好者共同建设 BitSail 社区!

更多激励计划任务请关注 issue 链接:https://github.com/bytedance/bitsail/issues

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/110562.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

全面edge浏览器体验优化

前言 使用Windows系统的朋友们肯定都多少会用到edge浏览器,但是你们都真的了解edge的实用功能吗,本文会介绍edge优秀好用的自带功能以及能极大程度提升使用体验的第三方插件,帮助你打造一个用着更加顺手方便的edge浏览器。 自带功能 1、re…

m基于GNN图神经网络的目标匹配分析matlab仿真

目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 在一些应用领域数据可以自然而然地表示成图结构,包括 蛋白质组学,图像分析,场景描述 ,软件工程,和自然语言处理。最简单的图结构包括单…

车辆信息网站

开发工具(eclipse/idea/vscode等): 数据库(sqlite/mysql/sqlserver等): 功能模块(请用文字描述,至少200字):

当谈论 React hook,我们究竟说的是什么?

这个标题很大,但是落点很小,只是我,一个开发者在学习和使用 hooks 中的一点感受和总结。 React hook 的由来 React hook 的由来,其实也可以看作是前端技术不断演进的结果。 在 world wide web 刚刚诞生的洪荒时代,还…

无人机自由飞行测试台 FFT GYRO 600

产品简介 无人机在研制过程中需要不断地进行飞行测试,而测试的过程不是万无一失的,飞行过程中发生任何错误都有可能会导致无人机的损毁或破坏,更严重地甚至会造成外界伤害。 基于此我们推出了无人机的三旋转自由度(3-DOF)飞行平台测试系统&…

标准I/O

1.标准I/O介绍 文件基础 概念: 一组相关数据的有序集合 文件类型: 常规文件 r 目录文件 d 字符设备文件 c 键盘,鼠标 块设备文件 b U盘,SD卡等 管道文件 p 套接字文件 s 符号链接文件 l (类似于快捷方式)…

【Lua】Lua基础语法

1 Lua 简介 Lua 是一个小巧的脚本语言,用标准C语言编写而成,由巴西里约热内卢天主教大学的 Roberto Ierusalimschy、Waldemar Celes 和 Luiz Henrique de Figueiredo 三人于 1993 年开发,设计目的是为了灵活嵌入应用程序,实现灵活…

基础IO——缓冲区

文章目录1. 缓冲区理解1.1 缓冲区在哪里1.2 刷新策略2. 标准输出和标准错误2.1 模拟perror1. 缓冲区理解 什么是缓冲区呢? 缓冲区的本质:就是一段内存 为什么要有缓冲区呢? 大家在日常生活中,如果我们想寄东西给朋友&#xff0c…

ELK集群部署---LogStash,Filebeat的部署

1. 环境规划: 主机名IP地址角色node1192.168.56.111 ElasticSearch(master) Zookeeper Kafka node2192.168.56.112 ElasticSearch(slave) Kibana Zookeeper Kafka node3192.168.56.113 ElasticSearch(slave) Zookeeper Kafka node4192.168.56.114 Logstash Filebeat 2. nod…

vue 实现类似甘特图大屏效果

最近在做大屏展示,其中一个需求是展示生产过程中投料情况,效果类似甘特图。 思路:1.先得到整个过程的开始时间startTime和结束时间endTime。计算出整个过长经历的时长。 2.计算横向坐标的开始时间start和结束时间end,坐标的开始时…

五分钟了解GRE是什么,四信GRE相关应用推荐

随着互联网新技术的发展以及智能化水平的提高,各企业对实时数据传输的需求也在不断提升,企业愈发重视数据中心的建设,各类虚拟网络技术相继被引入。今天,我们重点了解下云端“借道”鼻祖,善于“包装”的GRE&#xff0c…

新品上市|四信LTE Cat.1无线数传终端 推进中低速蜂窝典型应用

当前,物联网作为新型信息基础设施,已成为推动制造业、零售业、金融业、服务业等行业数字转型、智能升级、融合创新的重要支撑。《“十四五”信息通信行业发展规划》提出,要推进移动物联网全面发展,推动存量2G/3G物联网业务向NB-Io…

SSM医院病历

开发工具(eclipse/idea/vscode等): 数据库(sqlite/mysql/sqlserver等): 功能模块(请用文字描述,至少200字):

CentOS7安装git

CentOS7安装git前言一、git介绍二、使用yum安装git1.安装git2.查看git版本3.移除git三、源码包安装git1.安装依赖2.下载源码包3.解压4.git安装5.查看git版本总结前言 CentOS7安装git,刚开始使用yum安装git,发现安装的版本默认是1.8.3.1,如果…

yaml 资源配置清单使用详解——k8s声明式资源管理

目录 一、kubectl 操作 yaml 文件 1.应用yaml文件指定的资源 2.删除yaml文件指定的资源 3.查看资源的yaml格式信息 4.查看yaml文件字段说明 5.修改yaml文件指定的资源 (1)离线修改 (2)在线修改 二、编辑yaml配置清单生成…

Java开发如何通过IoT边缘ModuleSDK进行进程应用的开发?

摘要:为解决用户自定义处理设备数据以及自定义协议设备快速接入IOT平台的诉求,华为IoT边缘提供ModuleSDK,用户可通过集成SDK让设备以及设备数据快速上云。本文分享自华为云社区《【华为云IoTEdge开发实战】Java开发如何通过IoT边缘ModuleSDK进…

字符串函数剖析(2)

最慢的步伐不是跬步,而是徘徊;最快的脚步不是冲刺,而是坚持。——《人民日报》 字符串函数的重点: 文章不长,是为了让你一点点消化所有内容: 1.strncpy函数的脾气 1.1模拟实现strncpy函数 2.strncmp函数…

马化腾说视频号是全公司希望

我是卢松松,点点上面的头像,欢迎关注我哦! 这应该是,腾讯这家公司创办以来,马化腾最焦虑也最外露的一次讲话了,对于腾讯内部的大会,马化腾先生作了重要发言,因其在内部员工大会的讲…

边界网关协议BGP(计算机网络-网络层)

目录 因特网分层路由 分层路由和自治系统 边界网关协议 BGP BGP 的设计目标 BGP 发言人 路径向量算法 BGP 协议的要点 因特网分层路由 规模问题 路由选择算法将很难收敛 交换的路由信息会占用大量的带宽 管理问题 许多单位不愿意外界了解自己单位网络的具体细节 希望采用…

新能源汽车补贴即将取消,汽车金融的促进作用逐渐显现

中国新能源汽车产业发展强劲。自2015年起,新能源汽车销量连续7年位居世界第一。特别是2021年以来,在政策支持、技术驱动、消费者接受度提升等多重因素共同影响下,中国新能源汽车市场实现了超越式的发展。2022年1-10月,新能源汽车批…