得物染色环境落地实践

news2025/1/24 5:33:24

1. 背景

测试环境治理一直是各大公司非常重要的一个课题,测试环境稳定性很大程度影响迭代开发&测试效率。

综合来看,测试环境不稳定的原因主要有以下几点:

  1. 测试环境的变更非终态变更,经常会有代码发布/配置发布导致服务无法启动或者链路有问题的情况。
  2. 变更频繁,开发需要联调、测试需要迭代测试,代码需要变更,配置也需要变更,权限控制就比较难做,增加了测试环境不稳定性。
  3. 并行需求,同一时间单个应用需要多个分支同时支持多个需求的测试,测试环境资源的抢占和冲突比较明显。

得物测试环境稳定性治理也经历了几个阶段:

  • 2020~2021:多套物理环境隔离方案(基于ECS)

    T0、T1、T2三套测试环境,每套环境物理隔离,无资源冲突和共享。

    规划T1用于迭代测试、T0用于集成回归、T2用于独立项目分配使用,但在实际使用过程中,业务测试并行太多,冲突比较明显,环境就开始乱用了,谁有需求就随便占用一套环境使用了。结果就是没有一套稳定的环境,测试有效性无法保障,并行项目环境冲突也无法解决。

  • 2021~2022:MF全链路容器环境方案(基于容器)

    随着业务增长,3套测试环境已明显不能满足业务需求,因此去年得物基于容器快速搭建了10套MF环境用于支撑独立项目的测试。

    MF环境基于T0搭建,DB和T0共享,其他所有资源均独立,目的是做到业务只需保障T0的稳定性,所有MF环境可快速基于T0同步最新服务和最新配置,做到环境随用随取,解决并行项目环境冲突问题。

    实际实施过程中,项目环境冲突的问题解决了,但是MF环境的稳定性问题依旧比较严重,维护成本巨大,主要原因集中在:

    T0环境稳定性,并非所有域都在T0集成回归,导致T0稳定性无法保障

    MF同步了T0之后会因为各种各样的原因需要二次调试验收(新增服务丢失、配置不全/错乱等)

    MF环境使用过程中,基础服务(sso、网关、中间件)等相关变更无法及时更新到MF环境,影响业务测试

    因此在2022年下半年,开始尝试用染色环境解决环境稳定性问题。

  • 2022年:染色环境方案(基于流量隔离)

    染色环境是基于流量隔离的方案,通过流量标透传的方式,把基准环境流量和染色环境流量隔离开,实现多环境的方案,支持并行测试互不影响。

    相较于MF环境而言,不需要维护多套全链路环境,维护成本降低了。所有变更的服务都在染色环境部署的话,基准环境稳定性就会提升,相当于所有环境的稳定性都提升了。

    下面主要介绍得物染色环境是如何做的

2.染色环境方案

2.1 基本思路

在这里插入图片描述

如下图所示,最初的设想是:

  1. 服务可以按照流量标把流量路由到相应染色服务上
  2. 如果染色标对应染色环境没有此服务,则流量会走到基准环境
  3. 如果染色环境服务添加了,没有部署,或者部署了服务进程挂了,则流量会报错而并非走到基准环境(避免一些服务异常问题没有暴露)
  4. DB、MQ、Redis等中间件期望用同一套,避免浪费

基于此设想,需要从哪些地方入手去改造以支持染色环境呢?可以从设想拆解去解决:

  1. 流量标如何透传?
  2. 流量路由如何路由到染色节点?
  • rpc接口如何路由到染色节点?
  • MQ消息如何让染色环境consumer消费?
  1. 解决完流量标透传问题,以及染色路由问题后,需要考虑流量发起方如何把染色标带上?

2.2 实现方案

以下方案只做流量隔离,DB数据层不做隔离

1.流量标如何透传?

首先流量标在流量入口层会放到http header里面的x-infr-flowtype字段:

x-infr-flowtype:<CE_ColoringEnv> ##CE_是固定前缀,为了和压测标做区分

从流量到网关后,服务链路上面流量标往下透传的方式是通过OpenTracing规范中的baggage能力,从header里面获取染色标,并塞到trace里面向下透传。

在这里插入图片描述
在这里插入图片描述

这样整个链路里面就都能拿到染色标了

2.流量路由如何路由到染色节点?

这里分两块考虑:

(1)rpc调用,拿到染色标之后,如何找到染色节点?这里要解决的是怎么识别染色节点

(2)MQ消息,producer如何发送带染色标的消息,consumer如何处理带染色标的消息

  • 服务注册–识别染色节点

    • 首先染色环境创建的时候,会定义好染色标:

在这里插入图片描述

在此染色环境添加服务部署的时候,默认会把染色标注入到环境变量COLORING_ENV

容器发布配置页面会自动增加COLORING_ENV变量

在这里插入图片描述
在这里插入图片描述

至此,服务启动时已可以读到COLORING_ENV环境标变量了,下一步就看注册中心怎么去区分染色节点了.

首先服务在添加到染色环境的时候,服务会在注册中心染色场增加一个节点,标明该服务在此染色环境是有服务节点存在的。

染色场主要解决的问题是:如果染色节点挂了,染色环境流量应该判断该染色环境是否应该有染色节点,有的话就报错,没有的话才会走到基准环境。避免测试问题未暴露。

染色场:CE_< ServiceName>

在这里插入图片描述

染色场服务节点:<COLORING_ENV>:80
在这里插入图片描述

其次在服务注册时候,服务节点信息和方法注册会携带染色标<coloring_env>:
在这里插入图片描述
在这里插入图片描述

至此,注册中心就可以基于染色标识别染色节点,业务服务(基于fusion框架)可以根据Trace中的染色标结合注册中心染色节点做染色流量路由。

  • MQ改造–识别和处理MQ消息

MQ主要解决的是,染色环境的消息生产者producer发送的消息,只被染色环境的消费者消费,染色环境如果没有消费节点,则由基准环境消费者消费。

这里之前讨论了两种做法:

第一种是基于Topic隔离的方案,每套染色环境使用不同的topic进行通信,这样隔离性比较好,消息不容易串掉。

第二种是Topic不隔离,所有染色环境共用一个topic,生产者Producer在生产消息时候把染色标带上,consumer每套染色环境有一个,consumer在做消费时候会判断消息里面的染色标和本地染色标是否一致,如果一致则消费,如果不一致则直接返回ACK不走具体消费逻辑。

目前选择的是第二种方案,下面基于第二种方案做详细介绍:

基本流程

在这里插入图片描述

如图所示:

  1. ServiceB_Color1会自动注册GID_Color1_Topic消费组,监听Topic_A。Color2和Color3环境一样。
  2. 带Color1的消息由ServiceA_Color1生产,ServiceB_Color1消费。
  3. 带Color2的消息由ServiceA_Color2生产,ServiceB消费,因为ServiceB在Color2染色环境没有节点
  4. 带Color3的消息由于染色环境Color3没有ServiceA_Color3节点,则带Color3的流量会打到基准环境ServiceA,此时ServiceA会生产带Color3的消息,此消息由ServiceB_Color3消费

配合业务说明:

染色环境在启动时候,带染色标的GID会自动创建,eg:原GID是GID_AAA,染色自动创建的GID为GID_<coloring_env>_AAA

在这里插入图片描述

下面看消息的内容和处理逻辑:

在这里插入图片描述

如上图:染色消息属性里面会增加DMQ_ENV_TAG字段,添加染色标,然后对应染色环境订阅组才会消费。

看上面这张图,会发现“貌似”所有染色环境都消费了,其实是其他环境直接返回了ACK,未走具体的消费逻辑,具体可以看日志。

代码说明:基于Message里面染色标msgTag和本地服务染色标envTag进行判断做消费逻辑区分。

在这里插入图片描述

3.染色流量入口携带染色标

解决完染色标透传,以及染色标逻辑处理后,剩下就是如何在流量发起方把染色标给带上了,其实就是把染色标塞到header里面的x-infr-flowtype字段。

其中染色环境列表的获取由发布平台提供接口给到各流量入口方去选择。

目前业务推广过程中,主要遇到的入口方大致有以下几种:

入口流量携带染色标相对逻辑比较简单,这里就不做详细技术介绍,只做使用层面介绍

在这里插入图片描述

至此整个业务改造基本完成,从染色流量如何构造、流量标如何透传、染色节点如何识别以及识别后重点染色逻辑如何处理等一整套流程就清晰了。

3.业务应用效果

3.1 实施路径

染色项目整个实施路径包含几个阶段:

  1. 项目立项&中间件改造(4月-6月)
    • 包含基架改造(统一框架、网关、注册中心、配置中心、超时中心、DMQ等)&客户端改造&发布平台改造等等,以及改造完成后基础链路验证
  2. 线上灰度&全链路服务适配(7月~8月)
    • 7月初:5个交易&中间件相关服务升级相关jar包带上线进行验证,保证不会对染色改造不会对生产有影响。
    • 8月份:开始推进全域应用进行染色相关jar包升级
  3. 独立项目使用(9月)
    • 9月底之前,已经有若干独立项目应用染色环境测试验证完成
  4. 业务迭代使用(10月~11月)
    • 10月份开始尝试推进全业务进行染色环境试用排错
    • 试用结束,逐步推进迭代使用染色环境

3.2 业务使用效果

独立项目:目前全域的独立项目已全量切换至染色环境测试。
版本迭代:就最新的版本迭代使用结果来看,全域95%以上的需求都可以使用染色环境测试。

剩余5%的需求场景主要是涉及以下两个方面:

  1. 数据隔离:目前已有方案在支持,会涉及少量需求支撑。
  2. 前端染色:目前染色环境主要解决了后端染色的需求,部分场景需求依赖前端染色(多前端支持),方案也基本落地,会配合后端染色一起应用。

4.总结

染色环境现阶段解决了测试环境冲突和测试环境稳定性的问题,并且相较之前多套独立环境的方案,在成本上也有比较大的节省。后续得物也会尝试用染色的能力解决生产灰度发布问题,相信也会有不错的效果。


*文/大地

关注得物技术,每周一三五晚18:30更新技术干货

要是觉得文章对你有帮助的话,欢迎评论转发点赞~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/140852.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ArcGIS基础实验操作100例--实验47融合相邻面要素

本实验专栏参考自汤国安教授《地理信息系统基础实验操作100例》一书 实验平台&#xff1a;ArcGIS 10.6 实验数据&#xff1a;请访问实验1&#xff08;传送门&#xff09; 高级编辑篇--实验47 融合相邻面要素 目录 一、实验背景 二、实验数据 三、实验步骤 &#xff08;1&am…

【Vue3】Vue内置指令

注意&#xff1a;在vue中使用v-开头的都是Vue指令。一、v-html插入标签可以识别标签。<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"&…

argparse简介

一、argparse简介 argparse 模块是 Python 内置的用于命令项选项与参数解析的模块&#xff0c;argparse 模块可以让人轻松编写用户友好的命令行接口&#xff0c;能够帮助程序员为模型定义参数。 argparse定义四个步骤 导入argparse包 ——import argparse创建一个命令行解析…

Fastjson反序列化审计及验证

简介&#xff1a;数字化平台已经与我们生活紧密结合&#xff0c;其用户规模庞大&#xff0c;一旦系统出现故障&#xff0c;势必会造成一定生活的不便。比如疫情时代&#xff0c;健康码已经成为人们出门必备的条件&#xff0c;一旦提供健康码服务平台出现故障&#xff0c;出行将…

imx6ull内核移植记录:failed to find ocotp node

前言 记录记录&#xff0c;是个和MAC地址相关的信息。 一 尝试尝试 [ 0.093958] vddsoc: supplied by regulator-dummy [ 0.126215] failed to find ocotp node [ 0.126744] No ATAGs? 经过分析&#xff0c;拆分为两个问题&#xff1a; [ 0.126215] failed t…

Web前端 CSS3 02 小练习

京东小项目 设置一个京东侧边栏 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content&quo…

读 NebulaGraph源码 | 查询语句 LOOKUP 的一生

本文由社区用户 Milittle 供稿 LOOKUP 是图数据库 NebulaGraph 的一个查询语句。它依赖索引&#xff0c;可以查询点或者边的信息。在本文&#xff0c;我将着重从源码的角度解析一下 LOOKUP 语句的一生是如何度过的。 本文源码阅读基于内核源码的 v3.3.0 版本&#xff0c;详见 …

实现SQLSERVER 调用 C# 代码

简单例子 首先写一段简单的 C# 代码&#xff0c;然后把它编译成 dll。 namespace Bussiness {public class UserFunctions{public static string UserLogin(string username, string password){var random new Random();var isSuccess random.Next() % 2 0;return isSucce…

【漏洞复现】钉钉rce反弹shell

文章目录 一、漏洞描述二、漏洞原理三、影响版本四、复现过程0.环境说明1.msf 生成shellcode2.msf开启监听3.将生成的shellcode替换原shellcode4.开启web服务&#xff0c;并上传poc文件&#xff0c;构造poc5.从钉钉发送poc给受害者6.受害者点击即会触发漏洞&#xff0c;在msf监…

前端菜鸟如何快速开发个人产品

我是车辙&#xff0c;我的掘金小册《SkyWalking&#xff1a;应用监控和链路跟踪》已经上线啦&#xff0c;这是我的第一本电子书&#xff0c;欢迎大家订阅。 大家好&#xff0c;我是车辙。在完成小册后的一段时间&#xff0c;我突然想开发一款个人H5产品。在起初有这样想法的时候…

长、中、短视频“再战”微短剧

配图来自Canva可画 近年来&#xff0c;流量焦虑一直伴随着国内的视频平台&#xff0c;比如&#xff0c;制作精良的长视频由于剧集冗长正在被“追求效率”的年轻人抛弃&#xff1b;高歌猛进的短视频也因为无法承受太多有价值的内容而面临增长瓶颈。在此背景下&#xff0c;制作门…

中国工业以太网交换机市场分析

一、我国以太网交换机市场&#xff1a; 工业以太网交换机&#xff08;IndustrialEthernetSwitches&#xff09;是能够满足工业现场需要&#xff0c;技术层面与商业以太网交换机适配&#xff0c;而实时通信、可靠性、稳定性、安全性、环境适应性等各个方面规定高于商业以太网交…

玩转X3派,健身游戏两不误

一、准备工作 Windows电脑端安装拳皇游戏 &#xff08;因为是按键模拟&#xff0c;理论上只要是按键控制的游戏都可以玩&#xff0c;本文用MAME模拟器作例子&#xff0c;下载MAME&#xff1a;MAMEdev.org | Home of The MAME Project&#xff09; Windows可直接从该目录下载&…

常用的PHP伪协议大全

目录 常见文件包含函数 常见协议 php:// php://filter&#xff08;本地磁盘文件进行读取&#xff09; php://input &#xff08;读取POST数据&#xff09; file:// data:// 常见文件包含函数 函数功能include()代码执行到 include() 函数时将文件包含include_once()当…

如何操作工单系统

如何自定义工单字段 点击【工单管理】 > 点击【工单自定义字段】。选择【添加新的自定义字段】&#xff0c;即可进行字段编辑。管理人员可以在此页面自行添加要在工单上显示的内容&#xff0c;更改工单的格式&#xff0c;使其更满足于自身实际操作需要。管理员可选择添加单…

从“少林寺”毕业后,我当上了开源社区“区长”

本期名人堂我们有幸邀请到了Alluxio创始成员兼开源社区副总裁范斌先生。范斌先生讲述了自己的求学、工作、加入开源社区的经历&#xff0c;以及对未来十年数据编排发展的展望&#xff0c;和对开发贡献者的一些建议。 问题 1&#xff1a;范斌老师您好&#xff0c;很荣幸有机会采…

归并排序与逆序对数量模板题

归并排序 归并排序模板题 给定你一个长度为 n 的整数数列。 请你使用归并排序对这个数列按照从小到大进行排序。 并将排好序的数列按顺序输出。 输入格式 输入共两行&#xff0c;第一行包含整数 n。 第二行包含 n 个整数&#xff08;所有整数均在 1∼109 范围内&#xff…

DCG开年大戏上演“拖字诀”,爆雷恐迎加密至暗时刻

文/章鱼哥出品/陀螺财经币圈无新事&#xff0c;新年伊始&#xff0c;DCG被Gemini催债引发爆雷传言的事情一如FTX、SBF爆雷当初 &#xff0c;DCG是否会步他们的后尘&#xff0c;目前还不得而知&#xff0c;但这开年一记重锤&#xff0c;给2023的加密领域开了个坏头。祸起Gemini …

【王道·计算机网络】第一章 计算机网络基本体系【未完】

1. 计算机网络概述 1. 概念 计算机网络是一个将分散的、具有独立功能的计算机系统&#xff0c;通过通信设备与线路连接起来&#xff0c;由功能完善的软件实现资源共享和信息传递的系统。简而言之&#xff0c;计算机网络就是一些互联的(通过通信链路互联互通)、自治的计算机系…

【4.1】Ribbon负载均衡原理

【4.1】Ribbon负载均衡1 Ribbon--负载均衡原理1.1 负载均衡流程1.2 源码分析&#xff08;debug&#xff09;2 总结1 Ribbon–负载均衡原理 1.1 负载均衡流程 图中的地址是真实可用的地址吗&#xff1f; 显然不是。 这样一个请求实际上是无法直接到达user-service的。 因此中间…