转转测试环境docker化实践

news2024/12/25 9:29:28

    测试环境对于任何一个软件公司来讲,都是核心基础组件之一。转转的测试环境伴随着转转的发展也从单一的几套环境发展成现在的任意的docker动态环境+docker稳定环境环境体系。期间环境系统不断的演进,去适应转转集群扩张、新业务的扩展,走了一些弯路,但最终我们将系统升级到了我们认为的终极方案。下面我们介绍一下转转环境的演进和最终的解决方案。

1 测试环境演进

1.1 单体环境

    转转在2017年成立之初,5台64G内存的机器,搭建5个完整的测试环境。就满足了转转的日常所需。一台分给开发,几台分给测试。通过沟通协调就能解决多分支并行开发下冲突问题。

1.2动态环境+稳定环境

    随着微服务化的进行,转转的服务数量是急速扩充的。分支并行开发增多,共用环境造成的互相影响也逐渐增多。单体环境已经不能满足我们的需求。新的组织形式被提了出来。动态环境部署修改的服务和一些必要服务。稳定环境部署和线上一致的服务。同时我们开发了一个环境平台去管理环境的申请到回收的整个生命周期。阶段性的满足了我们诉求。

    存在问题:请求进入到稳定环境之后,调用将会在稳定环境中,无法调用到动态环境的服务。导致被测服务之前的所有服务、mq的生产方都要部署到当前测试机上,即使这些服务没有任何变化,随着集群规模的继续扩大,对资源的消耗飞速增加。

1.3 动态环境+稳定环境(ip路由)

    对于上面的问题,我们期望能做成请求的流量是动态环境下优先,如果没有的情况下再请求到稳定环境上,这样测试机上只部署发生了变化的服务和入口服务(必需)就可以了。随后和架构运维一起实现了ip路由的功能,就是将ip作为泳道名称向下传递。

    这个方案上线后,资源使用量下降30%左右。在2019年上线后的两年内,转转经历了和找靓机合并,芯片供应紧张导致机器长时间无法采购到,在这个背景下,保证了转转环境的应用。但是问题也日益的凸显。

2 环境使用中的问题

    从大的方面来讲:系统稳定性,资源成本,使用效率三个方面互相制衡。在成本(包括采购困难)这个限制下,旧机器无法淘汰导致稳定性问题。资源不足,现存的测试机使用率就降不下来,稳定环境就无法保持内存30%空闲率的下限,稳定性就会成问题。测试环境就需要严格的回收策略,导致用户的使用体验和使用效率下降,如:到期回收和资源空闲回收,肯定会导致部分使用中的环境被回收掉,尤其是大的内存环境,对应大的项目,恢复起来慢,影响也大。已有的架构下不能做到三者兼得,或者说不能做到我们希望的妥协。具体的问题如下:

2.1 资源的不足

    业务的增长和集群数量的增长,叠加服务器采购不到的情况,机器资源很紧张。测试资源池3.8T, 高峰占用率80%。剩余资源散落在20几台物理机上,导致超过40G内存的机器都是比较难申请的。

2.2 资源的浪费

    在机器资源不足的情况下,还存在机器资源浪费的情况,现有的方案,机器申请下来内存是固定的,不能自动的扩容和缩容,随着环境中被测服务的逐渐上线,最新版本会被同步到稳定环境中,动态环境和稳定环境中重复的服务会越来越多。但是无法将测试资源回收到资源池之中。

2.3 稳定性问题

  • 机器的稳定性

    众所周知,测试环境的机器基本都是线上过保的机器,年龄不一,但是一般比较大,损坏是常有的事情,我们高峰期一个月损坏了5台物理机。对业务产生直接影响。

  • 部署过程简要介绍

先简单介绍下机器启动部署过程:

  • 系统的稳定性

    • 整个初始化部署,流程7-8步,各个环境都可能出现问题,日常稳定性不足。

    • 在上面3个方案的历史迭代中,积累了大量的历史包袱。每次部署都要要对测试配置文件中的数据库、redis、mq、zk等配置进行替换,易出错,不易维护,工程规范化不足。

    • 在环境的构成中,环境中每次添加删除服务,都要重新计算nginx和host,依赖长,容易出错。

    • 日常使用中,内存不足的情况下,无法自动扩容,只能重新申请环境,时间成本高。

    • Kvm资源方案生态差,维护成本高。

    以上这些过程中的问题,每周会有25个左右环境问题反馈,我们每周都需要8h左右的运维时间。为了解决上面的问题,我们开发了系统错误分析工具,虚拟机重启工具、机器资源报警工具、机器存活监控、稳定环境整体迁移工具等众多管理员工具帮助用户和我们解决日常问题。整体来讲日常的维护成本是很高的。用户用着有很多问题,也很不爽。

3 解决方案:动态环境+稳定环境(标签路由)

3.1 解决方案

  • 系统底层架构修改

    由于以上的问题,我们和架构运维重新设计了环境平台的方案。我们最终采用了docker + 稳定环境的方案。ip路由变成了标签路由,一个环境不再是一台机器上部署多个服务,而是一个环境下,多个docker组成,多个ip组成,如下:环境yyy由服务B和D组成,ip分别为192.168.5.1和192.168.6.1。

    这样镜像初始化、agent初始化过程被干掉。环境的大小限制不再是一个宿主机大小决定,极限情况下一个环境可以包含转转所有的服务。单个环境容量不再是问题。    通过k8s的特性,部署时会新启动一个节点,并且新节点启动成功之后,下线旧节点。保证了服务在部署过程中,服务不中断。

  • 工程规范化

推动rd升级服务,将测试配置修改为正常的配置,从而下掉平台的配置替换。

  • nginx中心化

去掉每个环境上的nginx,消灭ng部署生成过程的问题。通过系统联动使用运维的中心化nginx。

  • host配置

推动删除不必要的公共host,在服务升级的过程中推动RPC的host调用方式升级为服务管理平台,剩余公共host采用内部dns能力进行解决。

  • 新问题

在制定新方案的过程中,一个目标是解决之前的依赖问题,一个就是尽量减少新方案带来的使用方式上变动,减少用户使用成本。环境docker化之后最大的影响是什么呢?一、ip变成了标签,不再是唯一ip。

二、服务每部署一次,ip变一次。

ip没了,那么入口host怎么配置?ip变了,那么如何登录到机器上?如何查看历史日志?如何进行单元测试?解决方案:

  1. 转转之前有泛域名解析的能力,如app.zhuanzhuan.com带标签可以写为app-${tag}.zhuanzhuan.com。

  2. 请求whistle配置中 增加:192.xxx.xxx.xxx app.zhuanspirit.com excludeFilter://*/api  reqHeaders://(Global-Route-Tag:test1234)。注:192.xxx.xxx.xxx为中心化nginx。

  3. 增加webshell 解决ip变动带来的登录成本增加。

  4. 增加历史日志查询功能,解决ip销毁后历史日志查询问题。

  5. 增加本地化标签路由的功能,解决单元测试每次输入ip的问题。变成标签设置。注:在后面的docker推广过程中,我们发现方案中,我们漏掉了远程debug场景下,ip变动的问题。最后通过开发了一个idea插件和环境平台联动解决。

  • 新的运营方式

    新的技术方案中,资源的最小管理节点由之前的一个kvm变为标签中的一个服务。在测试服务上线之后,环境平台会自动同步最新代码到稳定环境,之后将测试标签中刚刚上线的服务删除,回收资源。从而避免资源的浪费。

  • 成果

部署过程缩减为:服务镜像启动 + ng配置同步。步骤极大的缩减。稳定性、效率提高。在宿主机挂掉的情况下,k8s自动调度到新的节点。进一步保证稳定性。资源成本、稳定性和使用效率三方的制衡被打破。三方面充分的得到了提高。目前:

  • 用户问题:减少95%,并且大项目测试中,环境问题消失了。

  • 申请时间:由28分钟到5分钟以内。

  • 资源占用:3200G到1200G。

总结

在制定了这个方案之后,转转在架构、运维和工程效率三个部门互相配合情况下,1个月内完成开发,3个月内完成了服务升级。1年内完成了整体功能的推广。取得了丰硕的成果。
docker化之后,改变了整个环境的使用生态。现在,要用一个测试环境,申请则立即可用。过程中不再有任何心力消耗,不再有中断。并且资源管理的最小节点变为一个服务。环境系统的底层技术架构在我们看来处于业内目前的最优的方案,在系统、用户层面上做到了资源,性能和效率三者的整体性提升和平衡。整个系统是相对成熟的,可以预见的是,在未来很长一段时间内系统不需要再进行系统结构上的升级。

更多技术实现细节

关于作者

陈秋,转转工程效率负责人,主要负责配置管理和devops体系建设。欢迎大家留言、交流互相学习。

> 转转研发中心及业界小伙伴们的技术学习交流平台,定期分享一线的实战经验及业界前沿的技术话题。

> 关注公众号「转转技术」(综合性)、「大转转FE」(专注于FE)、「转转QA」(专注于QA),更多干货实践,欢迎交流分享~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/352793.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux系统基本设置:网络设置(三种界面网络地址配置)

网络地址配置:图形界面配置、命令行界面配置、文本图形界面配置 命令行界面配置 查看网络命令: 想要知道你有多少网卡,都可以通过这两个命令来查看 手动设置网络参数,我们可以使用nmcli这个命令来设置,我们需要知道…

【react实战小项目:笔记】用React 16写了个订单页面

视频地址 React 16 实现订单列表及评价功能 简介:React 以其组件化的思想在前端领域大放异彩,但其革命化的前端开发理念对很多 React 初学者来说, 却很难真正理解和应用到真实项目中。本课程面向掌握了 React 基础知识但缺乏实战经验的开发…

状态机分析

写在前面 状态机是指某事物具有有限状态,且在这些状态之间相互转换的抽象,比如门的开是一个状态,关又是一个状态。本文就一起来看下。 1:状态机的术语 1.1:state 状态,即当前所处的状态,如汽…

电子技术——内部电容效应以及MOS与BJT的高频响应模型

电子技术——内部电容效应以及MOS与BJT的高频响应模型 耦合和旁路电容决定了放大器的低频响应,同时内部电容效应决定了放大器的高频响应。本节,我们简单简单介绍一下内部电容效应,并且更重要的是如何在小信号模型中模型化内部电容效应。 MOS…

C语言操作符经典例题

一、选择题 1、下面哪个是位操作符:( ) A.& B.&& C.|| D.! 答案解析: 答案:A A正确,&——按(二进制)位与,对应的二进制位:有0则0&#…

将python代码封装成c版本的dll动态链接库

前言 将python程序打包成DLL文件,然后用C调用生成的DLL文件,这是一种用C调用python的方法,这一块比较容易遇到坑。网上关于这一块的教程不是很多,而且大部分都不能完全解决问题。我在傻傻挣扎了几天之后,终于试出了一个…

第八章认识 Vue.js基础

vue.js 是一套用于构建用户界面的渐进式前端框架 vue.js 核心实现: 相应式的数据绑定:当数据发生改变,视图可以自动更新,不用关心DOM操作,而转型数据库操作 可组合的视图组件:把视图按照功能切分成若干的…

vr电力刀闸事故应急演练实训系统开发

电力事故是在电力生产和输电过程中可能发生的意外事件,它们可能会对人们的生命财产安全造成严重的威胁。因此,电力事故应急演练显得尤为重要。而VR技术则可以为电力事故应急演练提供一种全新的解决方案。 在虚拟环境中,元宇宙VR会模拟各种触电…

07 react+echart+大屏

reactechart大屏大屏ECharts 图表实际步骤React Typescript搭建大屏项目,并实现屏幕适配flexible rem实现适配1. 安装插件对echarts进行的React封装,可以用于React项目中,支持JS、TS如何使用完整例子官网参考大屏 ECharts 图表 ECharts 图…

【Java基础】泛型(二)-泛型的难点:通配符

本文将尝试将通配符和泛型中的继承,多态一并讲解 关于泛型中继承的注意事项 因为Integer、Double继承了Number,根据多态性,以下语句是合法的 Number n new Integer(10); // OK, 父类引用变量可以指向子类对象 n 2.9 // OK,n实…

Mac-Charles

Charles是什么 HTTP代理服务器,HTTP监视器 Charles可以当作一个代理服务器 当浏览器链接这个代理服务器的时候 Charles会监控浏览器发出和接收的所有数据(reques,response,HTTP Headers(cookies和cash)) 反转代理器 Charles主要功能、 1.SSL代理 2.模拟慢速网络…

双目立体视觉:SAD算法

算法原理SAD(Sum of absolute differences)是一种图像匹配算法。基本思想:差的绝对值之和。此算法常用于图像块匹配,将每个像素对应数值之差的绝对值求和,据此评估两个图像块的相似度。该算法快速、但并不精确,通常用于多级处理的…

如何在Power Virtual Agents中实现身份验证

今天我们介绍一下如何通过身份验证的方式来使用Power Virtual Agents。首先进入“Microsoft 365-管理-Azure Active Directory管理中心”。 进入“Azure Active Directory管理中心”后选择“Azure Active Directory”中的“应用注册”-“新注册”。 输入新创建的应用程序名称后…

XXL-JOB分布式任务调度框架(一)-基础入门

文章目录1.什么是任务调度2.常见定时任务方案2.1. 传统定时任务方案示例2.2. 缺点分析3.什么是分布式任务调度?3.1. 并行任务调度3.2. 高可用3.3. 弹性扩容3.4. 任务管理与监测4.市面上常见的分布式任务调度产品5.初识xxl-job6.xxl-job架构设计6.1.设计思想6.2.架构…

程序人生 - 学习和分享

文章目录记于 230217学习安排泛学AI 和 未来记于 230217 刚入行时,经常看到技术博客中,博主们分享生活,比如相亲、上班生活,甚至还有人发结婚照。这个栏目通常被称为:程序人生。 这个现象已经很久没看到了&#xff0c…

BFC 是什么

在页面布局的时候,经常出现以下情况: 这个元素高度怎么没了?这两栏布局怎么没法自适应?这两个元素的间距怎么有点奇怪的样子?...... 原因是元素之间相互的影响,导致了意料之外的情况,这里就涉及…

吴恩达深度学习笔记(八)——卷积神经网络(上)

一、卷积相关 用一个ff的过滤器卷积一个nn的图像,假如padding为p,步幅为s,输出大小则为: [n2p−fs1][n2p−fs1][\frac{n2p-f}{s}1][\frac{n2p-f}{s}1][sn2p−f​1][sn2p−f​1] []表示向下取整(floor) 大部分深度学习…

Unreal Engine04:Visual Studio和Editor的协同开发

写在前面 这里主要是记录一下Visual Studio和Editor之间的关系和如何使用它们进行UE4协同开发。 一、启动 1. 先启动Visual Studio再启动Editor (1) 打开项目根目录下的xxx.sln解决方案,即可启动Visual Studio,这个是和普通的C项目打开方式相同的&…

2023美国大学生数学建模竞赛C题思路解析(含代码+数据可视化)

以下为2023美国大学生数学建模竞赛C题思路解析(含代码数据可视化)规则:猜词,字母猜对,位置不对为黄色,位置对为绿色,两者皆不对为灰色。困难模式下的要求:对于猜对的字母&#xff08…

RBAC权限模型

什么是RBAC权限模型? RBAC是基于角色的访问控制,在RBAC中,权限与角色相关联,用户通过成为适当角色的成员而得到这些角色的权限。 1.0级 用户、角色、权限 2.0 权限分级 公司>部门>小组 2.1 权限继承 ps: 这个人是一个小组长…