为了提供更好的产品使用体验,优维从未停止更新升级的脚步。在5-7月份,EasyOps全平台更新上线34+新功能,涉及Hyperlnsight超融合监控、CMDB、DevOps、AutoOps、ITSM、公共服务,在不断的技术创新过程中,进一步加速IT运维效率。
让我们一起来看看新增的功能和优化吧!
1
Hyperlnsight
1) 业务可用性监测
业务可用性监测平台可调用全球各个区域的互联网终端节点,实时模拟用户的操作行为,实现用户业务感知和业务持续可用性监测,详尽记录各个区域各个运营商访问应用运转状况及全业务链状态,进而通过智能分析精准告警,帮助用户实现跨地域多运营商连续监测复杂业务的运行状态,极大限度地降低安全风险、减少业务故障。
#全面的节点分布
支持三网(移动、联通、电信)监测节点遍布全球,实现云端7X24小时持续监测,确保了 平台监测到的可用性数据的准确性和全面覆盖。
#一体化业务监测
结合OneModel和OneInstanceID,上下文数据自动分析关联,从业务侧实现一体化监测,打通业务应用调用的东西向、业务应用部署架构的南北向的全方位全链路的可观测性,带来统一的监控体验。
#灵活告警
当告警触发时,可结合CMDB的业务负责人、上下游业务等进行告警信息的丰富。同时支持多渠道通知体系、动态通知组等,当业务异常时可实时且精准告警,先于用户发现问题。也支持推送至第三方告警平台,便于将告警信息集成到您的运维系统中。
2)支持日志数据快捷加工为日志关键字统计的指标-降低日志加工使用门槛,提高业务可观测性
日志记录了系统的运行过程及异常信息,例如warning日志、error日志、系统运行状态日志,而绝大多数的日志监控是围绕这些关键字展开。
为了帮助用户快速完成日志关键字监控,我们针对日志关键字这个高频消费场景进行了封装,通过关键字的定义即可完成指标加工,降低了用户日志加工使用门槛,提高业务可观测性。
发行版本: 6.24
3)事件中心支持快速发起事件工单
发生告警后,需要进一步落实负责人处理告警故障。原来通过事件轨迹快速流转处理状态,使用简单,但固定的事件轨迹流程难以满足不同客户的实际故障处理流程。
为此,告警事件中心支持了与我们ITSC平台的联动,支持将告警事件快速转换和发起事件工单,以增强复杂事件的多角色标准规范化协同,实现故障处理过程的可视化跟踪。
发行版本:6.22
4)告警通知支持模拟调试
监控管理员在告警通知配置时,可能会遇到这样的阻碍:
●配置了通知内容,不确定变量表达式是否填写正确;
●配置了通知内容,很难确定渲染出来的格式是否符合预期。
现支持对通知内容进行调试,以确保实际发送告警通知时符合预期。
用户仅需定义少量条件,就能看到模拟的告警/告警接触通知内容。通过模拟真实告警事件,使模拟调试结果符合实际告警通知效果,也避免了发送真实的通知以干扰用户的情况。
发行版本:6.23
5)拨测采集任务支持增加拨测指标的自定义维度
站在应用的角度去拨测应用下的主机,是一个常见的拨测场景。以前的拨测任务没有区分多台主机的拨测数据,拨测结果的查看不准确。
为此,拨测采集增加了自定义维度的配置,可对单任务、单步骤精准配置自定义维度,并且可通过变量取到资源实例/关联资源信息。如拨测应用下的多个主机的场景,可配置自定义维度为{ip},则拨测会带上实际的主机ip作为自定义维度,以达到查看多台主机的拨测结果的目的。
发行版本:6.20
6)APM支持业务级别访问权限控制
业务和服务太多时,用户很难聚焦自己关注的业务或服务数据。并且不同企业也会有业务权限隔离的诉求,在查看监控数据时也要控制业务/服务数据的访问权限。
在微服务架构下,按服务级别的权限控制显然不现实,而当前APM按业务进行服务查看和管理,按业务级别控制更符合管理诉求。
因此,本次产品升级之后,APM支持业务级别访问权限控制,用户查看APM时,只能查看到有访问权限的业务和业务下的服务/接口数据。
发行版本:6.20
2
CMDB
1)全新CMDB运营看板
作为数据中台,CMDB数据建设是基石。
优维推出了全新CMDB运营看板,来帮助用户洞察分析数据建设情况,提升用户CMDB资源建设质量,推动数据持续建设和运营。
【数据变更看板】
通过此看板,了解数据建设稳定性,如数据变更频率是否异常?哪些资源变更不稳定?
【数据消费看板】
通过此看板,了解数据的鲜活性,如哪些资源是高频消费的重要资源?哪些平台在消费CMDB数据?数据是否合理消费?
2)模型设置支持定义「关系默认视图」-信息呈现更为精准,帮助用户了解关系对端资源的关键信息
从不同关系字段去了解对端资源时会有侧重点,比如:
●查看Kubernete的节点信息时,会关注关联主机的Kubernete版本、标签、节点角色或配额信息等。
●查看Agent关联的主机设备信息时,会关注主机的操作系统、CPU、磁盘、网卡等配置信息等。
发行版本: 6.22
3)资源自动发现的持续拓展-支持信创数据库、阿里云ACK、腾讯云ES等资源
资源自动发现一直都在持续拓展,本次新增加了信创数据库、阿里云ACK、腾讯云ES等资源。
●数据库服务:GaussDB for openGauss(信创)、OceanBase(信创)、PolarDB for PostgreSQL(信创)、TDSQL for MySQL(信创)、Sybase
●网络资源:IP、IP段、阿里云·SSL证书
●计算资源:阿里云ACK容器服务
●腾讯云的ElasticSearch,SSL证书,VPN网关、弹性公网IP资源
4)支持网络设备信息以及端口连接关系的自动发现-防火墙、路由器、交换机
CMDB平台支持防火墙、路由器、交换机三类网络设备信息的自动发现,以及端口连接关系的自动发现。
对比EasyHub建设的那网络设备采集的版本可大大降低交付维护成本,当前网络拓扑的自动发现:
●不需要先录入实例信息再做采集,可用自动发现直接探测上来
●不需要逐个设备维护SNMP配置信息
●不需要跑脚本同步OID信息(也不需要根据用户实际情况不断维护更新OID相关信息)
发行版本:6.21
3
DevOps
1)制品管理支持自定义包的备份策略
应用变更前部署系统会自动全量备份制品包,长期全量备份不仅占用更多的存储,单次备份耗时还很长,且无法指定备份到容量更加富裕的磁盘。
为了更便捷完成备份,制品管理支持自定义包的备份策略,即部署系统会根据制品自身定义的备份策略进行变更前备份:
●支持选择升级前备份/卸载前备份
●支持指定备份路径
●支持指定备份时的排除列表
发行版本: 6.20
2)容器部署支持挂载卷的子路径-让存储卷、配置密钥的共享更高效、更安全
容器通过挂载存储卷来访问外部数据、持久化数据,实际使用中经常会限制仅访问一些子路径而不是整个存储;或者容器在通过挂载外部存储来获取配置时,不同容器要访问不同子路径下的配置文件。
针对容器可以挂载的不同类型的卷,容器部署都予以支持挂载子路径的方式,使容器可以更容易实现数据共享、配置读取或持久化数据。
●支持挂载临时卷的子目录
●支持挂载 PVC 的子路径
●支持挂载配置/密钥的子路径
发行版本: 6.23
3)容器部署支持查看pod文件并下载-实现数据的持久化和共享
由于容器本身的临时性、可替换性等特质导致容器存储的Pod文件无法持久化存储在容器内部,此前也没有任何地方支持用户查看及下载pod文件,导致用户难以追溯和管理容器存储的文件。
为了实现数据的持久化和共享,本次产品升级后,工作负载列表新增容器文件查看入口,支持用户查看所选容器内的pod文件,并支持下载所需的文件。
发行版本: 6.20
4)应用部署支持版本回滚
部署变更时免不了遇到版本缺陷或部署过程不成功,为了避免对现网环境造成持续性的服务中断,运维通常会第一时间选择回滚。
过去部署系统未提供回滚功能,运维就需要人为将需要回滚的主机、对应制品版本找出来进行一次新的部署,以此实现回滚的目的。
为此,应用部署正式支持版本回滚功能,可以在手工部署任务中发起回滚,也可以在一键部署任务中发起回滚,回滚前提供变更确认清单。
发行版本 :6.22
5)应用部署日志中不展示未定义的日志步骤-避免造成用户困惑
此前应用部署分布日志针对未定义的步骤仍旧进行了展示,如:配置包的部署实际上并未调用部署前检查脚本,但窗口展示时仍旧展示了执行部署前检查脚本这一步骤。
为了避免造成用户困惑,应用部署的任务详情分布日志根据实际情况仅展示执行了脚本的步骤。
发行版本: 6.22
4
AutoOps
1)文件分发支持选择版本进行下发-支持版本回退
此前使用的文件分发功能,下发的时候只能选择最新的版本,无法选择其他版本,当用户需要进行版本回退时,无法进行回退操作,需要重新以低版本为基线新建版本,然后再进行分发,操作较为繁琐。
为了用户更为便捷的操作,在设置策略步骤,增加包版本选择枚举框,默认选择当前最新的版本,支持用户选择其他版本进行下发。
发行版本: 6.20
2)导入/导出工具时能将依赖的lib库文件一同导入/导出-提高工具导入成功率
此前依赖了lib库的工具,在执行工具导入导出时由于缺失lib库文件的原因经常会出现报错提示。
为了解决这一问题,导入/导出工具时支持将依赖的lib文件一同导入/导出,并在导入时对引用了lib库文件的工具进行导入前检查,供用户自行选择上传方式。
发行版本: 6.20
3)定时任务支持 last day of month/week 语法-满足更多的需求场景
此前在执行定时任务时,由于每月天数不固定,平台上无法通过一个定时任务去实现在每月最后一天执行定时任务的需求。
为了满足更多的需求场景,定时任务支持 last day of month/week 语法,即定时任务的执行策略-周期性执行的 【天】设置栏,支持L,输入后为每月的最后一天。
发行版本: 6.21
4)运维自动化新增“运维度量”来统计任务执行情况-提供度量看板,便于复盘统计
此前平台缺少对AutoOps的度量统计,用户统计执行历史的成本较高。
为此,运维自动化针对工具、流程、定时任务及作业提供了运维度量看板,统计维度包括执行总次、 执行成功次数、执行失败次数、执行机率(成功率&失败率),便于用户复盘统计。
发行版本: 6.22
5
ITSM
1)发布全新模块:运维工作管理:支持运维人员事务登记、协作、度量
此次ITSM有一个重大更新,即ITSM发布了“运维工作管理“全新功能模块。
为什么要做运维工作管理模块?先来看一下运维工作管理的定义。
运维工作管理,顾名思义就是对运维人员的不同类型的工作事务进行统一的管理,包括:事务的登记、分派、跟踪、度量等。涵盖多种事务类型,如:项目型工作、服务型工作、OKR型工作、计划独立型工作等。
为什么要做运维工作管理?
●运维人员日常事务繁杂,运维工作事务往往没有地方进行统一管理、登记、不易跟踪、容易疏漏;
●运维工作通常通过日报、周报等传统形式汇报工作、效率低下,阅读体验差;
●运维人员工作难以量化、无法登记工时、运维Leader无法有效、准确查看团队、个人产出情况;
●运维Leader无法了解运维人员各类型事务所占比重,无法为工作流程、效能优化提供参考依据;
●无法更好支持线上协作场景,如:运维Leader无法分配工作给运维人员,运维人员处理工作后无法反馈给Leader;
●运维Leader无法从多维度、不同视角查看运维工作产出情况等。
为解决上述问题,ITSM推出了全新的运维工作管理产品,将运维人员所有日常事务纳管进来,有效量化运维人员工作量、产出,为提升团队效能提供参考依据。
面向的角色/用户有:
一线/二线运维人员:
●提供一线/二线运维人员不同类型的事务登记、工时登记、事务跟踪等能力。
运维Leader:
●提供运维Leader分配工作/事务给指定运维人员的能力;
●支持运维Leader从不同维度查看运维报表,例如:事务维度、团队维度、效能维度等。
运维工作管理员:
●维度事务相关核心对象管理信息,如项目、OKR、团队等。
运维工作管理管理的事务类型,支持管理运维人员四大类型的事务,如下:
运维工作管理目前主要划分为五大管理模块,分别是事务管理、项目看板、OKR管理、运维团队管理、管理看板,各模块介绍如下:
“事务管理“模块
●支持一线、二线运维人员在我的Job登记不同类型的事务,如:项目型事务、服务型事务、OKR事务、计划独立事务,并填写事务的工时等信息;
●支持运维Leader查看所有运维人员登记的Job信息,可分配Job给指定的运维人员,并在“我的关注“一栏查看Job的最新进展;
●支持以日历维度查看不同类型的事务。
“项目看板“模块
●管理员可维护运维事务所隶属的项目信息,如:项目的新增、编辑、删除;
●可查看每个项目的详细信息,如:项目概览、基本信息、关联Job、里程碑、项目文档、项目总工时、项目消耗工时等。
“OKR管理“模块
●管理员可维护运维事务所隶属的OKR信息,如:OKR的新增、编辑、删除;
●可查看每个人的OKR信息,以及对齐视图;
●查看OKR下关联的Job信息。
“运维团队管理“模块
●维护团队和人员信息;
●支持团队的新增、编辑、删除;
●支持人员的添加、移除、设置为Leader等。
“管理看板“模块
●支持从“事务维度“对事务情况进行统计、度量;
●支持从“团队维度“对团队/人员工时进行统计、度量;
●支持从效能的维度进行统计、度量。
除了新增运维工作管理的能力之外,ITSM对其他模块也进行了相应的优化,具体如下:
信息摘要:
●信息摘要分组支持排序;
●信息摘要前台分组可配置默认全部展开;
●信息摘要分组支持克隆;
●信息摘要支持一键展开/一键收起。
分阅:
●移动端工单支持分阅功能;
●工单总览、我的工单模块新增分阅功能。
其他:
●转派工单后能在我的待办-已经手查看到工单信息;
●通知变量-工单任务信息:新增服务名称、服务类型、服务分类变量。
6
公共服务
1)Agent 管理自适应推荐可用 Proxy
在多数客户现场,提供EasyOps平台和使用平台的往往是两拨人。负责运维平台的角色会管理好平台的代理机器,但使用平台的用户对此并不清楚,用户依赖大量的下线沟通才能顺利安装 Agent。
Agent 管理通过内置的匹配规则,自适应地为用户推荐满足目标机器可用的 Proxy,以此来降低用户自助安装 Agent 的门槛。
●支持通过 Proxy 管理提前配置指定网段的可用代理
●安装 Agent 时,自动推荐当前目标机器可用的代理
发行版本:6.20
2)Agent管理支持查看Sampler的自监控数据
由于资源发现/指标采集出现问题时,也可能是agent/对应sampler的问题,需要进一步追踪agent/sampler的运行。
为此,Metric Sampler、Process sampler都支持了对应的监控看板,以观察组件运行时,进程对资源的消耗;以及组件运行时,采集任务运行情况。
3)平台支持根据当前登录网段限制用户登录
许多企业拥有内部网络,仅允许公司员工从特定的IP地址或网段登录使用公司的内部系统或应用程序。通过限制登录网段,可以提高网络安全性,防止未经授权的访问。
发行版本:6.21
4)平台无权限提示:支持提示具体缺少的权限点/模型权限-提供更友好的无权限报错提示
此前我们的平台缺少权限的提示不够友好,仅提示“操作无权限”,难以排查到具体缺少的权限点。
为了提供更友好的无权限报错提示,此次升级增加了缺少的权限点信息提示。
发行版本:6.21
5)API账号管理
当前外部系统通过api gateway调用我们平台接口时,是以普通个人用户的身份进行调用。存在如下问题:
●维护难:用户离职后、api密钥不便维护
●跟踪难:一个用户管理多个外部平台的调用,无法识别是哪个平台调用的问题
现在,用户可创建和管理独立的API账号,API调用通过该账号标识,不再以普通用户标识。同时也内置API调用管理人员的角色以控制api管理权限。
发行版本:6.23