阿里云 SAE 应用引擎可观测性最佳实践

news2024/11/30 14:31:50

SAE 简介

Serverless 应用引擎 SAE(Serverless App Engine)是一款零代码改造、极简易用、自适应弹性的应用全托管平台。SAE 能够让用户免运维 IaaS 和 Kubernetes,秒级完成从源代码、代码包、Docker 镜像部署任意语言的在线应用(例如 Web、微服务、Job 任务)到 SAE,并自动伸缩实例按使用量计费,开箱即用日志、监控、负载均衡等配套能力。

SAE 基于容器标准构建,核心能力开源,无厂商锁定,拥有丰富的平台工程能力,例如 CLI、S2A(Source to Application)等,助力研发运维提效。

可观测性

观测云可以收集来自 SAE 上部署应用的可观测性数据。具体流程如下:

  • 应用通过接入 APM 上报 trace 数据到 DataKit
  • 应用的日志数据可以通过 KafkaMQ 收集后,通过 DataKit 进行消费
  • 应用容器的指标数据利用阿里云的监控 API 并通过 Function 平台(DataFlux.f(x))进行采集后上报到观测云
  • DataKit 收集到对应的数据后统一处理并上报到观测云上

NAT 网关配置

DataKit 获取到数据后需要上报到观测云,就需要 SAE 出外网的能力,SAE 应用出外网主要是需要配置 NAT 网关。

参考文档步骤:SAE应用如何从VPC内网环境访问公网

创建 Kafka 服务

请访问阿里云消息队列 Kafka 版控制台,根据需求创建实例,在实例部署前,请了解文档《设置日志收集至 Kafka》中“前提条件”章节中关于 VPC 和 vSwitch 的限制。部署成功后在“Topic 管理”页面创建 Topic:springboot-server_log ,建议与 SAE 应用同名,Group 无需创建。

DataKit

注册观测云账号:Guance

登陆后,在集成里面找到 DataKit,并复制 DK_DATAWAY,后面需要用到。

创建 DataKit

  • 进入 SAE,点击应用列表 - 创建应用。
  • 填写应用信息
    • 应用名称
    • 选择命名空间,如果没有,则创建一个
    • 选择vpc,如果没有,则创建一个
    • 选择安全组: vswitch 要与 NAT 的交换机匹配
    • 实例数按需调整
    • CPU 1 core、内存1G
    • 完成后点击下一步
  • 添加镜像:pubrepo.guance.com/datakit/datakit:1.31.0
  • 添加环境变量

建议采用配置项方式,方便管理维护配置,具体参考下面的配置项内容。

  • 添加配置

创建 kafkamq 采集器配置

  • 保存

创建成功后,可以进入应用详情,查看基础信息。

创建配置项

在 SAE 的命名空间里面配置。

配置项内容如下:

{
  "ENV_DATAWAY": "https://openway.guance.com?token=tkn_xxx",
  "KAFKAMQ": "# {\"version\": \"1.22.7-1510\", \"desc\": \"do NOT edit this line\"}\n\n[[inputs.kafkamq]]\n  # addrs = [\"alikafka-serverless-cn-8ex3y7ciq02-1000.alikafka.aliyuncs.com:9093\",\"alikafka-serverless-cn-8ex3y7ciq02-2000.alikafka.aliyuncs.com:9093\",\"alikafka-serverless-cn-8ex3y7ciq02-3000.alikafka.aliyuncs.com:9093\"]\n  addrs = [\"alikafka-serverless-cn-8ex3y7ciq02-1000-vpc.alikafka.aliyuncs.com:9092\",\"alikafka-serverless-cn-8ex3y7ciq02-2000-vpc.alikafka.aliyuncs.com:9092\",\"alikafka-serverless-cn-8ex3y7ciq02-3000-vpc.alikafka.aliyuncs.com:9092\"]\n  # your kafka version:0.8.2 ~ 3.2.0\n  kafka_version = \"3.3.1\"\n  group_id = \"datakit-group\"\n  # consumer group partition assignment strategy (range, roundrobin, sticky)\n  assignor = \"roundrobin\"\n\n  ## kafka tls config\n   tls_enable = false\n\n  ## -1:Offset Newest, -2:Offset Oldest\n  offsets=-1\n\n\n  ## user custom message with PL script.\n  [inputs.kafkamq.custom]\n    #spilt_json_body = true\n    ## spilt_topic_map determines whether to enable log splitting for specific topic based on the values in the spilt_topic_map[topic].\n    #[inputs.kafkamq.custom.spilt_topic_map]\n     # \"log_topic\"=true\n     # \"log01\"=false\n    [inputs.kafkamq.custom.log_topic_map]\n      \"springboot-server_log\"=\"springboot_log.p\"\n    #[inputs.kafkamq.custom.metric_topic_map]\n    #  \"metric_topic\"=\"metric.p\"\n    #  \"metric01\"=\"rum_apm.p\"\n    #[inputs.kafkamq.custom.rum_topic_map]\n    #  \"rum_topic\"=\"rum_01.p\"\n    #  \"rum_02\"=\"rum_02.p\"\n",
  "SPRINGBOOT_LOG_P": "abc = load_json(_)\n\nadd_key(file, abc[\"file\"])\n\nadd_key(message, abc[\"message\"])\nadd_key(host, abc[\"host\"])\nmsg = abc[\"message\"]\ngrok(msg, \"%{TIMESTAMP_ISO8601:time} %{NOTSPACE:thread_name} %{LOGLEVEL:status}%{SPACE}%{NOTSPACE:class_name} - \\\\[%{NOTSPACE:method_name},%{NUMBER:line}\\\\] %{DATA:service_name} %{DATA:trace_id} %{DATA:span_id} - %{GREEDYDATA:msg}\")\n\nadd_key(topic, abc[\"topic\"])\n\ndefault_time(time,\"Asia/Shanghai\")",
  "ENV_GLOBAL_HOST_TAGS": "host=__datakit_hostname,host_ip=__datakit_ip",
  "ENV_HTTP_LISTEN": "0.0.0.0:9529",
  "ENV_DEFAULT_ENABLED_INPUTS": "dk,cpu,disk,diskio,mem,swap,system,hostobject,net,host_processes,container,ddtrace,statsd,profile"
}

配置项说明:

  • ENV_DATAWAY:上报观测云的网关地址
  • KAFKAMQ: kafkamq 采集器配置,具体内容参考:Kafka 采集器配置文件介绍
  • SPRINGBOOT_LOG_P:日志 pipeline 脚本,用于切割来自 kafka 的日志数据
  • ENV_GLOBAL_HOST_TAGS: 采集器全局 tag
  • ENV_HTTP_LISTEN:Datakit 端口,ip必须是 0.0.0.0 否则其他 pod 会访问不到
  • ENV_DEFAULT_ENABLED_INPUTS: 默认开启的采集器

Kafka 采集器配置文件介绍

# {"version": "1.22.7-1510", "desc": "do NOT edit this line"}

[[inputs.kafkamq]]
  # addrs = ["alikafka-serverless-cn-8ex3y7ciq02-1000.alikafka.aliyuncs.com:9093","alikafka-serverless-cn-8ex3y7ciq02-2000.alikafka.aliyuncs.com:9093","alikafka-serverless-cn-8ex3y7ciq02-3000.alikafka.aliyuncs.com:9093"]
  addrs = ["alikafka-serverless-cn-8ex3y7ciq02-1000-vpc.alikafka.aliyuncs.com:9092","alikafka-serverless-cn-8ex3y7ciq02-2000-vpc.alikafka.aliyuncs.com:9092","alikafka-serverless-cn-8ex3y7ciq02-3000-vpc.alikafka.aliyuncs.com:9092"]
  # your kafka version:0.8.2 ~ 3.2.0
  kafka_version = "3.3.1"
  group_id = "datakit-group"
  # consumer group partition assignment strategy (range, roundrobin, sticky)
  assignor = "roundrobin"

  ## kafka tls config
   tls_enable = false

  ## -1:Offset Newest, -2:Offset Oldest
  offsets=-1


  ## user custom message with PL script.
  [inputs.kafkamq.custom]
    #spilt_json_body = true
    ## spilt_topic_map determines whether to enable log splitting for specific topic based on the values in the spilt_topic_map[topic].
    #[inputs.kafkamq.custom.spilt_topic_map]
     # "log_topic"=true
     # "log01"=false
    [inputs.kafkamq.custom.log_topic_map]
      "springboot-server_log"="springboot_log.p"
    #[inputs.kafkamq.custom.metric_topic_map]
    #  "metric_topic"="metric.p"
    #  "metric01"="rum_apm.p"
    #[inputs.kafkamq.custom.rum_topic_map]
    #  "rum_topic"="rum_01.p"
    #  "rum_02"="rum_02.p"
  • addrs :kafka 队列消费地址
  • group_id :消费组,DataKit 会调用 kafka 自动创建
  • [inputs.kafkamq.custom.log_topic_map] :是 kafkamq 日志类型数据消费 Topic 配置集合,可以配置多组,key-value 形式。key 为 Topic ,value 可以为空,为空用""表示,如果需要做日志切割,则需要填写对应的 pipeline 名称。

网络配置

按需开启网络,公网或者私网,一般建议私网即可。

主要开放两个端口 9529 和 8125 ,有其他端口需求的可以按需添加。开启后会生成 ip 和端口,后面会用到。

应用

示例为 Java 应用,采用 ddtrace 作为 APM 进行接入。Demo 源码地址:https://github.com/lrwh/observable-demo/tree/main/springboot-server。

可以自己构建镜像,也可以使用阿里镜像 registry.cn-shenzhen.aliyuncs.com/lr_715377484/springboot-server:ddtrace_1_34

下载 ddtrace

wget https://static.guance.com/dd-image/dd-java-agent.jar

docker 镜像

FROM openjdk:8-jdk-alpine

# 其效果是在主机 /var/lib/docker 目录下创建了一个临时文件,并链接到容器的/tmp
VOLUME /tmp

WORKDIR /data
RUN mkdir logs
# 这个目录自行修改
ADD springboot-server.jar app.jar
ADD dd-java-agent-v1.34.0-guance.jar /dd-java-agent.jar
# 修改时区
ENV TZ=Asia/Shanghai
RUN ln -snf /usr/share/zoneinfo/$TZ /etc/localtime && echo $TZ > /etc/timezone
# 解决中文乱码
ENV LANG en_US.UTF-8
ENV jar app.jar

ENTRYPOINT ["sh", "-ec", "exec java ${JAVA_OPTS} -jar ${jar} ${PARAMS} 2>&1"]

构建:

docker build -f Dockerfile_ddtrace -t registry.cn-shenzhen.aliyuncs.com/lr_715377484/springboot-server:ddtrace_1_34 .

推送到仓库:

docker push registry.cn-shenzhen.aliyuncs.com/lr_715377484/springboot-server:ddtrace_1_34

创建应用

基本步骤与创建 DataKit 一样。

  • 调整镜像名称
  • 镜像地址:registry.cn-shenzhen.aliyuncs.com/lr_715377484/springboot-server:ddtrace_1_34
  • Java 环境选择 openjdk8
  • 启动命令设置:选择 Shell 脚本方式
java \
-javaagent:/dd-java-agent.jar \
-Ddd.service.name=ddtrace-server \
-Ddd.agent.host=10.0.16.221 \
-Ddd.agent.port=9529 \
-Ddd.trace.debug=true \
-Ddatadog.slf4j.simpleLogger.logFile=ddtrace.log \
-jar /data/app.jar

其中 -Ddd.agent.host 为 DataKit 的访问地址。

  • 日志采集服务

将日志上报到 kafka,选择对应的 kafka 实例,没有就创建一个,并填写对应的日志文件路径及上报 kafka 的 topic。

  • 保存

应用启动完成后,可以在应用实例部署信息查看部署和启动日志。

从日志里面已经可以看到 ddtrace 加载成功。

开启网络

应用启动完成后,按需开启网络,公网或者私网,由于这里需要对外访问,所以需要开放公网。当前应用端口为8090。开放成功后可以直接通过ip地址可以访问。

curl http://host:8090/gateway

效果展示

日志

在日志列表上,可以通过 source:springboot-server_log⁠ 来过滤当前业务日志,点击对应的日志详情,可以关联当前日志对应的链路信息。

链路

在链路详情里面,可以关联到当前链路对应业务所产生的日志信息。

指标

指标采集

由于阿里云不提供直接从 prometheus 获取指标数据,所以需要通过观测云 Function 平台(DataFlux.f(x))调用 SAE 的 API 采集指标数据。

具体步骤参考:阿里云 SAE 集成文档

指标列表
指标单位Dimensions描述
cpu_Average%userId、appId应用CPU
diskIopsRead_AverageCount/SeconduserId、appId应用磁盘IOPS读
diskIopsWrite_AverageCount/SeconduserId、appId应用磁盘IOPS写
diskRead_AverageByte/SeconduserId、appId应用磁盘IO吞吐率读
diskTotal_AverageKilobyteuserId、appId应用磁盘总量
diskUsed_AverageKilobyteuserId、appId应用磁盘使用量
diskWrite_AverageByte/SeconduserId、appId应用磁盘IO吞吐率写
instanceId_memoryUsed_AverageMBuserId、appId、instanceId实例已使用内存
instance_cpu_Average%userId、appId、instanceId实例CPU
instance_diskIopsRead_AverageCount/SeconduserId、appId、instanceId实例磁盘IOPS读
instance_diskIopsWrite_AverageCount/SeconduserId、appId、instanceId实例磁盘IOPS写
instance_diskRead_AverageByte/SeconduserId、appId、instanceId实例磁盘IO吞吐率读
instance_diskTotal_AverageKilobyteuserId、appId、instanceId实例磁盘总量
instance_diskUsed_AverageKilobyteuserId、appId、instanceId实例磁盘使用量
instance_diskWrite_AverageByte/SeconduserId、appId、instanceId实例磁盘IO吞吐率写
instance_load_AverageminuserId、appId、instanceId实例平均负载
instance_memoryTotal_AverageMBuserId、appId、instanceId实例总内存
instance_memoryUsed_AverageMBuserId、appId、instanceId实例已使用内存
instance_netRecv_AverageByte/SeconduserId、appId、instanceId实例接收字节
instance_netRecvBytes_AverageByteuserId、appId、instanceId实例总接收字节
instance_netRecvDrop_AverageCount/SeconduserId、appId、instanceId实例接收数据丢包
instance_netRecvError_AverageCount/SeconduserId、appId、instanceId实例接收错误数据包
instance_netRecvPacket_AverageCount/SeconduserId、appId、instanceId实例接收数据包
instance_netTran_AverageByte/SeconduserId、appId、instanceId实例发送字节
instance_netTranBytes_AverageByteuserId、appId、instanceId实例总发送字节
instance_netTranDrop_AverageCount/SeconduserId、appId、instanceId实例发送数据丢包
instance_netTranError_AverageCount/SeconduserId、appId、instanceId实例发送错误数据包
instance_netTranPacket_AverageCount/SeconduserId、appId、instanceId实例发送数据包
instance_tcpActiveConn_AverageCountuserId、appId、instanceId实例活跃TCP连接数
instance_tcpInactiveConn_AverageCountuserId、appId、instanceId实例非活跃TCP连接数
instance_tcpTotalConn_AverageCountuserId、appId、instanceId实例总TCP连接数
load_AverageminuserId、appId应用平均负载
memoryTotal_AverageMBuserId、appId应用总内存
memoryUsed_AverageMBuserId、appId应用已使用内存
netRecv_AverageByte/SeconduserId、appId应用接收字节
netRecvBytes_AverageByteuserId、appId应用总接收字节
netRecvDrop_AverageCount/SeconduserId、appId应用接收数据丢包
netRecvError_AverageCount/SeconduserId、appId应用接收错误数据包
netRecvPacket_AverageCount/SeconduserId、appId应用接收数据包
netTran_AverageByte/SeconduserId、appId应用发送字节
netTranBytes_AverageByteuserId、appId应用总发送字节
netTranDrop_AverageCount/SeconduserId、appId应用发送数据丢包
netTranError_AverageCount/SeconduserId、appId应用发送错误数据包
netTranPacket_AverageCount/SeconduserId、appId应用发送数据包
tcpActiveConn_AverageCountuserId、appId应用活跃TCP连接数
tcpInactiveConn_AverageCountuserId、appId应用非活跃TCP连接数
tcpTotalConn_AverageCountuserId、appId应用总TCP连接数

仪表板

  • 应用

  • 实例

监控器

内置了一部分 SAE 监控器,方便对 SAE 应用进行监控。

模板内容可以调整。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2225865.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【面试题系列】MySQL 中 GROUP BY 和 DISTINCT 有什么区别?

在 MySQL 中,GROUP BY 和 DISTINCT 是两个常用的 SQL 子句,它们都用于处理数据的重复性,但在使用场景、语法、功能和性能方面存在显著差异。 本文将详细探讨这两者的区别,包括其语法、功能特点、使用场景及性能考虑,并…

Java类的static成员以及代码块(详细版)

文章目录 一、什么是static成员二、static修饰的成员有何意义三、static修饰成员变量四、static修饰成员方法4.1、静态成员变量不可以在方法内创建4.2、静态成员方法内部不可以访问非静态成员变量4.3、总结 五、static成员变量的初始化5.1、就地初始化5.2、静态代码块初始化 六…

Linux | Rsync 命令:16 个实际示例(下)

引言 Rsync(远程同步)是Linux/Unix系统中用于远程和本地复制及同步文件和目录的常用工具。 利用rsync命令,您可以轻松地在不同目录、硬盘和网络之间进行数据的远程和本地复制与同步,进行数据备份,以及在两台Linux系统间…

吃牛羊肉的季节来了,快来看看怎么陈列与销售!

一、肉品陈列基本原则 (一)新鲜卫生 1、保证商品在正确的温度、正确的方式下陈列 (1)正确的温度:冷藏柜-2℃-2℃;冷冻柜库-20℃-18℃ (2)正确的方式: 商品不遮挡冷气出风口&…

如何用 obdiag 排查 OceanBase数据库的卡合并问题——《OceanBase诊断系列》14

1. 背景 卡合并在OceanBase中是一个复杂的问题,其产生可能源于多种因素。目前,对于卡合并的明确界定尚不存在统一标准,一方面,我们界定超过36小时未完成合并为合并超时,此时RS会记录ERROR日志;另一方面&am…

图文详解ChatGPT-o1完成论文写作的全流程

学境思源,一键生成论文初稿: AcademicIdeas - 学境思源AI论文写作 本月中旬OpenAI发布了OpenAI o1系列新的AI模型。 据OpenAI介绍,这些模型旨在花更多时间思考后再做出反应,就像人一样。通过训练,它们学会改进思维过…

外包干了7天,技术明显退步。。。。。

先说一下自己的情况,本科生,22年通过校招进入南京某软件公司,干了接近2年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了2年的功能测试&…

映射问题的解决办法(mybaitis)

最初我用的是注解来操控数据库&#xff08;注释掉的部分&#xff09; Mapper public interface ThreadMapper {// Select("SELECT * FROM thread LIMIT #{page}, #{size}")List<Thread> getListByPage(Param("page") int page, Param("size&qu…

ssm005基于SSM框架的购物商城系统的开发与实现(论文+源码)_kaic

设计题目&#xff1a;购物商城系统的设计与实现 摘 要 网络技术和计算机技术发展至今&#xff0c;已经拥有了深厚的理论基础&#xff0c;并在现实中进行了充分运用&#xff0c;尤其是基于计算机运行的软件更是受到各界的关注。加上现在人们已经步入信息时代&#xff0c;所以对…

[0152].第3节:IDEA中工程与模块

我的后端学习大纲 IDEA大纲 1、Project和Module的概念&#xff1a; 2、Module操作&#xff1a; 2.1.创建Module: 2.2.删除Module&#xff1a; 2.3.导入Module&#xff1a; 1.导入外来模块的代码&#xff1a; 查看Project Structure&#xff0c;选择import module&#xff1a…

部署DNS主从服务器

一。DNS主从服务器作用&#xff1a; DNS作为重要的互联网基础设施服务&#xff0c;保证DNS域名解析服务的正常运转至关重要&#xff0c;只有这样才能提供稳定、快速日不间断的域名查询服务 DNS 域名解析服务中&#xff0c;从服务器可以从主服务器上获取指定的区域数据文件&…

nfs实验2

#服务器共享目录/xiaoming供客户端上传和下载文件&#xff0c;并且客户端上传的文件所属用户为xiaoming用户&#xff0c;所属组为小明组 服务端&#xff1a; 启动nfs服务器服务&#xff1a; 创建一个新的用户组xiaoming&#xff1a; 搜索/etc/group 文件中所有包含字符串 &qu…

python爬虫实战案例——抓取B站视频,不同清晰度抓取,实现音视频合并,超详细!(内含完整代码)

文章目录 1、任务目标2、网页分析3、代码编写 1、任务目标 目标网站&#xff1a;B站视频&#xff08;https://www.bilibili.com/video/BV1se41117WP/?vd_sourcee8e376ccbc5aa4cfd88e6a7917adfd1a&#xff09;&#xff0c;用于本文测验 要求&#xff1a;抓取该网址下的视频&…

[四轴飞行器] 方向控制原理

四轴飞行器的基本工作原理 四轴飞行器基本原理是通过飞控控制四个电机旋转带动桨叶产生升力,分别控制每一个电机和桨叶产生不同升力从而控制飞行器的姿态和位置 四轴在空中可实现八种运动,分别是垂直上升,垂直下降,向前运动,向后运动,向左运动,向右运动,顺时针改变航向,逆时针…

量化交易打怪升级全攻略

上钟&#xff01; 继续分享量化干货~ 这次要唠的是Stat Arb的新作《Quant Roadmap》(中译名《量化交易路线图》)&#xff0c;为了方便&#xff0c;下文就称呼作者为“老S”&#xff0c;根据公开资料显示&#xff0c;他可是正儿八经的的量化研究员出身&#xff0c;在漂亮国头部对…

视觉化医学数据:使用气泡图揭示患者健康指标的关系

在医学领域&#xff0c;数据的可视化至关重要。它不仅帮助研究人员和医生理解复杂的关系&#xff0c;还能为临床决策提供有力支持。在众多可视化工具中&#xff0c;气泡图因其直观性和多维性而广受欢迎。本文将通过一个具体例子&#xff0c;展示如何使用气泡图来分析患者的体重…

钡铼技术R40工业无线路由支持边缘计算断网补传

随着工业互联网和智能制造的迅速发展&#xff0c;工业设备之间的互联互通变得愈加重要。在这个背景下&#xff0c;钡铼技术推出的R40工业无线路由器&#xff0c;凭借其先进的边缘计算能力和断网补传功能&#xff0c;为工业应用提供了强大的支持。 一、边缘计算的意义 边缘计算…

js实现简单计算机/验证密码是否合法

1.怎么实现一个计算机可以进行简单的加减乘除呢? 就像下面这样可以计算112... 在js中可以直接获取id的输入文本框对应的值 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" c…

基于SSM+微信小程序考试的管理系统(考试1)

&#x1f449;文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 基于SSM微信小程序考试的管理系统实现了管理员及用户。 1、管理员功能有个人中心&#xff0c;用户管理&#xff0c;考试资料管理&#xff0c;用户交流管理&#xff0c;试卷管理&#xff…

一行代码,实现请假审批流程(Java版)

首先画一个流程图 测试流程图 activiti 项目基础配置 activiti 工作流引擎数据库设计 工作流引擎API 介绍 什么是BPMN流程图 工作流引擎同类对比 继续学习方向 总结 工作流审批功能是办公OA系统核心能力&#xff0c;如果让你设计一个工作流审批系统&#xff0c;你会吗…