这里是weihubeats,觉得文章不错可以关注公众号小奏技术,文章首发。拒绝营销号,拒绝标题党
背景
最近一直在调研监控、log收集,tracing相关的开源项目,以便使用。
前段时间一直调研使用的是skywalking
。后来发现在log收集存储这一快skywalking
使用的是elasticsearch
,elasticsearch
存储相关的费用比较高,没有clickhouse
更节约存储。skywalking
社区也暂时不打算支持clickhouse
存储
关于skywalking
的存储相关的讨论可以在看看这个链接
https://github.com/apache/skywalking/discussions/9011
就是有一些公司已经落地skywalking
支持clickhouse
存储。
其次就是感觉skywalking
搜集log的一些查询不太好用,所以就打算调研其他log
组件。所以就调研到了signoz
signoz官网
- signoz:https://signoz.io/
signoz可以做什么
- 监控应用程序指标,如延迟、每秒请求数、错误率
- 监控基础架构指标,如CPU利用率或内存使用率
- 跨服务跟踪用户请求
- 设置指标警报
- 收集log
工作原理
这里工作原理其实和skywalking
差不太多。我们引用他们的官方架构图看看吧
- OpenTelemetry采集器:从您的服务和应用程序收集遥测数据。
- lickHouse:一个开源的高性能列式OLAP数据库管理系统。
- 查询服务:前端和ClickHouse之间的接口
- 前端:用户界面,内置于ReactJS和TypeScript。
部署
signoz
支持多种方式部署
- Docker Standalone
- Docker Swarm
- Kubernetes
测试我们使用
Docker Standalone
就好,线上一般使用Kubernetes
- 下载源码并进入deploy目录
git clone -b main https://github.com/SigNoz/signoz.git && cd signoz/deploy/
- 基于docker compose 部署
docker compose -f docker/clickhouse-setup/docker-compose.yaml up -d
如果没有安装docker可以执行如下命令安装
bash <(curl -SsL get.docker.com)
- 验证
docker ps
展示如下信息代表安装成功
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
1ad413fc12aa signoz/frontend:0.8.0 "nginx -g 'daemon of…" 20 minutes ago Up 20 minutes 80/tcp, 0.0.0.0:3301->3301/tcp, :::3301->3301/tcp frontend
419f7b440412 signoz/alertmanager:0.23.0-0.1 "/bin/alertmanager -…" 20 minutes ago Up 20 minutes 9093/tcp clickhouse-setup_alertmanager_1
95f5fab00c3c signoz/otelcontribcol:0.43.0-0.1 "/otelcontribcol --c…" 21 minutes ago Up 21 minutes 0.0.0.0:4317-4318->4317-4318/tcp, :::4317-4318->4317-4318/tcp, 55679-55680/tcp clickhouse-setup_otel-collector_1
c1640c215d10 signoz/otelcontribcol:0.43.0-0.1 "/otelcontribcol --c…" 21 minutes ago Up 21 minutes 4317/tcp, 55679-55680/tcp clickhouse-setup_otel-collector-metrics_1
9db88c61f7fd signoz/query-service:0.8.0 "./query-service -co…" 21 minutes ago Up 21 minutes (healthy) 8080/tcp query-service
509ab96c5393 clickhouse/clickhouse-server:22.4-alpine "/entrypoint.sh" 22 minutes ago Up 21 minutes (healthy) 8123/tcp, 9000/tcp, 9009/tcp clickhouse-setup_clickhouse_1
eb7a2e23c0c0 grubykarol/locust:1.2.3-python3.9-alpine3.12 "/docker-entrypoint.…" 22 minutes ago Up 21 minutes 5557-5558/tcp, 8089/tcp load-hotrod
f234b5cb4512 jaegertracing/example-hotrod:1.30 "/go/bin/hotrod-linu…" 22 minutes ago Up 21 minutes 8080-8083/tcp hotrod
服务器部署保证自己的
3301
,4317
和4318
端口开放
访问web页面
如果是本地就是如下地址
http://localhost:3301/
如果是服务器就换成自己的ip地址
页面大致是这个样子
ui
还是非常漂亮的
支持功能
- 用户管理
- Log 查询
- 监控告警
- traces
log收集
支持的收集方式还是非常多的
- 支持直接收集kubernetes
- 支持直接收集docker log
- 支持sdk 收集log
- 支持 log文件收集
我们这里以java agent
的方式接入
SigNoz
支持OpenTelemetry
标准,所以我们使用OpenTelemetry
的方式接入就可以了
OpenTelemetry
是什么我们后续可以单独聊一聊
官方给我提供了一个spring boot
项目
- spring-petclinic:https://github.com/SigNoz/spring-petclinic
我们下载该项目
然后打包
执行
./mvnw package
然后执行启动命令
OTEL_LOGS_EXPORTER=otlp OTEL_EXPORTER_OTLP_ENDPOINT="http://0.0.0.0:4317" OTEL_RESOURCE_ATTRIBUTES=service.name=myapp java -javaagent:/path/opentelemetry-javaagent.jar -jar target/*.jar
这里由于我的
SigNoz
和spring-petclinic
在同一个服务器,所以我的ip的士是0.0.0.0
。具体大家可以填写自己的实际ip
启动成功会有如下log打印
之后我们随便访问一些接口制造一些log
log查询
左下的关键字支持直接选中查询
点击log可以查看log详情
报警
目前报警支持如下渠道
- webhook
- Slack
渠道配置我们可以在Setting
配置
这里可以新增一个报警渠道
这里我们可以简单使用webhook:https://webhook.site
来测试报警
告警配置语法支持
目前报警配置支持三种语法
Query Builder
:查询生成器-这是DIY的方式来建立警报选择指标从下拉菜单。您还可以通过从仪表板中选择选项来设置筛选条件和分组条件PromQL
:可以使用Prometheus查询语言来编写警报表达式,这些警报将在固定的时间间隔内进行评估。如果您在Prometheus中设置了警报,那么这种方法应该非常熟悉Clickhouse
查询-您可以编写遵循SigNoz数据模型和格式的clickhouse查询。查询结果将用于评估警报阈值条件。此外,还可以使用查询结果生成标签和注释
总结
其实可以看到功能是非常完善的,比较满足线上环境log的收集监控报警