性能提升20%,字节跳动HTTPDNS从中心下沉到边缘

news2024/12/27 11:04:39

本文介绍了HTTPDNS服务从中心迁移至边缘详细的落地过程。主要内容为:

  1. HTTPDNS下沉边缘实践遇到的挑战,包括服务放置、流量调度

  2. HTTPDNS下沉边缘解决方案

  3. 从性能、成本出发,谈谈HTTPDNS下沉边缘后的收益

传统的DNS流程中,客户端基于UDP协议向Local DNS服务器发送DNS查询请求,这个过程中会存在缓存刷新不可控、DNS劫持、解析结果跨网、解析超时等风险,近年来,HTTPDNS解决方案逐渐兴起。HTTPDNS是面向多端应用(移动端APP,PC客户端应用)的域名解析服务,通过使用HTTP或HTTPS协议替代传统的UDP协议,客户端的域名解析请求直接由HTTPDNS服务器接收和响应,实现了域名防劫持、精准调度、解析结果及时生效

以字节跳动内部业务为例,如抖音、今日头条、西瓜视频和番茄小说等,QPS峰值达千万级,解析请求量日达万亿次,日常流量极大,为保障业务稳定运行,应用了火山引擎移动解析HTTPDNS(以下简称HTTPDNS)为域名提供递归DNS服务,支撑起超大解析请求量。

由于HTTPDNS服务全面覆盖字节跳动头部APP,在节约成本以及性能优化上存在强烈诉求,在此背景下HTTPDNS团队经过调研,决定将HTTPDNS服务从中心迁移至边缘,以下将从实践难点、解决方案和收益多个维度分享详细落地过程。

一、HTTPDNS下沉边缘实践挑战

1.服务放置

由于边缘计算节点分散、基础设施异构等原因,边缘服务放置一度成为下沉边缘过程中的研究热点,现有方案在处理边缘放置问题时,会将其转化为指定场景下资源约束的目标优化问题,针对成本、质量、流量方向,行业内均有对应研究:

  • 针对成本,有研究通过多云的模式进行最小冗余成本建模,来实现资源动态分配。

  • 针对质量,有研究通过构建服务依赖模型、最佳冗余动态算法保障可靠性,以及成本和质量均衡模型,来实现质量保障。

  • 针对流量,有研究从流量迁移、设备移动、时空轨迹以及资源预部署等,实现流量稳定迁移。

在实际应用过程中,流量及设备迁移特征显著、边缘节点性能差异、稳定性波动大等因素,会干扰现有放置问题模型,因此需要进一步探索基于流量特征和边缘节点资源质量的放置问题

2.流量调度

边缘计算的流量调度场景主要分为端边调度和云边调度,部分场景会出现边边调度。不同调度阶段拥有相对成熟的调度技术,包括基于DNS的端边调度、基于BGP ANYCAST的骨干网路由调度以及云网络下的云原生流量调度。

图片

实践过程中面临的流量调度挑战,主要围绕着端边调度和云边调度:

  • 端边调度挑战:5G和工业互联网接入的大量异构设备,以及设备迁移导致的流量波动,是端边调度需要应对的主要挑战。解决这一问题可借助云边协同作业与全局分布式调度的策略。然而,实际操作遇到的难题主要在于缺乏精确的调度手段,并且未能充分利用客户端与边缘节点之间协同联动的潜力。尽管通过实时流量感知配合机器学习进行训练是一种可行的方法,但这种方案处理的数据量巨大,导致应用成本过高,难以满足现实需求。

  • 云边调度挑战:边缘计算由于其固有特性,在处理大规模集中式数据方面相较于传统中心化架构存在一定局限性。因此,云边协同的流量处理和计算模式采纳了业界广泛认可的计算架构,云边调度发挥了云计算与边缘计算各自的优势,达成数据和流量的更高效处理。然而,边缘计算在资源分配上仍面临局部不足与全局分散的挑战。举例来说,在约束优化路由模型中,评价指标有时与实际业务场景不符,未能充分考虑用户体验。此外,行业内某些区域分层调度模型在实际应用中遇到了边缘基础设施不统一的问题,同时区域内及区域间的容灾问题也尤为突出。

二、HTTPDNS下沉边缘解决方案

1.可视化评价模型指导服务放置

针对基于流量特征和边缘节点资源质量的放置问题,在实践过程方案,HTTPDNS团队不断进行尝试优化,最终选择通过使用全链路的拨测和数据采集方法,基于实时数据驱动的模式,进行在线的放置算法仿真训练,形成可视化的评价模型,以指导HTTPDNS服务在边缘机房的节点选择和服务放置。基本流程如下图:

图片

2.接入GTM打造调度解决方案

针对流量调度挑战,由于内部服务采用域名(配合兜底策略)的接入方式,接入域名配置DNS智能解析实现用户就近访问边缘接入节点。考虑到边缘接入节点IP的网络服务可靠性和质量对比IDC机房优势不明显,因此HTTPDNS团队最终决定引入云调度GTM解决调度问题。

火山引擎云调度GTM基于解析进行流量调度,可以实现流量的就近接入(地理位置/性能)、负载均衡。GTM借助分布式、多协议健康检查能力来实现故障容灾(Failover),诸如“同城容灾”、“异地多活”等场景。此外GTM还提供了多云环境下的流量编排、资源粘合能力,可视化的健康检查数据分析、操作日志等功能帮助排查定位问题,便于日常运维。

重点应用:

  • 智能调度:通过云调度GTM的「智能调度-容量优先」模式实现基于机房容量的智能调度,在满足机房容量的前提下生成全局时延最低的DNS调度规则,从而能够在边缘节点割接/故障时实现自动容灾;

  • 故障容灾:支持边缘节点通过控制台、API接口和Agent的方式上报节点容量等信息,基于节点的数据上报情况和健康检查探测的情况,云调度GTM作为策略中心更新和下发调度策略,实现边缘节点的故障容灾。

图片

调度解决方案优势:

  • 建设成本低:部署轻量,架构侵入较小,建设成本较低;整体配置和管理简单;

  • 动态调度保障性能最优:在边缘多节点、多机房的场景下,能够基于性能和容量进行动态调度,在确保机房水位低于目标水位的前提下实现全局性能最优;

  • 支持可视化:支持调度配置和结果的可视化展示、健康检查可视化查询。

图片

图片

应用火山引擎云调度GTM来实现容量调度是一次新的尝试,在全面接入云调度GTM之后,对比传统域名智能解析调度模式,边缘节点容量调度模式能从性能、容灾、成本等方面带来收益,也验证了云调度GTM在方案中不可或缺的重要性。

调度解决方案收益:

指标类型指标收益总结
性能请求时延平均接入时延 -5.01%(-11ms)整体延时优化5%
流量调度漂移减少 15%
请求成功率持平
TTFB平均 TTFB -4.1%(-3.5ms)
流量波动cpu负载波动标准差:5%->1%,优化80%
容灾自动容灾成功率100%智能解析线路级故障感知
60 秒自动容灾
边缘故障感知耗时60s
流量收敛时长3min 90%+收敛
成本带宽成本回源带宽降低 10%运维:配置、切流管理,完全自动托管
容灾:从预案模式10分钟, 到自动容灾1 分钟
资源成本:cpu冗余量可减少 20%
成本运维成本易用:基于容量&性能矩阵,均匀分流。仅需要用户维护机房容量信息。

好用:火山控制台一键完成调度策略计算,流量调度结果支持可视化。机房故障自动重调度,机房裁撤一键完成流量重分配。

复杂场景支持:新建机房快速完成接入调度。大面积故障场景容灾自动化高。

三、更强大的解析调度,性能提升20%+

实践过程持续了六个月时间,在成本优化与性能提升方面均取得显著效果。

1.成本优化

总成本优化约35%,其中负载均衡资源优化约50%,计算资源优化约30%,带宽成本优化约70%,且最终实现了边缘集群总容量千万 QPS 级别,与中心机房完全互备。

2.性能提升

完成从中心到边缘的迁移后,火山引擎移动解析HTTPDNS服务性能出现显著提升,对比同类服务出现显著优势。

在边缘服务建设完成后,我们逐步将原中心机房承载的千万 QPS 级别流量迁移到边缘服务集群上。根据实际的性能提升情况, 先后将全国大部分区域的三大运营商接入流量迁移到边缘。在这个过程中,我们关注并采集流量的网络指标变化数据,各个区域均有性能收益,详见下表:

下沉区域总耗时-平均值-差异百分比(%)总耗时-50分位-差异百分比(%)TTFB-平均值-差异百分比(%)TTFB-50分位-差异百分比(%)
西南-15-44-38-64
西北-16-36-36-47
东北-10-14-15-23
华北-16-41-29-63
华中-23-50-37-70
华南-7-15-11-36

为了能够更直观感受火山引擎移动解析HTTPDNS服务与其他HTTPDNS服务的性能数据对比,我们使用国内主流的第三方拨测平台,进行了近千个拨测节点、覆盖全国的拨测对比。从拨测结果可以看出,不论是从地理位置上,还是分运营商讨论,火山引擎移动解析HTTPDNS都在首屏时间、建立连接时间、首包时间和内容下载时间上表现优异,最终实现总下载时间实现领先。

全国:

厂商总下载时间(s)首屏时间(s)建立连接时间(s)首包时间(s)内容下载时间(s)
火山 HTTPDNS0.2520.2540.0240.0260.037
其他-1 HTTPDNS0.2790.2820.0350.040.039
其他-2 HTTPDNS0.3270.3290.050.0630.039

分运营商:

运营商厂商总下载时间(s)首屏时间(s)建立连接时间(s)首包时间(s)内容下载时间(s)
中国电信火山 HTTPDNS0.260.2630.0230.0270.031
中国联通火山 HTTPDNS0.2420.2440.0240.0260.04
中国移动火山 HTTPDNS0.2560.2570.0240.0260.038
中国电信其他-1 HTTPDNS0.2870.2910.0340.040.034
中国联通其他-1 HTTPDNS0.2720.2750.0360.0410.043
中国移动其他-1 HTTPDNS0.2790.280.0360.0380.041
中国电信其他-2 HTTPDNS0.330.3330.0490.0610.033
中国联通其他-2 HTTPDNS0.330.3320.0530.0680.043
中国移动其他-2 HTTPDNS0.320.3210.0490.060.041

总结

整体下沉实践方案中,HTTPDNS团队不断进行新尝试,探索并应用了基于GTM的反馈式调度模型,更好地应对了边缘计算资源局部紧张、全局分散以及稳定性抖动频繁的挑战,从而弱化边缘放置问题带来的资源开销,并提升流量调度效率、资源利用率以及降低容灾和运维难度。

通过下沉边缘,HTTPDNS进一步优化使用成本,提升服务性能,而此次实践通过将HTTPDNS服务从中心云架构迁移至边缘云架构模式,使边缘计算在互联网传统业务场景中得到应用,也是边缘云云原生的一次工程探索实践。

本项目应用了火山引擎边缘计算多个产品服务,不仅使用了边缘网络提供的四、七层负载均衡产品,还将HTTPDNS服务全部运行在边缘容器上,通过弹性公网IP完成边缘服务的回源以及控制。HTTPDNS联动边缘计算打造的下沉边缘实践案例,作为行业实践,希望为同行业提供一些有益参考。

图片

未来,HTTPDNS团队将持续探索边缘计算容器化弹性调度技术的应用,应对亿级接入、千万QPS流量所带来的流量迁移、接入抖动问题,并进一步提升设备利用率并节约成本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1960506.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python的语法糖及其进化,带范例

话说python也算是多年媳妇熬成婆的典范了。 1)3.6以后引入的f-格式化字符串,现在写代码更像写小作文了,而且折行顺眼多了。 print(f"""Hello, {"World".upper()}""") 2)3.5以后引入的:…

普通人如何抓住AI浪潮的入局之路?

前言 随着生成式AI的迅速普及,不仅科技巨头们纷纷投入重金布局,招聘市场也随之发生了显著变化。对于程序员而言,掌握AI技术已成为提升个人竞争力的关键。然而,面对复杂的理论和技术栈,很多人仍然感到迷茫,…

Windows11安装MySQL8.4.2版本详细过程记录

下载 地址:https://dev.mysql.com/downloads/mysql/8.0.html 我选择下载zip版本: 点击下载需要登录: 于是我登录: 接着点下载: 被迅雷拦截了,直接使用迅雷下载: 下载好了&#xff1…

用Python来DIY一个AI面部情绪识别API的简单方案

基于人工智能的面部情绪识别API在很多场景都得到了应用,在人们情绪化消费、兴趣化消费的当下,如何察言观色,洞察用户真实的心理活动非常必要,对于大多数的人来说,这事非常有挑战,好在以ChatGPT为代表的大语…

如何实现ECharts图表根据屏幕大小自适应?

​🌈个人主页:前端青山 🔥系列专栏:Vue篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来Vue篇专栏内容:Vue-ECharts自适应 目录 前言 1920*1080分辨率示图 8184*2432分辨率示图 以vue3ts开发为例 (…

CSS 如何实现彩色渐变效果的文字

效果图如下&#xff1a;实现文字的字体颜色由 #ad4bd7 向 #6351fe 的颜色渐变效果。 代码如下&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widt…

python 直接引用、浅拷贝、深拷贝的区别

1. 简述 简单来讲&#xff0c;直接引用所指向的地址是原对象的地址&#xff0c;深拷贝所指向的是新对象的地址&#xff0c;浅拷贝介于二者之间&#xff0c;原对象的直接子对象为新&#xff0c;子孙对象为原子孙对象。 下面用两个变量 a、b&#xff0c;一个字典对象 {‘aaa’:…

数学建模--拟合算法

目录 拟合与插值的区别 常用的拟合算法 应用实例 总结 最小二乘法在不同数据分布下的性能表现如何&#xff1f; 傅里叶级数拟合在图像处理中的应用案例有哪些&#xff1f; 贝叶斯估计法与最大似然估计法在参数估计中的优缺点分别是什么&#xff1f; 最大似然估计法&…

QT QTableView使用自定义数据模型

创建一个Qt工程-QMainWindow 添加控件 给按钮加上点击事件 创建数据结构 4.1 使用结构体或类定义自己的数据结构 4.2 声明数据结构体 #pragma once #ifndef MYDATA_H #define MYDATA_H #include<QString> struct Data {int index;QString name;QString sex; }; #endif …

auto和范围for

auto auto&#xff1a;自动推导类型功能 1.在早期 C/C 中 auto 的含义是&#xff1a;使用 auto 修饰的变量&#xff0c;是具有自动存储器的局部变量&#xff0c;后来这个 不重要了。 C11 中&#xff0c;标准委员会变废为宝赋予了 auto 全新的含义即&#xff1a; auto 不再是一…

MATLAB画散点密度图(附代码和测试数据的压缩包)

1. 有关 Matlab 获取代码关注WZZHHH回复关键词&#xff0c;或者咸鱼关注&#xff1a;WZZHHH123 怀俄明探空站数据解算PWV和Tm&#xff1a;怀俄明探空站数据解算PWV和Tm 怀俄明多线程下载探空站数据&#xff08;包括检查和下载遗漏数据的代码&#xff09;&#xff1a;怀俄明多线…

UE5 Niagara 粒子缩放—跟随物体缩放

使用Niagara粒子时&#xff0c;默认情况下&#xff0c;在世界大纲中的粒子不会随着actor的Scale缩放而改变 方法一&#xff1a;添加Scale Sprite Size 节点 方法二&#xff1a;使用 Apply Owner Scale to Attributes 节点 根据需要缩放的变量进行设置。 方法三&#xff1a;使用…

《Redis设计与实现》读书笔记-客户端

目录 1.Client简介 2.客户端属性 1&#xff09;&#xff08;本文重点&#xff09;比较通用的属性 2&#xff09;&#xff08;后续分享&#xff09;另外一类是和特定功能相关的属性 2.1套接字文件描述符 2.2名字 2.3标志&#xff08;flag&#xff09; 2.4输入缓冲区 2.…

esp-idf-v5.1.1所有官方例程讲解(esp32、esp32-C2、esp32-S3)之 a2dp_sink 详解

目录 1. 获取ESP-IDF和示例代码 2. 导航到示例代码 3. 示例代码结构 4. 关键文件解析 main.c 初始化和配置: bt_app_core.c 和 bt_app_core.h bt_app_av.c 和 bt_app_av.h A2DP事件处理: AVRCP事件处理: bt_app_sink.c 和 bt_app_sink.h 5. 编译和烧录 6. 测试…

【Linux】全志Tina etc目录下关键文件内容修改

一、文件位置 V:\f1c100s\Evenurs\f1c100s\tina\target\allwinner\c200s-F1C200s\busybox-init-base-files\etc\ssv6x5x-wifi.cfg 二、文件内容 三、介绍 在此目录下&#xff0c;可以修改在etc目录下的文件内容&#xff0c;此处举例修改一个wifi模块的配置文件数据。

探索Python的`retries`库:让代码更健壮的利器

探索Python的retries库&#xff1a;让代码更健壮的利器 背景&#xff1a;为何选择retries库&#xff1f; 在软件开发过程中&#xff0c;我们经常会遇到需要重复尝试执行某些操作的情况&#xff0c;比如网络请求、文件读写等。这些操作可能会因为各种原因暂时失败&#xff0c;但…

计算机专业,如何在大一领先其他人?关键是打破信息差!

高考录取陆续结束&#xff0c;不少同学报考计算机专业&#xff0c;然而&#xff0c;大部分人面对即将开启的计算机本科课程还是一无所知。 计算机的大学四年&#xff0c;都学些什么&#xff1f;要一直跟字符打交道吗&#xff1f;其实不然&#xff0c;编程的世界远比我们想象的…

[BJDCTF2020]EasySearch (SSI注入漏洞)

这题ctrlU发现往index.php提交数据&#xff0c;但是我目录&#xff0c;git泄露&#xff0c;sqlmap&#xff0c;爆破admin密码都没有作用&#xff0c;数据包页面也没有什么重置密码注册的功能 这种三无题多半是要拿源码做的&#xff0c;我又拿我备份文件字典扫了一下结果发现ind…

开发无人带货直播插件

在当今快速发展的电商行业中&#xff0c;直播带货已成为推动销售增长的重要力量&#xff0c;然而&#xff0c;随着直播市场的日益饱和和消费者需求的不断变化&#xff0c;如何在保持直播互动性的同时&#xff0c;实现高效、低成本的运营成为许多商家关注的焦点。 无人带货直播…