京东短网址高可用提升最佳实践 | 京东云技术团队

news2024/11/18 13:32:45

作者:京东零售 郝彦军

什么是短网址?

短网址,是在长度上比较短的网址。简单来说就是帮您把冗长的URL地址缩短成8个字符以内的短网址。

当我们在腾讯、新浪发微博时,有时发很长的网址连接,但由于微博只限制140个字,所以微博就自动把您发的长网址给转换成短网址了。在微博和手机短信提醒等限制字数的地方来使用短网址,的确是一个不错的方案。

短网址通常使用“短域名/短码”的形式,打开短网址网页会直接跳转到长网址页面。例:3.cn/CdEyF2、t.cn/RlB2PdD、dwz.cn/134128 等短网址,分别是由以下短网址服务缩短后的网址 京东短网址:http://s.3.cn/, 新浪短网址:https://sina.lt/ ,百度短网址:http://dwz.cn/。

短网址服务主要包含功能: 生成短网址(长网址缩短)、二维码简化、修改短网址、短网址跳转(访问短网址跳转到长网址)、唤醒APP、短网址统计 等。

短网址能解决什么问题?

长网址存在的问题:

1、长网址的长度太长,下面的长网址,共记312个字符,在微博场景中,限制140字符,已无法发布出去。在短信场景中,限制70字符,会产生5条短信费用,被拆分后还无法访问,严重影响用户体验。http://wjorder-http.jd.com/scan/np?encodePrcode=2hP_lwNr&encodeShcode=2-S83&businessSource=1&scanSkuType=2&ec=1&salerId=167916&discountsUrl=%2F%2Fcoupon.m.jd.com%2Fcoupons%2Fshow.action%3FlinkKey%3DAAROH_xIpeffAs_-naABEFoePLd7eC4GJgwsPUkFtDqklu805DO1cEqFyTHVT7fbD12AHD7DElAKgh0pfvQpX-E5PbgwLQ&unionId=1001465750

2、长网址生成的二维码,极其复杂 ,导致手机扫描识别极其困难,低端手机甚至无法识别,严重影响用户体验。

短网址则完美解决了上述问题:

1、使用短网址服务缩短上面长网址后的短网址(3.cn/1jK-CDAE),仅有13个字符,在微博、短信等场景中发送十分容易,而且简洁清晰,用户体验极好。

2、短网址生成的二维码,极其简洁 ,非常容易识别,用户体验良好。

京东短网址的业务场景:

京东短网址http://s.3.cn/,是京东唯一的短网址服务平台,已应用到京东体系的各个业务场景中,日均产生1亿条带有3.cn的短消息,点击短网址还可直接唤起对应的APP和小程序。

如下图1-2是来自七鲜、金龙鱼、京东金融、蒙牛、京东等业务的营销消息,下图3-4是唤起七鲜小程序、京东APP、金融APP并跳转至落地页的截图。

图1

图2

图3

图4

京东短网址服务的架构优化:

改造前短网址生成流程图说明:

1、系统首先查询长网址(长链)是否已存在于redis(jimdb)或hbase中,

2、如果长链已存在,则表示该长网址已经生成过,可直接返回查到的短网址,流程结束。

3、如果长链不存在,则使用长网址进行MD5随机算法生成一个长串,并分成3段,转化成62进制短码,拼装成短网址,然后查询短网址(短链)是否存在于redis或hbase中

4、如果短链不存在,则保存长网址到短网址的映射、以及短网址到长网址的映射,到redis或hbase中,返回短网址,流程结束。

5、如果短链已存在,说明随机算法生成的短码发生了冲突碰撞,需要循环回到步骤3,加盐重新生成一个短码,直到生成的短码检测没有冲突后,走到步骤4结束。

从原流程图分析原系统优劣势:

优势:采用随机算法,同一长链在同一账号下始终唯一,适用于长网址大量重复生成的情景,可以在步骤2快速返回,且随机算法遍历难度相对较高。

劣势:外部操作太多,性能影响较大,每次生成短网址涉及的网络请求次数至少8次(2次查redis、2次写redis、2次查hbase、2次写hbase)。

且从上面步骤5可以看出,系统存在一个碰撞循环,随着短码数据量日益增加,碰撞率也会大大增加,每次碰撞都要额外增加1次redis与1次hbase查询,导致性能越来越差。

分析原流程&历史数据,寻找原流程优化点:

1、 从原流程可以看出,如果继续采用随机算法,很难进行优化,因此,想到了可以采用自增算法,因为自增不存在碰撞,就不需要进行双向检索存储,能够极大的降低外部请求数。

2、 分析历史数据发现,很少存在长网址被大量重复生成的情况,也就是说,可以采用自增算法的单向存储(仅存储短网址到长网址的映射),并不会增加存储量,反而会比随机算法的双向存储(存储短到长的映射,及长到短的映射,即双倍存储)节省存储量。

3、 分析历史数据发现,90%超过1个月的短网址都不再有访问量了,同时调研业务也发现,43%用户1个月有效期就够了,46%用户3个月,10%用户1年,极少有用户需要短网址永久有效。

4、 分析历史数据发现,生成的数据量很大,日均1亿+,且大多数短网址并不需要永久保存,需要做好清理规划

5、 分析历史数据发现,生成量远大于跳转量,跳转服务流程简单仅做查询,优化空间不大,倒是对生成服务性能要求极高,优化重点在于生成服务。

优化后的短码生成流程说明:

1、 系统直接采用自增算法生成了一个短码,因为自增算法没有了随机碰撞,也就不需要再检索短网址是否存在redis或hbase中。

2、 直接保存短网址到长网址的映射到redis中,因为没有了检索长网址是否存在于redis或hbase,也就不再需要保存长网址到短网址的映射,也就可以把hbase的写入改成异步写入,然后直接返回短网址,流程结束。(可以看到系统仅剩下1次同步的redis操作,流程极大简化,可以预见接口性能将得到极大提升)

自研专利算法介绍

细心的同学可能会有疑问,上面的分布式自增算法是怎么实现的呢?

目前市面上已知方案,1、通过数据库自增(并发QPS数有限)2、通过redis自增(存在单key热点问题,也就是所有的发号请求都会打到同一分片上),两种方案均会增加性能损耗,且存在扩展瓶颈,无法满足京东的海量业务请求。3、雪花算法(长度太长不符合,短网址要求长度一般在7个字符)

因此设计了下面的专利自增算法:(性能近乎于内存,损耗可忽略)

下面介绍一下核心的自增算法原理:主要采用缓存发号加内存自增方式,既无碰撞率又性能极高,主要体现在下图的三条彩色通道上面。

1、绿色通道:内存发号,速度极快,每次从缓存取出10000个无重复号码,然后在内存中便可连续生成10000个短码,因此速度比传统基于数据库及缓存自增发号方式快万倍。

2、蓝色通道:缓存取号,依赖缓存保证分布式发号无碰撞,批量发号,每1万次内存绿色通道才走一次蓝色缓存通道取号,因此性能极高

3、红色通道:保障机制,保障生成的号码都在短网址对应长度的号码总容量范围内,仅在初始化及总容量用尽时执行,性能损耗可忽略不计。

长度&有效期规划:

• 有访问会自动延期N天(7位短码总容量3万亿,过期时间30天,每天有1000亿短码可用,30天内有1次访问就会重置30天有效期,也就是说保持“热数据”始终在redis中)

• 连续N天无访问自动回收(7位短码,连续30天没有访问的情况下,才会过期回收,也就是说“冷数据”无访问N天后会自动过期清理回收)

以下统计了最近6天的各短码长度的使用分布占比情况,目前使用最多的是7位与8位短码,占比总和近90%。其中43%的用户选择了30天有效期,46%的用户选择来了100天有效期。

提效成果:

Ø 接口性能极大提升:tp999:从150+ms ->7ms,解决了业务调用缓慢及超时的痛点

Ø 单机承载量极大提升:单机QPS:从497->10184,提升了20倍+,无扩容支撑了日生成量:从1千万->2亿+

Ø 按百度短网址费用核算,1年可节约2700万元(证明短网址产生价值很大

Ø redis缓存30天热数据,缓存量 1.2TB

Ø Hbase存储全量数据,存储量 4TB

Ø 6月18日生成量4.7亿、6月日均1亿、峰值QPS 7.2万

Ø 6月1日跳转量1600万、6月日均800万

Ø 线上仅8台4核docker(优化后日常节约了760核机器,618节约3572核)

Ø 有访问自动延期,无访问自动过期回收,避免了死码长期占用资源消耗费用,避免短码越积越多导致的数据量太大及性能下降,系统可长期稳定运行

创新性:

Ø 产出技术发明 专利1篇,编号:JDZL2019N5022

Ø 技术关键点是分布式 无碰撞 高效 短码生成算法:

Ø 该算法利用redis的incrby实现分布式号段发放(5位短码每次发放1000个号,当然6、7位短码可设置更大步长值10000个),利用本机原子id自增减少redis请求(每10000个id自增后请求1次redis),因为id始终自增所以短码无碰撞概率(id可以直接转化为62进制短码),避免了因短码碰撞带来的循环生成检索的性能开销。利用redis.set原子检测key不存在时才能设置成功实现分布式加锁,解决多线程并发重置问题,最终实现比传统自增方案快万倍的高性能无碰撞短码自增算法。

Ø 利用容量规划及过期时间机制(5位短码总容量9亿,有效期10天,每天有9千万可用),实现号段循环重复利用(10天后第1天的号段过期,可以再次使用)(当然如果是6位短码、总容量有550亿,有效期也可以更长。7位短码总容量3万亿,基本可以不用过期了),保障了系统的长期稳定运行。

影响力:

Ø 宙斯平台-京麦服务市场中上架,有**470+**京东商户应用使用。3.cn/1-jMkHBf

Ø 3.cn作为京东唯一的短网址服务平台,合作的应用50+(京东APP、京东金融、京东云、京东保险、七鲜、京东健康、京东物流等等)、小程序20+、合作的二级部门80+

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/517371.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android Studio中android: baselineAligned属性认识及用途

文章目录 使用Button控件来演示使用TextView控件来演示 android:baselineAligned 设置子元素都按照基线对齐&#xff0c;默认是true 使用Button控件来演示 在项目中经常使用layout_weight属性利用比重来设置控件的大小&#xff0c;代码如下&#xff1a; <?xml version&qu…

Baumer工业相机堡盟工业相机如何使用BGAPI SDK解决两个万兆网相机的同步采集不同步的问题

Baumer工业相机堡盟工业相机如何使用BGAPI SDK解决两个万兆网相机的同步采集不同步的问题 Baumer工业相机Baumer工业相机图像数据转为Bitmap的技术背景Baumer同步异常 &#xff1a;客户使用两个Baumer万兆网相机进行同步采集发现FrameID相同&#xff0c;但是图像不同步细节原因…

2023 年第八届数维杯数学建模挑战赛 A题详细思路

下面给大家带来每个问题简要的分析&#xff0c;以方便大家提前选好题目。 A 题 河流-地下水系统水体污染研究 该问题&#xff0c;初步来看属于物理方程类题目&#xff0c;难度较大。需要我们通过查阅相关文献和资料&#xff0c;分析并建立河流-地下水系统中有机污染物的对流、…

机器学习之聚类算法一

文章目录 一、简述1. 有监督和无监督的区别&#xff0c;以及应用实例2. 为什么是聚类3. 聚类都有哪些 二、k-means1.k-means&#xff0c;核心思想是什么1. 同一个簇内的样本点相似度较高&#xff0c;这里的相似度高&#xff0c;具体指什么2.问题来了&#xff1a;同一簇之间相似…

IP-Guard能否限制PC端微信登录?

能否限制PC端微信登录&#xff1f; 不能限制微信登录&#xff0c;但可以通过应用程序控制策略&#xff0c;禁止微信程序启动。 在控制台-【策略】-【应用程序】&#xff0c;添加以下策略&#xff1a; 动作&#xff1a;禁止 应用程序&#xff1a;wechat.exe 可以实现禁止微信启…

【python 多进程】零基础也能轻松掌握的学习路线与参考资料

学习python多进程可以帮助程序员充分利用CPU的性能&#xff0c;同时提高程序的并发性和响应能力。在学习python多进程前&#xff0c;需要具备一定的Python编程基础和对操作系统进程的基本了解。 一、Python多进程学习路线 基本概念 在学习python多进程之前&#xff0c;首先需…

C++基础之默认成员函数(构造函数,析构函数)

目录 空类中都有什么 默认成员函数 构造函数 简介 特性 注意 总结 析构函数 简介 特性 注意 总结 空类中都有什么 先看下面一段代码&#xff1a; class Date {};int main() {Date d1;std::cout << sizeof(Date) << std::endl;std::cout << sizeof(d1) <…

Linux之系统基本设置(四)

1、Linux 系统基本设置 1、系统时间管理 查看系统当前时间和时区 [root192 ~]# date 2023年 05月 04日 星期四 22:43:16 EDT [root192 ~]# date -R Thu, 04 May 2023 22:43:24 -0400 [root192 ~]# date %Y %m %d %H:%M:%S 2023 05 04 22:43:38设置完整时间 [root192 ~]# da…

基于html+css的图展示67

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

Shell脚本文本三剑客之sed编辑器(拥明月入怀,揽星河入梦)

文章目录 一、sed编辑器简介二、sed工作流程三、sed命令四、sed命令的使用1.sed打印文件内容&#xff08;p&#xff09;&#xff08;1&#xff09;打印文件所有行&#xff08;2&#xff09;打印文件指定行 2.sed增加、插入、替换行&#xff08;a、i、c&#xff09;(1&#xff0…

【C++】类和对象()

&#x1f601;作者&#xff1a;日出等日落 &#x1f514;专栏&#xff1a;C 当你的希望一个个落空&#xff0c;你也要坚定&#xff0c;要沉着! —— 朗费罗 前言 面向过程和面向对象初步认识 C语言是面向过程的&#xff0c;关注…

矿井水除氟系统CH-87的技术详解

今天&#xff0c;文章中会谈到的问题是关于煤化工废水深度处理除氟、总氮、砷等污染物工艺技术的拆解分析&#xff0c;用什么样的工艺技术能把矿井水中的氟、砷、总氮做到1个毫克升以下的标准符合达标排放&#xff1f;希望能对相关行业起到一定的帮助作用。我国是一个资源丰富的…

【开源项目】Disruptor框架介绍及快速入门

Disruptor框架简介 Disruptor框架内部核心的数据结构是Ring Buffer&#xff0c;Ring Buffer是一个环形的数组&#xff0c;Disruptor框架以Ring Buffer为核心实现了异步事件处理的高性能架构&#xff1b;JDK的BlockingQueue相信大家都用过&#xff0c;其是一个阻塞队列&#xf…

视觉错觉图像可逆信息隐藏

—————————————————————————————————————————————————————————— 文献学习&#xff1a;视觉错觉图像可逆信息隐藏 [1] Jiao S , Jun F . Image steganography with visual illusion[J]. Optics Express, 2021, 29(10…

【算法与数据结构】栈

栈 栈&#xff1a;结构定义 放入元素是从底向上放入 有一个栈顶指针&#xff0c;永远处在栈顶的元素 还需要标记栈大小的size 栈的性质&#xff1a; Fisrt-in Last-out (FILO) 先进后出 栈改变元素的顺序 栈&#xff1a;出栈 让栈顶指针向下移动一位 栈&#xff1a;入栈 …

【JavaEE】SpringMVC

目录 SpringMVC 获取连接 RequestMapping / GetMapping... 获取参数 获取querystring中的参数(获取表单数据基本相同) 获取URL中的参数 获取JSON对象 获取文件(通过表单) 获取Cookie 获取Header 获取Session 返回数据 返回数据 返回JSON对象 返回静态页面 请求…

云渲染时可以关机吗_云渲染电脑可以关闭吗?

云渲染可简单理解为放在云端的渲染农场&#xff0c;可区别于用户本地自己搭建的小型私有农场&#xff0c;用户只需将自己制作好的项目文件进行打包&#xff0c;通过 云渲染平台提供的客户端或网页端将文件上传到云端进行渲染。很多用户通过云渲染作业&#xff0c;解放了自己本地…

深耕5G+AIoT产业赛道,2023高通&美格智能物联网技术开放日隆重举行

5月11日&#xff0c;高通技术公司携手美格智能联合举办了“高通&美格智能物联网技术开放日”深圳站活动。大会现场&#xff0c;智能物联网行业合作伙伴齐聚一堂&#xff0c;围绕5GAIoT前沿技术&#xff0c;通过大咖专业的技术分享、落地应用介绍和现场丰富的产品展示&#…

Pytorch nn.Softmax(dim=?) 详解

本文参考自&#xff1a;Pytorch nn.Softmax(dim?) - 知乎 原文写得很好了&#xff0c;我这边另外完善了一些细节&#xff0c;让大家理解地更加直白一些。 可以先去看上面的参考文章&#xff0c;也可以直接看我这篇。 目录 1、tensor1 1&#xff09;已知该矩阵的维度为&am…

vue实现聊天框自动滚动

需求 1、聊天数据实时更新渲染到页面 2、页面高度随聊天数据增加而增加 3、竖向滚动 4、当用户输入聊天内容或者接口返回聊天内容渲染在页面后&#xff0c;自动滚动到底部 5、提供点击事件操控滚动条上下翻动 环境依赖 vue&#xff1a;vue…