一次直播和图像识别技术应用的探索之旅

news2024/10/5 14:42:51

背景

Think Better

很多行业都在“卷”,作为金融科技行业的信也,也不例外。除了卷云计算、大数据和人工智能这些非常有深度的技术以外,信也向着技术融合创新的方向逐步探索,做得更好一些,为用户提供更好的价值,才是卷的目的。

起因

在金融科技行业的业务场景中,有一个比较常见的业务就是”授信“,例如给用户提高额度,那么就需要用户提交一些资料,来证明其还款能力,以提高授信额度。常见有的:提交车辆信息、税务记录、工资卡流水记录或学历认证等等。一般在产品功能设计中,给用户提供上传截图的功能,获取相应的资料,再通过风控系统与业务系统的核验,以满足业务流程的需   要。某些业务场景在对反欺诈诉求要求比较高的情况下,人工介入审核资料也是比较普遍的做法,但实际上,这是一个“斗智斗勇”的过程,因为收集到的资料很有可能是不是用户本人或是 PS  过的,很难保证真实性。在传统的业务模式中,风控系统的成本很高,上传多张截图并进行后续识别认证,用户体验也不是太好。

一个思考就来了:怎么能够降低风控成本,提升用户体验?

仔细想来,前面说的过程实际上就是一个“静态”的资料提交审核过程。这种“静态”的过程是个黑盒,一是无法得知用户获取资料的过程信息,二是资料获取后,难以进行违规操作的检测,避免造假。

如果整个过程中,有“一个人”在指导用户操作,并且全程检测呢?

用一个“程序”去看直播

将静态过程转变为动态过程

前面提到的老流程,是黑盒,难以实时风控策略,如果设计一套系统,让程序像一个人一样,从一开始就介入,指导着用户   现场操作,并全程录制并检测违规操作,那么就可以大大提高用户体验,增强反欺诈能力。思考这个程序的功能,可以得出,其须有识别和录制的功能:

  1. 用户操作的整个过程,可以使用屏幕直播推流的技术,让这个程序从一开就看到用户的屏幕,并记录整个过程
  2. 程序可以通过语音,告诉用户应该如何操作,跳转到哪个网页或者打开哪个 App
  3. 当用户达到指定的页面的时候,程序则可以将业务系统需要的信息截取保存下来
  4. 这个程序必须聪明点儿,它看着直播,还得能看懂直播,必须能仔细观察,看到哪些行为是违规的,理解力则依赖:图像识别技术

直播的选型与实践

主流直播的技术方向有两个:

  1. RTMP+CDN
  2. RTC+SD-RTN

特点

RTC

RTMP

用途

实时通信,如实时音视频通话、实时消息传递

实时媒体流传输,如直播、点播

特点

RTC

RTMP

传输方式

使用 UDP(User Datagram Protocol)传输

使用 TCP(Transmission Control Protocol)传输

延迟

低延迟,通常在数百毫秒以下

相对较高的延迟,通常在数秒钟左右

适用场景

实时互动应用,如视频会议、在线游戏

直播平台、视频点播平台

编码支持

支持多种音视频编码格式,如 VP8、H.264、Opus 等

支持多种音视频编码格式,如 H.264、AAC 等

扩展性

支持扩展性较强,可以通过插件或自定义开发功能

部分支持扩展性,但相对较为有限

安全性

支持端到端的加密和安全传输

支持基本的加密功能,但安全性较低

设备兼容性

兼容性较好,支持在不同设备和平台上使用

兼容性较好,但在某些设备和平台上可能存在兼容性问题

开发成本

相对较高的开发成本,需要处理实时音视频传输的复杂性

相对较低的开发成本,易于集成和使用

实时性

较高的实时性,适用于对实时性要求较高的场景

相对较高的实时性,但在网络条件不理想时可能出现缓冲和延迟

选型一般要考虑使用场景,直播的场景一般为一个主播推流,上万人观看,但我们这个场景稍微不同,是一个程序在 “看”,没有其他观众,并且对实时性要求较高,所以 RTC 是首选。

一个 RTC 的数据包数据格式如下:

RTC   在移动网络下,最大的挑战是弱网或断网下的稳定性表现,发生卡顿和中断会影响用户体验。解决这类问题,业内一般使用多链路传输技术,例如苹果的 MPTCP(Multi-Path TCP) ,在手机网络切换 Wifi 和蜂窝网络或网络网络丢包较高的情况发生时,多链路的使用,可以大大增强稳定性。但这种技术也带来了高功耗和高流量。那么使用 弱网冗余传输 来就可以优化这种情况,即在 RTC 检测到弱网环境下才开启双链路的传输。

另外,还需要使用 FFMPEG 来当做看的“眼睛”。但很遗憾,FFMPEG 并不支持直接对 RTC 视频流的读取,那么就必须将 RTC 转换为 RTMP 协议,因为 RTMP 在大规模观看的时候需要启用 CDN 网络来进行分发,而 RTC 转 RTMP 在服务端侧完成内网转发,则避免了这个问题,FFMPEG 在使用的过程中类似于如下命令:

ffmpeg -i "rtmp://boliu.koofenqi.com/koo-tuiliu-test/testneo?auth_key=1684307737-0-0- 52941de184ba86a371f8fd36d030b723" -vframes 1 -r 1 -q:v 2

拿到视频流信息则可以交给识别部分来让程序理解当前屏幕上的内容。这部分的流程如下图:

识别技术的实践

当源源不断得到屏幕的视频画面的时候,如何识别当前的画面是目标页面或者是存在违规行为的画面,那么有两种实现思路:

  1. OCR 图像转换为文本,使用正则表达式来达到检测目标文本特征或异常文本特征
  2. 利用特征提取技术,识别图像中是否存在目标元素特征

OCR  技术有一个问题:即页面较为复杂的时候,文本转换时间不可控,不太满足实时性的要求。那么利用体征提取技术, 则可以避免此类问题的发生。

在此种图像识别技术方案下,一般分为如下子任务:

  • (a)Image Classification图像分类,用于识别画面中元素的类别(如:bottle、cup、cube)
  • (b)Object Localization: 目标检测,用于检测图像中每个元素的类别,并准确标出它们的位置。
  • © Semantic Segmentation图像语义分割,用于标出图像中每个像素点所属的类别,属于同一类别的像素点用一个颜色标识。
  • (d) Instance Segmentation实例分割,值得注意的是,(b)中的目标检测任务只需要标注出物体位置,而(d) 中的实例分割任务不仅要标注出物体位置,还需要标注出物体的外形轮廓。

当预设目标页面的元素出现,则可将图像的语义转换为置信度、风险度等结果输出给程序,进行业务判定。

这个“程序”有点普通但也有点意思

一个流程引擎,支援业务流程的执行

这个程序像一个引导用户做流程的业务员一样,那么它具备以下功能:

  1. 熟悉各种业务流程,按照业务流程的规定,进行业务流程的执行
  2. 一直维持着与客户端的通讯
  3. 指挥客户端、直播服务、图像识别服务、反欺诈服务进行协调工作

那么这个程序实际上就是一个流程引擎,在整个流程引擎的架构设计中,需要考虑如下几个方面:

  • 长连接性能指标,例如:
  • 吞吐(Thoughput) >= 1000
  • Latency <= 100ms
  • Concurrent >= 500
  • Error Rate <= 1%
  • 保证安全性
  • websocket 握手令牌校验
  • 消息体二进制编码
  • 流程适配性强
  • 业务节点配置化
  • 客户端预置指令模块化
  • 全程做到实时监控
  • websocket 通讯监控
  • 流程执行监控
  • 客户端异常监控
  • 服务异常监控
  • 客户端兼容性达标
  • iOS/Android/HarmonyOS 兼容覆盖
  • 主流机型兼容覆盖
  • 各种网络异常兼容覆盖
  • 稳定性强
  • 业务单元执行异常恢复
  • 网络通讯异常恢复
  • 客户端与服务端的系统异常恢复

整个流程引擎的架构设计如下:

在前面,流程引擎维持与客户端的通讯,使用 websocket 长连接服务。一个典型的长连接服务如下图:

在安全性方面,使用令牌技术,在  websocket  连接发起的时候,检测令牌是否有效,避免非法客户端的连接,并且数据传输防止信息泄露,通讯的数据包使用二进制流,那么在编码方面,选用  protocolbuf,来实现客户端与服务端的传输数据的序列化和反序列化。

多技术的融合应用达到的效果

一套 WebSokcet/RTC/FFMEPG/ImageRecognition 的技术组合

将这些技术进行融合以后,例如需要用户通过自己的机动车信息来提升额度的话,就可以这样完成:

  1. 用户手机通过 websocket 连接上服务端
  2. 流程引擎启动,指引客户端发起屏幕 RTC 推流
  3. 根据业务流程配置,使用 FFMPEG 处理屏幕视频画面
  4. 图像识别服务将画面进行标定与检测,确认业务信息的截取
  5. 服务端对整个视频画面进行录制保存
  6. 流程引擎时时刻刻执行反欺诈策略,检测用户操作是否存在违规和欺诈行为

当这样一个融合多种技术方案的探索落地以后,便诞生了可以满足各个业务场景使用的 _ 推流认证平台 _。

目前,* 推流认证平台  *正服务于一些对风险要求较高的流程中,该平台可以让用户不再手动操作繁琐的流程,只需要听着语音点一点,平台将自动获取资料,完成后续流程。

这样的多技术融合的探索,是一种有意思也有相当业务价值的尝试!

探索的脚步永不停歇

未来,将会有更多有意思有价值的探索持续进行,创新的源泉来自热衷思考,敢实践,不怕失败的解决各种问题。展望未来,后期还有更多可以持续优化创新的地方:

  1. 业务流程引擎使用 webassembly 技术,形成安全的二进制程序,结合边缘网络(Edge  Network),实现离线的流程执行
  2. 图像识别采用卷积神经网络,训练更优秀的识别模型,为风险识别提供更多的基础能力
  3. 使用移动端的机器学习技术,利用手机本身的 AI 算力,加载图像识别模型,进一步缩短业务流程时间

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1508150.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【“双碳”目标】Acrel-2000Z分布式光伏发电监测系统解决方案

1 概述 “十四五”期间&#xff0c;随着“双碳”目标提出及逐步落实&#xff0c;本就呈现出较好发展势头的分布式光伏发展有望大幅提速。就“十四五”光伏发展规划&#xff0c;国家发改委能源研究所可再生能源发展中心副主任陶冶表示&#xff0c;“双碳”目标意味着国家产业结…

Django高级之-cookie-session-token

Django高级之-cookie-session-token 发展史 1、很久很久以前&#xff0c;Web 基本上就是文档的浏览而已&#xff0c; 既然是浏览&#xff0c;作为服务器&#xff0c; 不需要记录谁在某一段时间里都浏览了什么文档&#xff0c;每次请求都是一个新的HTTP协议&#xff0c; 就是请…

20240306数据库的毫秒级上锁特性与可重复读级别的MVCC快照处理方式

从后端程序发送SELECT指令到数据库加上读锁&#xff0c;这个过程的时间差取决于多个因素&#xff0c;包括网络延迟&#xff08;如果存在&#xff09;、数据库服务器的处理能力、当前数据库的负载以及查询本身的复杂度。在你的情况下&#xff0c;由于后端程序和数据库服务器运行…

Intel@cpu产品参数和命名@单核睿频和全核睿频

文章目录 选择合适的cpuintel cpu型号和命名小结 cpu排行时钟速度睿频单核睿频和全核睿频网络上流传的方法 在线查询 产品比较跑分比较 选择合适的cpu 如何选择游戏 CPU - 英特尔 (intel.cn)在决定购买具体的产品之前,建议广泛地查阅用户对它的评价以及是否有哪些因素是不满足…

AI时代,AI智能交互数字人赋能公共服务降本增效

人工智能时代&#xff0c;AI交互数字人技术不断在冲击公共服务领域。越来越多公共服务领域开始在自身业务中运用AI智能交互数字人&#xff0c;通过布局AI交互数字人应用于代言人、推荐官、客服、主播等诸多领域。 近年来&#xff0c;数字人技术正在成为引领数字化时代营销的重…

常用云产品连接

阿里云常用云产品 云服务器 阿里云&#xff1a;云服务器ECS_云主机_服务器托管_计算-阿里云 对象存储 阿里云&#xff1a;对象存储 OSS_云存储服务_企业数据管理_存储-阿里云 短信服务 阿里云&#xff1a;短信服务_企业短信营销推广_验证码通知-阿里云 CDN服务 阿里云&…

mysql日常优化的总结

文章目录 一、数据表结构相关优化建字段类型注意事项1. int类型的选择2.varchar、char、text类型3.date、datetime、timestamp类型 表规划1. 垂直分表2. 水平分表 二、查询语句优化1.对于字段多的表&#xff0c;避免使用SELECT *2.避免使用!操作符3.避免使用null做条件4.like查…

李彦宏:程序员会消失;拜登谈TikTok撤离;李想终就MEGA风波表态;英伟达紧急处理全球范围故障;刘作虎:AI手机非噱头

一、商业圈 1.阿里包揽中国估值最高的5家大模型独角兽 在对AI大模型初创企业的投资竞赛中&#xff0c;阿里巴巴已成为中国互联网巨头中最大的投资者目前&#xff0c;中国一级市场上估值最高的5家A大模型初创公司&#xff0c;阿里均参与投资&#xff0c;并在2-3家公司中可能是…

pip 和conda 更换镜像源介绍

1、前言 很多深度学习的项目免不了安装库文件、配置环境等等&#xff0c;如果利用官方提供的连接&#xff0c;网速很慢&#xff0c;而且很容易download掉。 所以配置好了虚拟环境&#xff0c;将pip换源属实重要 常见的国内镜像源有清华、中科大、阿里等等... 这里建议用中科…

抖音视频提取gif怎么做?分分钟帮你生成gif

通过将视频转换成gif动图的方式能够方便的在各种平台上分享、传播。相较于视频文件&#xff0c;gif动图的体积更小&#xff0c;传播起来更方便&#xff0c;能够吸引大众的注意力。下面&#xff0c;就来给大家分享一个gif图片制作&#xff08;https://www.gif.cn/&#xff09;的…

记录一个编译的LLVM 含clang 和 PTX 来支持 HIPIFY 的构建配置

llvm 18 debug 版本 build llvmorg-18.1rc4 debug $ cd llvm-project $ git checkout llvmorg-18.1.0-rc4 $ mkdir build_d $ cd build_d $ mkdir -p ../../local_d cmake \ -DCMAKE_INSTALL_PREFIX../../local_d \ -DLLVM_SOURCE_DIR../llvm \ -DLLVM_ENABLE_PROJECTS&…

WorkPlus Meet提供高效、安全视频会议解决方案

WorkPlus Meet是一款私有部署和定制化的视频会议解决方案&#xff0c;为企业提供高效、安全的远程协作平台。随着全球数字化转型的加速&#xff0c;视频会议已成为企业必不可少的工作工具&#xff0c;而WorkPlus Meet的私有部署和定制化功能&#xff0c;为企业提供了更大的控制…

【leetcode热题】排序链表

给你链表的头结点 head &#xff0c;请将其按 升序 排列并返回 排序后的链表 。 示例 1&#xff1a; 输入&#xff1a;head [4,2,1,3] 输出&#xff1a;[1,2,3,4]示例 2&#xff1a; 输入&#xff1a;head [-1,5,3,4,0] 输出&#xff1a;[-1,0,3,4,5]示例 3&#xff1a; 输入…

14:00面试,14:10就出来了,问的问题有点变态。。。

从小厂出来&#xff0c;没想到在另一家公司又寄了。 到这家公司开始上班&#xff0c;加班是每天必不可少的&#xff0c;看在钱给的比较多的份上&#xff0c;就不太计较了。没想到3月一纸通知&#xff0c;所有人不准加班&#xff0c;加班费不仅没有了&#xff0c;薪资还要降40%,…

有没有能用蓝牙的游泳耳机?四款好评如潮的游泳耳机速来围观

在如今的快节奏生活中&#xff0c;音乐已经成为了我们日常休闲和运动时的重要伴侣。尤其对于水上运动爱好者来说&#xff0c;一款好的游泳耳机更是必不可少。它不仅能让我们在水中畅享音乐&#xff0c;还能有效隔绝外界噪音&#xff0c;让我们更加专注于自己的运动。 &#xf…

鸿蒙开发为什么这么火,现在入行鸿蒙是否来的及?

鸿蒙开发是当前备受关注的技术领域之一&#xff0c;对于想要入门学习鸿蒙开发的初学者来说&#xff0c;需要掌握一定的基础知识和技能。鸿蒙开发又是否能为程序员们带来一片光明的未来呢&#xff1f;让我们一同探讨这些问题。 对于初学者来说&#xff0c;鸿蒙开发是否易于上手呢…

300分钟吃透分布式缓存-22讲:怎么认识和应用Redis内部数据结构?

Redis 内部数据结构 RdeisDb Redis 中所有数据都保存在 DB 中&#xff0c;一个 Redis 默认最多支持 16 个 DB。Redis 中的每个 DB 都对应一个 redisDb 结构&#xff0c;即每个 Redis 实例&#xff0c;默认有 16 个 redisDb。用户访问时&#xff0c;默认使用的是 0 号 DB&…

C语言实现贪吃蛇

前言&#xff1a;今天给大家详细介绍一下小游戏贪吃蛇的代码。 目录 一 .贪吃蛇实现的功能 二.贪吃蛇游戏设计与分析 1.贪吃蛇以及贪吃蛇所需要维护的数据 &#xff08;1&#xff09;贪吃蛇蛇体 &#xff08;2&#xff09;数据维护 2.地图设计 &#xff08;1&#x…

【三十】springboot项目上高并发解决示例

互相交流入口地址 整体目录&#xff1a; 【一】springboot整合swagger 【二】springboot整合自定义swagger 【三】springboot整合token 【四】springboot整合mybatis-plus 【五】springboot整合mybatis-plus 【六】springboot整合redis 【七】springboot整合AOP实现日志操作 【…

【Python】一文详细介绍plt.rcParams 在 Matplotlib 中的原理、作用、注意事项

【Python】一文详细介绍plt.rcParams 在 Matplotlib 中的原理、作用、注意事项 &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;Matplotlib之旅&#xff1a;零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程&#x…