一次直播和图像识别技术应用的探索之旅

背景

Think Better

很多行业都在“卷”，作为金融科技行业的信也，也不例外。除了卷云计算、大数据和人工智能这些非常有深度的技术以外，信也向着技术融合创新的方向逐步探索，做得更好一些，为用户提供更好的价值，才是卷的目的。

起因

在金融科技行业的业务场景中，有一个比较常见的业务就是”授信“，例如给用户提高额度，那么就需要用户提交一些资料，来证明其还款能力，以提高授信额度。常见有的：提交车辆信息、税务记录、工资卡流水记录或学历认证等等。一般在产品功能设计中，给用户提供上传截图的功能，获取相应的资料，再通过风控系统与业务系统的核验，以满足业务流程的需要。某些业务场景在对反欺诈诉求要求比较高的情况下，人工介入审核资料也是比较普遍的做法，但实际上，这是一个“斗智斗勇”的过程，因为收集到的资料很有可能是不是用户本人或是 PS 过的，很难保证真实性。在传统的业务模式中，风控系统的成本很高，上传多张截图并进行后续识别认证，用户体验也不是太好。

一个思考就来了：怎么能够降低风控成本，提升用户体验？

仔细想来，前面说的过程实际上就是一个“静态”的资料提交审核过程。这种“静态”的过程是个黑盒，一是无法得知用户获取资料的过程信息，二是资料获取后，难以进行违规操作的检测，避免造假。

如果整个过程中，有“一个人”在指导用户操作，并且全程检测呢？

用一个“程序”去看直播

将静态过程转变为动态过程

前面提到的老流程，是黑盒，难以实时风控策略，如果设计一套系统，让程序像一个人一样，从一开始就介入，指导着用户现场操作，并全程录制并检测违规操作，那么就可以大大提高用户体验，增强反欺诈能力。思考这个程序的功能，可以得出，其须有识别和录制的功能：

用户操作的整个过程，可以使用屏幕直播推流的技术，让这个程序从一开就看到用户的屏幕，并记录整个过程
程序可以通过语音，告诉用户应该如何操作，跳转到哪个网页或者打开哪个 App
当用户达到指定的页面的时候，程序则可以将业务系统需要的信息截取保存下来
这个程序必须聪明点儿，它看着直播，还得能看懂直播，必须能仔细观察，看到哪些行为是违规的，理解力则依赖：图像识别技术

直播的选型与实践

主流直播的技术方向有两个：

RTMP+CDN
RTC+SD-RTN

特点	RTC	RTMP
用途	实时通信，如实时音视频通话、实时消息传递	实时媒体流传输，如直播、点播

特点	RTC	RTMP
传输方式	使用 UDP（User Datagram Protocol）传输	使用 TCP（Transmission Control Protocol）传输
延迟	低延迟，通常在数百毫秒以下	相对较高的延迟，通常在数秒钟左右
适用场景	实时互动应用，如视频会议、在线游戏	直播平台、视频点播平台
编码支持	支持多种音视频编码格式，如 VP8、H.264、Opus 等	支持多种音视频编码格式，如 H.264、AAC 等
扩展性	支持扩展性较强，可以通过插件或自定义开发功能	部分支持扩展性，但相对较为有限
安全性	支持端到端的加密和安全传输	支持基本的加密功能，但安全性较低
设备兼容性	兼容性较好，支持在不同设备和平台上使用	兼容性较好，但在某些设备和平台上可能存在兼容性问题
开发成本	相对较高的开发成本，需要处理实时音视频传输的复杂性	相对较低的开发成本，易于集成和使用
实时性	较高的实时性，适用于对实时性要求较高的场景	相对较高的实时性，但在网络条件不理想时可能出现缓冲和延迟

选型一般要考虑使用场景，直播的场景一般为一个主播推流，上万人观看，但我们这个场景稍微不同，是一个程序在 “看”，没有其他观众，并且对实时性要求较高，所以 RTC 是首选。

一个 RTC 的数据包数据格式如下：

RTC 在移动网络下，最大的挑战是弱网或断网下的稳定性表现，发生卡顿和中断会影响用户体验。解决这类问题，业内一般使用多链路传输技术，例如苹果的 MPTCP(Multi-Path TCP) ，在手机网络切换 Wifi 和蜂窝网络或网络网络丢包较高的情况发生时，多链路的使用，可以大大增强稳定性。但这种技术也带来了高功耗和高流量。那么使用 弱网冗余传输 来就可以优化这种情况，即在 RTC 检测到弱网环境下才开启双链路的传输。

另外，还需要使用 FFMPEG 来当做看的“眼睛”。但很遗憾，FFMPEG 并不支持直接对 RTC 视频流的读取，那么就必须将 RTC 转换为 RTMP 协议，因为 RTMP 在大规模观看的时候需要启用 CDN 网络来进行分发，而 RTC 转 RTMP 在服务端侧完成内网转发，则避免了这个问题，FFMPEG 在使用的过程中类似于如下命令:

ffmpeg -i "rtmp://boliu.koofenqi.com/koo-tuiliu-test/testneo?auth_key=1684307737-0-0- 52941de184ba86a371f8fd36d030b723" -vframes 1 -r 1 -q:v 2

拿到视频流信息则可以交给识别部分来让程序理解当前屏幕上的内容。这部分的流程如下图：

识别技术的实践

当源源不断得到屏幕的视频画面的时候，如何识别当前的画面是目标页面或者是存在违规行为的画面，那么有两种实现思路：

OCR 图像转换为文本，使用正则表达式来达到检测目标文本特征或异常文本特征
利用特征提取技术，识别图像中是否存在目标元素特征

OCR 技术有一个问题：即页面较为复杂的时候，文本转换时间不可控，不太满足实时性的要求。那么利用体征提取技术，则可以避免此类问题的发生。

在此种图像识别技术方案下，一般分为如下子任务：

（a）Image Classification：图像分类，用于识别画面中元素的类别（如：bottle、cup、cube）
（b）Object Localization： 目标检测，用于检测图像中每个元素的类别，并准确标出它们的位置。
© Semantic Segmentation：图像语义分割，用于标出图像中每个像素点所属的类别，属于同一类别的像素点用一个颜色标识。
(d) Instance Segmentation：实例分割，值得注意的是，（b）中的目标检测任务只需要标注出物体位置，而（d）中的实例分割任务不仅要标注出物体位置，还需要标注出物体的外形轮廓。

当预设目标页面的元素出现，则可将图像的语义转换为置信度、风险度等结果输出给程序，进行业务判定。