内容安全审核系统的设计思路

news2024/11/25 6:34:35

今年负责的APP产品涉及到内容的审核,并且针对性的做了一套内容审核系统和账号安全体系。因此总结了一些经验。

内容审核基础逻辑:

  • 内容类型:文本、图片、视频、音频

  • 审核类型:涉黄、暴恐、涉政、广告、垃圾违禁、辱骂自定义;主要为这几类,其他的根据具体场景添加,比如文化宗教等。

审核模块:

  • 用户发送信息流程:用户登录——内容编辑——内容上传——内容展示

  • 用户接受信息流程:用户登录——内容展示——互动

通过简单的流程梳理,不难看出涉及的对象有:发送用户、接收用户、内容审核(人员、管理员等)等;那么考虑设计时,有两个方向去思考:一方面,单纯考虑针对某个对象,要做什么机制处理。另一个方面,将相关联对象串联起来,考虑产品设计。

一、对于发送用户

可以通过用户的账号进行处理,用户的所有行为都能说明用户想干什么,是什么样的用户。

针对用户可以建立一套账号基础信息、用户分值系统、用户风险监控系统。

用户基础信息可以有用户年龄、性别、地理位置、设备、ip地址、使用时长、交易信息、用户发布各类信息等。用户数据是对用户进行分析的基础,有些数据可以在一定程度上反应用户信用。

用户分值系统则是通过用户基础数据进行分析,并数值化,可以按权重累加、按总分值加总均可。

比如:发布过一个违规内容的用户,则分值降低等。仅分值系统可能不够,比如分值高的用户,但是还是有可能发布不好的内容。因此需要再通过其他策略处理,比如高中低风险用户制度、黑白名单制度等。

比如:一个用户发布了一个违规内容被检测出来后,和分值解耦的另外一个平台定义其为高风险用户,该用户后续内容将多次放到人工审核机制中。

二、内容的编辑、上传

内容上传后,就是常用的先跑系统审核流程——人工审核流程——及其他申述复审流程等。

常见可选择敏感词策略有:不同类型内容选择不同。

(1)关键词:禁止关键词,一旦识别立即拦截。疑似关键词:支持更多策略,可以设置阈值,处理的方式有:疑似送审、拦截不送审、拦截加黑名单。设置的阈值指的是:设置一定数,若检测出超过一定次数后,则对应处理。

(2)黑白名单:顾名思义,黑名单一律拦截、白名单一律不检测拦截。

(3)用户频次:主要针对用户发送的方式、次数等次数进行统计,形成用户频次统计数据。根据频次可对用户进行处理:疑似送审、直接拦截、拦截加黑。

(4)黑白指纹:指纹-唯一,对内容文件通过消息摘要算法生成MD5,配置入黑名单,一旦发现相同MD5则拦截。反之白名单一样。

1. 系统审核

(1)文本

主要是关键词过滤,关键词大可分为:禁止、需审核关键词。禁止关键词:自动禁止的关键词(色情、广告等);审核关键词:检测到比较模糊是否为违规关键词的需要进入人工审核流程。

关键词的类型分为不同类型进行检测,关键词的库做成可配置的方式,以供应对不同的场景。

(2)图片

图片的审核有几种类型:图片主体、图片动作、图片文字、图片质量、图片广告(二维码、水印等)。针对不同的检测内容,可自行配置图片审核策略。

(3)视频

视频审核和图片审核是一样的,不同的地方在于,视频的审核需要先进行截取视频某一帧画面然后再进行图片审核。不同于图片,视频还可进行音频审核。

(4)音频

音频审核最主要是两点:1.是关键词内容,音频转为文字,进行校验关键词。2.是音频动物、喘息声纹就监控,这个需要阈值管理,主要有三个区域:正常区域、疑似区域、违规区域。

(5)其他

限定符:设置字符间可忽略的字符数;例如:“黄色”为违规词,为了规避用户可能会用“黄1色”,因此在“黄色”中间加入限定符以检测。

还有正则表达式、乱码等。

2. 人工审核

(1)人工审核机制

内容给到人工进行审核主要有:各系统转发至人工审核(系统审核为疑似内容、检测为高危用户等)、随机抽样审核;

人工任务分配机制:

  1. 内容的分发一般来说,可以按某些类型分发给不同的审核人员。比如:内容类型(图片、文字),再比如某个类型涉黄的内容某些审核人员专门负责等等。

  2. 分配的时间:审核人员可能不能做到24h在线,那么未在线的时候,该类内容次日优先处理。对于某些发布者的内容,可以优先审核。

(2)人工审核系统

人工审核系统主要分为几块:

  1. 账号管理:超级管理员可以通过系统管理人工审核账号,包括开通、删除、权限管理等。

  2. 监管平台:对于人工审核的质量也需要监管。简单的监管,可以直接抽样观察+操作日志记录即可。复杂的可以深入设计,对于审核人员来说他们的KPI大都是在一定时间内完成一定数量审核。那么这样很容易忽略质量,因此交叉审核、复审是有必要的。内容被人工审核后随即一部分进入交叉审核或者给到专门做二审的部门(KPI不同),若两次审核结果不一致则需复审,复审由更高一级负责人完成。

  3. 人工审核平台:审核人员通过平台对图、文、音、视频进行审核。不同类型前端样式的设计也是不同的。and 许多配套功能,倍速浏览、自动播放功能等。

3. 投诉和复审

对于发布者来说,内容的审核有时候没办法做到百分百准确,那么用户可以通过申述方式进行处理。那么对于人工审核人员中,也需要有对应处理申述的后台。

三、内容展示

大家应该都懂:先展示后审核、先审核后展示,这是基础的。还有其他的展示逻辑:发布内容后先对少量用户展示,审核通过后再全量展示。而对于高敏感的内容,限制展示渠道和曝光的上限,减少影响范围。

四、对于接受者

对于接受内容的用户,可以通过他们的行为侧面分析出内容的情况。

1. 用户基础行为

观看、点评、点赞、转发等,主要关注的是点评/评论,对评论进行监控内容,若评论中有对内容的举报或其他关键词,则该内容需要进入人工审核流程关注该类内容。

转发也需要关注,大量的传播有时候可能不是好消息,一旦有一个违规内容被大量传播,很可能导致公关问题。对大量传播内容,需要高度关注。

2. 举报

用户通过举报,将内容进入人工检查阶段。

最后来一句:内容安全、审核,主要工作应该还是对内容识别,提升系统审核效率、准确度,提升人工审核效率。

题外话

初入计算机行业的人或者大学计算机相关专业毕业生,很多因缺少实战经验,就业处处碰壁。下面我们来看两组数据:

  • 2023届全国高校毕业生预计达到1158万人,就业形势严峻;

  • 国家网络安全宣传周公布的数据显示,到2027年我国网络安全人员缺口将达327万。

一方面是每年应届毕业生就业形势严峻,一方面是网络安全人才百万缺口。

6月9日,麦可思研究2023年版就业蓝皮书(包括《2023年中国本科生就业报告》《2023年中国高职生就业报告》)正式发布。

2022届大学毕业生月收入较高的前10个专业

本科计算机类、高职自动化类专业月收入较高。2022届本科计算机类、高职自动化类专业月收入分别为6863元、5339元。其中,本科计算机类专业起薪与2021届基本持平,高职自动化类月收入增长明显,2022届反超铁道运输类专业(5295元)排在第一位。

具体看专业,2022届本科月收入较高的专业是信息安全(7579元)。对比2018届,电子科学与技术、自动化等与人工智能相关的本科专业表现不俗,较五年前起薪涨幅均达到了19%。数据科学与大数据技术虽是近年新增专业但表现亮眼,已跻身2022届本科毕业生毕业半年后月收入较高专业前三。五年前唯一进入本科高薪榜前10的人文社科类专业——法语已退出前10之列。

“没有网络安全就没有国家安全”。当前,网络安全已被提升到国家战略的高度,成为影响国家安全、社会稳定至关重要的因素之一。

网络安全行业特点

1、就业薪资非常高,涨薪快 2021年猎聘网发布网络安全行业就业薪资行业最高人均33.77万!

2、人才缺口大,就业机会多

2019年9月18日《中华人民共和国中央人民政府》官方网站发表:我国网络空间安全人才 需求140万人,而全国各大学校每年培养的人员不到1.5W人。猎聘网《2021年上半年网络安全报告》预测2027年网安人才需求300W,现在从事网络安全行业的从业人员只有10W人。

行业发展空间大,岗位非常多

网络安全行业产业以来,随即新增加了几十个网络安全行业岗位︰网络安全专家、网络安全分析师、安全咨询师、网络安全工程师、安全架构师、安全运维工程师、渗透工程师、信息安全管理员、数据安全工程师、网络安全运营工程师、网络安全应急响应工程师、数据鉴定师、网络安全产品经理、网络安全服务工程师、网络安全培训师、网络安全审计员、威胁情报分析工程师、灾难恢复专业人员、实战攻防专业人员…

职业增值潜力大

网络安全专业具有很强的技术特性,尤其是掌握工作中的核心网络架构、安全技术,在职业发展上具有不可替代的竞争优势。

随着个人能力的不断提升,所从事工作的职业价值也会随着自身经验的丰富以及项目运作的成熟,升值空间一路看涨,这也是为什么受大家欢迎的主要原因。

从某种程度来讲,在网络安全领域,跟医生职业一样,越老越吃香,因为技术愈加成熟,自然工作会受到重视,升职加薪则是水到渠成之事。

为了帮助大家更好的学习网络安全,我给大家准备了一份网络安全入门/进阶学习资料,里面的内容都是适合零基础小白的笔记和资料,不懂编程也能听懂、看懂这些资料!

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

[2024最新CSDN大礼包:《黑客&网络安全入门&进阶学习资源包》免费分享]


在这里插入图片描述

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

[2024最新CSDN大礼包:《黑客&网络安全入门&进阶学习资源包》免费分享]
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1451654.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Git】.gitignore 的匹配规则

每行一个规则:每行只能包含一个规则,多个规则需要分别写在不同的行上。 示例: # 忽略日志文件 logs/ # 忽略临时文件 temp.txt种类匹配: 文件:在规则的开头指定文件名或路径,如 file.txt。 示例&#xff1a…

leetcode hot100不同路径

本题可以采用动态规划来解决。还是按照五部曲来做 确定dp数组:dp[i][j]表示走到(i,j)有多少种路径 确定递推公式:我们这里,只有两个移动方向,比如说我移动到(i,j&#x…

第7章 Page446~449 7.8.9智能指针 std::unique_ptr

“unique_ptr”是“独占式智能指针” 名字透露身份&#xff0c;“unique_ptr”是“独占式智能指针”。使用它管理前面的O类指针&#xff1a; 演示1&#xff1a; 例中 p 是一个智能指针。其中的“<O>”指明它所指向的数据类型是“O”。除了创建方法不太一样&#xff0c;…

Flutter 动画(显式动画、隐式动画、Hero动画、页面转场动画、交错动画)

前言 当前案例 Flutter SDK版本&#xff1a;3.13.2 显式动画 Tween({this.begin,this.end}) 两个构造参数&#xff0c;分别是 开始值 和 结束值&#xff0c;根据这两个值&#xff0c;提供了控制动画的方法&#xff0c;以下是常用的&#xff1b; controller.forward() : 向前…

什么是自编码器Auto-Encoder?

来源&#xff1a;https://www.bilibili.com/video/BV1Vx411j78H/?spm_id_from333.1007.0.0&vd_sourcef66cebc7ed6819c67fca9b4fa3785d39 为什么要压缩呢&#xff1f; 让神经网络直接从上千万个神经元中学习是一件很吃力的事情&#xff0c;因此通过压缩提取出原图片中最具代…

使用汇编程序恢复C库、动态链接器

文章目录 写在前面背景原理动态链接器C库 汇编代码示例删除C库删除动态链接器 写在前面 上层语言的好处就是方便&#xff0c;但无法触摸规则的底层&#xff0c;所有的规则都是别人制定的 学习底层原理不仅可以让我们对高级语言的规则有更深的理解&#xff0c;而且可以从自己的…

二维数组传参的本质(详解)

目录 一、前言二、分析本质三、总结 一、前言 有时候我们有⼀个⼆维数组的需要传参给⼀个函数的时候&#xff0c;我们是这样写的&#xff1a; #include <stdio.h> void test(int a[3][5], int r, int c) {int i 0;int j 0;for (i 0; i < r; i){for (j 0; j <…

第三百四十八回

文章目录 1. 概念介绍2. 使用方法2.1 List2.2 Map2.3 Set 3. 示例代码4. 内容总结 我们在上一章回中介绍了"convert包"相关的内容&#xff0c;本章回中将介绍collection.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1. 概念介绍 我们在本章回中介绍的内容是col…

0102awvs安装-扫描-信息收集

1 安装awvs23.7 解压压缩包&#xff0c;解压密码网站网址&#xff0c;下载地址在最后链接双击acunetix_23.7.230728157.exe安装程序 安装位置默认&#xff0c;如更改位置&#xff0c;后面需要更改bat文件相应内容 设置管理员信息 next直到浏览器跳出登录界面 2 运行运行www.dd…

基于Java (spring-boot)的房屋租赁管理系统

一、项目介绍 基于Java (spring-boot)的房屋租赁管理系统功能&#xff1a;登录、管理员、租客、公告信息管理、房屋信息管理、用户信息管理、租金信息管理、故障信息管理、房屋出租信息详情、个人信息、修改密码、等等等。 适用人群&#xff1a;适合小白、大学生、毕业设计、课…

LV.23 D2 开发环境搭建及平台介绍 学习笔记

一、Keil MDK-ARM简介及安装 Keil MDK&#xff0c;也称MDK-ARM&#xff0c;Realview MDK &#xff08;Microcontroller Development Kit&#xff09;等。目前Keil MDK 由三家国内代理商提供技术支持和相关服务。 MDK-ARM软件为基于Cortex-M、Cortex-R4、ARM7、ARM9处理器设备…

【MATLAB】在图框中加箭头文本注释

1、在图框中加 文本方法 —— text&#xff08;&#xff09;函数 2、使用箭头标注——annotation&#xff08;&#xff09;函数 X、Y是箭头的位置相对于整个方框的比例&#xff0c; [0.32,0.5]是指&#xff1a;x坐标从整个图形32%的地方到50%的地方&#xff08;从左到右&…

【简写MyBatis】01-简单映射器

前言 新开一个坑&#xff0c;为了学习一下MyBatis的源码&#xff0c;写代码是次要的&#xff0c;主要为了吸收一下其中的思想和手法。 目的 关联对象接口和映射类的问题&#xff0c;把 DAO 接口使用代理类&#xff0c;包装映射操作。 知识点 动态代理简单工厂模式Invocati…

为什么电路要设计得这么复杂?

首先提出这个问题就很不容易啊&#xff0c;我们看两个精彩回答。 From 骄建&#xff1a; 假设我们回到第一个实用放大电路诞生之前&#xff1a; 某天你开始做一个CS单管放大器&#xff0c;电阻负载&#xff0c;可是有一大堆问题&#xff0c;电阻做的不准&#xff0c;温度对器…

mpack简明教程

文章目录 摘要MessagePack简介MPACK的简单使用在定长的buffer存储不定长的数据读取截断的数据 摘要 本文先简单介绍MessagePack的基本概念。 然后&#xff0c;介绍一个MessagePack C API - MPack的通常使用。 接着尝试对MPack截断数据的读取。 注&#xff1a;本文完整代码见…

Android 回退页面不是上个页面

问题 Android 回退页面不是上个页面 详细问题 笔者进行Android 开发&#xff0c;点击返回上一层&#xff0c;显示页面不是上个页面&#xff0c;而是之前的某个页面 页面跳转代码 private void navigateToActivity(Context context, Class<?> targetActivityClass) {I…

【lesson57】信号量和生产者消费者模型(环形队列版)

文章目录 信号量概念信号量接口初始化销毁等待发布 基于环形队列的生产者消费者模型编码Common.hLockGuard.hppTask.hppsem.hppRingQueue.hppConProd.cc 信号量概念 POSIX信号量和SystemV信号量作用相同&#xff0c;都是用于同步操作&#xff0c;达到无冲突的访问共享资源目的…

Python 使用 raise 语句抛出异常

在 Python 编程中&#xff0c;异常处理是至关重要的一部分。异常能够帮助程序在面对错误和意外情况时进行适当的处理&#xff0c;从而使程序具有更好的稳定性和可靠性。而 raise 语句则是 Python 中用来手动触发异常的关键工具之一。本文将探讨 Python 中 raise 语句的使用方法…

算法--数论二

这里写目录标题 高斯消元高斯消元求线性方程组用途高斯消元的数学思想例题代码 二级目录 一级目录二级目录二级目录二级目录 一级目录二级目录二级目录二级目录 一级目录二级目录二级目录二级目录 一级目录二级目录二级目录二级目录 高斯消元 高斯消元求线性方程组 用途 这个…

【机器学习案例5】语言建模 - 最常见的预训练任务一览表

自监督学习 (SSL) 是基于 Transformer 的预训练语言模型的支柱,该范例涉及解决有助于建模自然语言的预训练任务 (PT)。本文将所有流行的预训练任务放在一起,以便我们一目了然地评估它们。 SSL 中的损失函数 这里的损失函数只是模型训练的各个预训练任务损失的加权和。 以BE…