- 引言
- 编写目的
随着新一轮科技革命和产业变革的深入发展,5G、大数据、云计算、深度学习等新技术日益成为推动社会进步的核心动力。人工智能(AI)作为这些新技术的集大成者,正迅速成为新型基础设施建设的战略性支柱,其广泛应用和深度融合正重塑着各行各业的运营模式与业务流程。
OCR(光学字符识别)技术,作为人工智能领域的一个重要分支,能够将图像中的文本信息转化为可编辑、可检索的数字格式,从而极大地提高了数据处理的效率和准确性。然而,随着OCR技术的广泛应用,其安全性问题也日益凸显。从数据隐私保护到系统鲁棒性,从算法透明度到伦理规范,OCR技术的安全应用已成为人工智能领域亟待解决的重要课题。
-
- 适用范围
1、开发和实施OCR技术的企业和组织,为其提供在系统设计、算法选择、数据处理、隐私保护等方面的安全指导和建议。
2、使用OCR技术服务的客户和用户,帮助其了解OCR技术可能带来的安全风险,并提供相应的安全措施和应对策略。
3、相关监管机构和政策制定者,为其在制定OCR技术安全标准和监管政策时提供参考和依据。
-
- 名词解释
OCR:Optical Character Recognition,光学字符识别;
- OCR发展现状与趋势
- 发展现状
准确率大幅提升:随着深度学习等技术的广泛应用,OCR系统的准确率得到了大幅提升。现代OCR系统能够更精准地识别各种字体、大小和风格的文字,甚至在复杂背景下也能实现较高的识别准确性。
多语言处理能力增强:OCR技术不再局限于处理拉丁字母文字,已经扩展到支持中文、日文、阿拉伯文等多种语言的文字识别。此外,OCR系统还能够处理手写文字、印刷体以及混合文字的识别,使得其在全球范围内得到了广泛应用。
应用领域多样化:OCR技术的应用领域已经从传统的文档扫描和数字化管理扩展到了身份证识别、车牌识别、票据识别、自然场景文字识别等多个领域。OCR技术为各行各业提供了更便捷、高效的信息处理和管理方案。
商业落地成熟:多家科技巨头如汉王、百度、阿里等已经推出了成熟的OCR产品和服务,并在市场上取得了良好的商业表现。OCR技术已经成为许多企业和组织不可或缺的工具之一。
-
- 发展趋势
一体化的端到端OCR模型:未来OCR技术的发展将更加注重一体化的端到端模型,即同时对文字检测和识别进行训练,以提高系统的整体性能和效率。这种模型能够更好地适应复杂的应用场景和多样化的数据需求。
高性能与高效率并重:随着计算能力的提升和数据量的增长,未来的OCR系统将更加注重高性能和高效率的平衡。这包括优化算法、提高处理速度、降低内存消耗等方面的技术创新。
从感知到认知的智能OCR:未来的OCR技术将不仅仅是简单的文字识别,还将向更高级别的认知智能发展。这包括理解文字的含义、上下文关系以及进行语义分析等,从而为更复杂的任务提供支持。
隐私保护与安全性增强:随着OCR技术在各个领域的广泛应用,数据隐私和安全性问题也日益凸显。未来的OCR系统将更加注重隐私保护和安全性的设计,包括加密技术、访问控制、数据脱敏等方面的措施。
跨领域融合与创新:OCR技术将与其他领域的技术进行更深入的融合和创新,如自然语言处理(NLP)、计算机视觉(CV)、语音识别等。这种跨领域的融合将为OCR技术的发展带来更多的可能性和创新点。
-
- 相关标准规范
- ISO/IEC JTC1
- 相关标准规范
2017 年 10 月,ISO/IEC JTC1 成立人工智能分委员会 SC42,专门负责人工智能标准化工作。SC42 下设 5 个工作组:基础标准(WG1)、大数据(WG2)、可信赖(WG3)、用例与应用(WG4)、人工智能系统计算方法和计算特征工作组(WG5),以及人工智能传播与外联咨询组(AHG1)和智能系统工程咨询组(AG2)等。其中主要标准项目包括:ISO/IEC TR 24027《信息技术人工智能人工智能系统中的偏差与人工智能辅助决策》、TR 24028《信息技术人工智能人工智能可信度概述》、TR 24029-1《人工智能神经网络鲁棒性评估第 1 部分:概述》、AWI 24029-2《人工智能神经网络鲁棒性评估第 2 部分:形式化方法》、CD23894《信息技术人工智能风险管理》和 AWI TR 24368《信息技术人工智能伦理和社会关注概述》等。
-
-
- ITU-T
-
ITU-T 一直致力于解决智慧医疗、智能汽车、垃圾内容治理、生物特征识别等人工智能应用中的安全问题。2017 年和 2018 年,ITU-T 均组织了“AI for Good Global”峰会,重点关注确保人工智能技术可信、安全和包容性发展的战略,以及公平获利的权利。ITU-T 中,SG17 安全研究组和 SG16 多媒体研究组均开展了人工智能安全相关标准研制工作,特别是 ITU-T SG17 已经计划开展人工智能赋能安全相关标准化项目的讨论和研究。同时,ITU-TSG17 安全标准工作组下设远程生物特征识别问题组(Q9)和身份管理架构和机制问题组(Q10),主要负责 ITU-T 生物特征识别标准化工作;其中,Q9 关注生物特征数据的隐私保护、可靠性和安全性等方面的各种挑战。
-
-
- IEEE
-
IEEE 持续开展多项人工智能伦理道德研究,发布了 IEEE P7000 系列等多项人工智能伦理标准和研究报告,用于规范人工智能系统道德规范问题,包括:IEEE P7000《在系统设计中处理伦理问题的模型过程》、4P7001《自治系统的透明度》、P7002《数据隐私处理》、P7003《算法偏差注意事项》、P7004《儿童和学生数据治理标准》、P7005《透明雇主数据治理标准》、P7006《个人数据人工智能代理标准》、P7007《伦理驱动的机器人和自动化系统的本体标准》、P7008《机器人、智能与自主系统中伦理驱动的助推标准》、P7009《自主和半自主系统的失效安全设计标准》、P7010《合乎伦理的人工智能与自主系统的福祉度量标准》、P7011《新闻信源识别和评级过程标准》、P7012《机器可读个人隐私条款标准》、P7013《人脸自动分析技术的收录与应用标准》等。
-
-
- 美国 NIST
-
美国国家标准与技术研究院(NIST)专注于理解人工智能可信度的研究,并将这些指标纳入未来的标准,也建议在监管或采购中引用的人工智能标准保持灵活性,以适应人工智能技术的快速发展;制定度量标准以评估人工智能系统的可信赖属性;研究告知风险、监控和缓解风险等人工智能风险管理;研究对人工智能的设计、开发和使用的信任需求和方法;通过人工智能挑战问题和测试平台促进创造性的问题解决等。
2019 年 8 月,NIST 发布了《关于政府如何制定人工智能技术标准和相关工具的指导意见》,概述了多项有助于美国政府推动负责任地使用人工智能的举措,并列出了一些指导原则,这些原则将为未来的技术标准提供指导。
-
-
- 欧盟
-
2019 年 4 月 9 日,欧盟委员会(EC)任命的人工智能高级专家小组发布人工智能道德准则,提出了“可信任人工智能”应当满足的 7 个原则:(1)人类的力量和监督;(2)技术的可靠性和安全性;(3)隐私和数据管理;(4)透明性;(5)多样性、非歧视性和公平性;(6)社会和环境福祉;(7)可追责性。下一阶段,欧盟委员会将启动人工智能道德准则的试行,邀请工业界、研究机构和政府机构对该准则进行测试和补充。
-
-
- GSMA
-
2019 年 6 月 27 日,GSMA 联合 11 家产业伙伴宣布成立 AI in Network 特别工作组,研究人工智能在移动网络的关键应用,共同构筑智能自治网络时代。四个月后,特别工作组完成发布了《AI in Network 智能自治网络案例报告》白皮书,该报告集中展示了人工智能技术应用于移动网络的规划、部署、维护、监控、优化、节能和安全防护方面的案例。
2020 年 7 月 2 日, GSMA 联合 12 家产业伙伴宣布成立 AI in Security 特别工作组,研究人工智能在安全领域的关键应用,共同构建智能网络安全时代。
-
-
- 中国 TC260、CCSA
-
中国国家标准化管理委员会于 2018 年 1 月正式成立国家人工智能标准化总体组,承担人工智能标准化工作的统筹协调和规划布局,负责开展人工智能国际国内标准化工作,目前已发布《人工智能安全标准化白皮书(2019 版)》、《人工智能伦理风险分析报告》等,正在研究人工智能术语、人工智能伦理风险评估等标准。
中国全国信息安全标准化技术委员会(TC260)的人工智能安全相关标准主要集中在生物特征识别、智慧家居等人工智能赋能安全领域,以及与数据安全、个人信息保护相关的支撑领域。主要包括:基础共性标准方面有《人工智能安全标准研究》、《人工智能应用安全指南》等;生物特征识别安全标准方面有GB/T 20979-2019《信息安全技术 虹膜识别系统技术要求》、GB/T 36651-2018《信息安全技术 基于可信环境的生物特征识别身份鉴别协议》、GB/T 37076-2018《信息安全技术 指纹识别系统技术要求》、GB/T 38671-2020《信息安全技术 远程人脸识别系统技术要求》,在研标准《信息安全技术 生物特征信息保护》;智慧家居安全标准方面有《信息安全技术 智能家居安全通用技术要求》、《信息安全技术 智能门锁安全技术要求和测试评价方法》等在研标准;数据安全和个人信息保护标准方面有 GB/T 35273-2020《信息安全技术 个人信息安全规范》、GB/T 37964-2019《信息安全技术 个人信息去标识化指南》、GB/T35274-2017《信息安全技术 大数据服务安全能力要求》、GB/T 37932-2019《信息安全技术 数据交易服务安全要求》、GB/T 37988-2019《信息安全技术 数据安全能力成熟度模型》等。中国通信标准化协会(CCSA)以人工智能在具体应用场景为主,已开展汽车电子、智能家居等
- OCR安全内涵与意义
- OCR软件安全的特点
随着人工智能(AI)技术的迅猛发展,OCR(光学字符识别)作为其重要分支,在数据处理和信息提取方面发挥着越来越重要的作用。然而,随之而来的安全问题也日益凸显,呈现出一些新的特点:
数据敏感性:OCR技术处理的图像文本信息往往包含大量的个人隐私和商业机密,如身份证信息、银行卡号、合同内容等。这些信息一旦泄露或被滥用,将对个人隐私和企业安全造成严重威胁。因此,确保OCR处理过程中的数据安全性至关重要。
算法和模型的脆弱性:随着OCR技术的不断进步,攻击者也在不断探索新的攻击手段。他们可能利用算法的漏洞或模型的缺陷,对OCR系统进行恶意攻击,导致系统识别错误、性能下降或完全失效。因此,提高OCR算法和模型的鲁棒性和安全性成为迫切需要解决的问题。
隐私保护:OCR技术作为信息提取的重要手段,必须确保在处理个人数据时严格遵守隐私保护原则。这要求OCR系统在设计和实现过程中充分考虑隐私保护需求,采取加密、匿名化等技术手段保护用户隐私。
-
- OCR软件安全的挑战
在人工智能(AI)技术的快速发展背景下,OCR(光学字符识别)技术得到了广泛应用,但同时也面临着新的安全挑战。这些挑战不仅来自于技术层面,还涉及到数据隐私、伦理和法规等多个方面。
首先,技术挑战是OCR安全面临的核心问题之一。随着OCR技术的不断进步,攻击者也在不断探索新的攻击手段。例如,对抗性攻击(Adversarial Attacks)是一种新兴的攻击方式,通过在原始图像中添加精心设计的扰动,可以使OCR模型产生错误的识别结果。这种攻击对OCR系统的准确性和可靠性构成了严重威胁,需要采取有效的防御措施来应对。
其次,数据隐私保护是OCR安全的另一个重要挑战。OCR技术处理的图像文本信息往往包含大量的个人隐私数据,如身份证信息、银行卡号等。在数据传输、存储和处理过程中,如何确保这些数据的机密性、完整性和可用性是一个亟待解决的问题。同时,随着数据量的不断增长,如何合规地使用和管理这些数据也成为一个重要的挑战。
此外,伦理和法规问题也是OCR安全不可忽视的挑战。随着OCR技术的广泛应用,如何确保算法的公平性和透明度成为一个重要的议题。例如,在某些场景下,OCR系统的识别结果可能对不同的人群产生不同的影响,这可能引发公平性问题。同时,随着全球数据保护法规的不断加强,如何确保OCR技术的合规性也成为一个亟待解决的问题。
- OCR软件安全应对措施
- 数据分级分类
在大数据应用日益广泛的今天,数据资源共享和开放已经成为促进大数据产业发展的关键,但由于数据的敏感性,加之各行业数据分类分级标准的滞后和缺失,使数据开放和共享面临诸多困难。通过 AI 算法进行自动化数据分级分类,有利于稳步推进数据开放和共享,为大数据发展应用奠定基础,实现数据价值的最大挖掘利用。
数据实施分级管理,能够进一步明确数据保护对象,有助于企业组织合理分配数据保护资源,是建立健全数据生命周期保护框架的基础,也是有的放矢实施数据安全管理的前提条件。
同时,统一的数据分级管理制度,能够促进数据在机构间、行业间的安全流动,有利于数据价值的充分释放。
-
-
- 数据发现,梳理数据资产
-
数据资产梳理是数据安全的基础。知道企业究竟有多少数据、这些数据在哪里、有哪些类型的数据、 有哪些是敏感数据,这些数据的敏感等级分别是什么?只有明确了保护的目标,才能针对安全风险进行有针对性的防护。
如政务数据共享交换这项业务中,各类单位与组织会把数据资源集中到大数据局的数据资源平台。那么对于大数据局来说,首先要做的一项工作就是进行数据发现,通过对资产的全面盘点,形成相应的数据资产地图,知道自己手里有什么之后,才能有针对性的保护数据资产安全。
因此敏感数据分布是资产梳理的关键一步,只有明确敏感数据资产都有哪些、在被哪些部门、哪些人员如何使用,才能真正保证数据在使用中的安全。
-
-
- 避免个人信息泄露
-
社会上出现了大量兜售房主信息、股民信息、商务人士信息、车主信息、电信用户信息、患者信息的现象,并形成了一个新兴的产业。比如,个人在办理购房、购车、住院等手续之后,相关信息被有关机构或其工作人员卖给房屋中介、保险公司、母婴用品企业、广告公司等。
例如火车票、网购订单中根据数据分级分类情况加以不同策略的脱敏处理
【身份证号】显示最后四位,其他隐藏。共计 18 位或者 15 位,比如:*************1234
【中文姓名】只显示第一个汉字,其他隐藏为 2 个星号,比如:李**
【地址】只显示到地区,不显示详细地址,比如:上海徐汇区漕河泾开发区***
-
-
- 数据分类存储和备份
-
将数据分类分级,以便你知道一些关于它的基本事实,例如文件内有什么,敏感数据有哪些,为什么创建它,谁创建的,谁应该能看到它谁不应该等等,这一批不小的信息决定了数据该如何被处理和存放。
如果它是公司的重要信息,你可能需要多次备份,加密并设置访问权限。如果它是公司团建活动的计划,可能就不需要太严格的措施。
对不同类别、级别的数据采取对应的物理或逻辑隔离措施。同时,在存储过程中要采用最稳定的架构,建立授权和最小权限机制,建立实时备份机制,建立多重索引机制,建立数据使用追溯机制和多地冗余备份机制。 建立起与数据量级规模相当、范围适度、多地保存的数据备份机制,结合系统运行状态制定容灾
备份策略和规程,恢复范围和目标、切换规程、灾后恢复运行操作指引。同时,定期组织进行灾难恢复的教育与培训,确灾难性情况下数据可提取,可恢复。
-
-
- 数据定期消亡
-
实现数据定期消亡。为了保证数据和个人隐私安全,在数据失效后,依照相关法律法规要求应建立相应的数据销毁机制,明确销毁方式和销毁要求。同时,遵守全过程可审计原则,建立数据销毁策略和管理制度,明确销毁数据范围和流程,记录数据删除的操作时间、操作人、操作方式、数据内容等相关信息。
例如:《信息安全技术 个人信息安全规范》标准中规定了开展收集、存储、使用、共享、转让、公开披露、删除等个人信息处理活动应遵循的原则和安全要求。其中明确指出,在符合特定情形时,应及时删除个人信息,实现日常业务功能所涉及的系统中去除个人信息(敏感数据),使其保持不可被检索、 访问的状态。
-
-
- 技术方案
-
基于复合型指纹技术,对结构化数据和非结构化数据进行指纹扫描,根据指纹的结果生成指纹库。在安全检查时做到相似度匹配。自动化持续指纹任务可以做到对目标数据的持续分析,目标数据发生变化,相应的指纹库也会对应处理,保证检测的准确性。
技术实现上,可采用主流的于深度学习+条件随机场算法的(BiLSTM+CRF)实体识别模型,可准确识别人名、地名、机构名称、时间、日期、金额等各类实体内容;内置基于正则匹配+luhn 校验的复合识别算法模式,用以精确识别身份证、银行卡等敏感信息;支持自定义创建正则、字典、算法三类识别规则。
-
- 数据防泄漏
- 基于语义的敏感文档识别
- 数据防泄漏
随着互联网的迅猛发展,网络对于社会的影响越来越大,成为了信息传播的重要渠道。与此同时,信息过载、网络内容安全、信息泄露等问题日益突出,安全保密工作面临的形势更加严峻。为尽可能减少敏 感数据的外泄对企事业单位、甚至国家安全和利益造成的威胁,必须对敏感数据进行严格管控。因此,如何有效、快速识别敏感数据就成了需要解决的重要问题,而关于敏感数据识别技术的研究对于防止敏感数据外泄与增强泄密隐患的发现能力具有重要的意义。
传统的敏感文档识别技术主要基于关键词表与词频统计,将文档中是否出现关键词及出现的数量作为敏感文档识别的主要依据。然而,现实中有很多场景中不适用这一方法。具体来说,在一些具体应用场景中,会预先指定一些文档为敏感文档,需要检测识别与这些指定文档语义相近的所有文档。这些指定的敏感文档并不一定是一般意义上的敏感文档,可能不包含特定的敏感词,而只是包含一些公司内部敏感信息,比如内部会议纪要等。针对这种需求,核心问题是计算不同文档之间的相似度,通过与指定敏感文档相似度的高低来判断任意一份文档是否敏感。常用的方法是对文档中出现的所有词进行统计,然后比对前 N 个 高频词表作为判断依据。但是这一方法不能准确捕获文档的语义信息,因为同样的语义可以通过不同的用词与语句表达。
-
-
- 技术方案
-
对待检测文档与敏感文档进行文本预处理, 从中抽取文本内容并进行分词,再应用词嵌入模型将其转换为词向量序列。词嵌入模型可直接选用一些已有的中文预训练模型(例如腾讯在 2018 年公开的中文预训练模型,包含 800 万个词或短语,词嵌入向量维度为 200), 也可以通过使用具体领域的相关语料进行预训练得到。然后将待检测文档的词向量序列与敏感文档的词向量序列应用词移距离算法计算得到两者的相似性度量,从而得出最终识别结果。
核心是在文档相似度计算中采用了基于语料库算法中的无监督学习方法词移距离算法。所有词都可以通过 Word2vec 、GloVe 等方法映射到词嵌入向量空间中; 对于任意两段文字,其中 一段中的每一个词都能移动到另一段中的某一个词,这样就可以计算出每一对词在词嵌入向量空间中移动的距离,所有词对的距离之和就是这两段文字的词移距离。在此基础上,为两个词的对应关系定义了基于词嵌入向量的权重,两段文字的加权词移距离称为文本距离。算法主要通过最优化方法计算任意两段文字的最优文本距离,作为文档相似性的度量依据。
-
- 数据脱敏
基于4.2扩展,在系统开发测试过程中,由于要高度模拟生产环境,因此很多情况下,需要使用生产环境中的生产数据进行系统开发测试。而生产数据一旦流转到开发测试环境,其数据的安全性则无法得到有效保障。由此,需要通过数据分级分类识别出需做安全保护的敏感数据,再用脱敏技术确保数据中的敏感信息被漂白,但又不影响开发测试人员对于数据的使用。
通过建立数据脱敏机制,对发放到开发测试环境的生产数据预先进行脱敏处理,确保经过脱敏后的数据不再带有敏感信息,且数据面向开发测试人员可用。
-
-
- 技术方案
-
数据替换:用设置的固定虚构值替换真值。这种方法的优点是简单、易于实现,但缺点是可能会破坏数据的真实性和完整性。
无效化:通过采用随机、截空、加密、隐藏等方式让敏感数据脱敏,使其不再具有利用价值。
乱序:将原始数据按照一定的规则打乱顺序,以达到脱敏的目的和保留数据的原始格式和部分信息。
对称加密:使用对称加密算法对敏感数据进行加密处理,以保护原始数据的安全。
哈希加密:使用哈希算法将敏感数据转换为随机的密文,以保护原始数据的安全,有效地防止数据被篡改和伪造。
混淆化:将敏感数据进行混淆,使其不同于原始文本,但是仍然保留某些特征,例如采用全拼转换、随机数替换等手段,保证数据的保密性和安全性。
脱敏算法:对敏感数据进行修饰或替换,以使得数据不能够直接被识别和关联。例如,将姓名、电话号码、地址等信息用星号或者下划线替换。
- 小结
在新一轮科技革命和产业变革的浪潮中,5G、大数据、云计算和深度学习等新技术日益崭露头角,成为推动社会进步不可或缺的力量。人工智能(AI)作为这些技术的集大成者,不仅正在迅速成为新型基础设施建设的战略性支柱,还在广泛应用和深度融合中重塑着各行各业的运营模式与业务流程。
OCR(光学字符识别)技术,作为AI领域的一个关键分支,以其将图像中的文本信息高效准确地转化为可编辑、可检索的数字格式的能力,显著提升了数据处理的效率和准确性,为众多行业带来了巨大的便利。
然而,随着OCR技术的广泛应用,其安全性问题也逐渐浮现。从数据隐私保护到系统鲁棒性,从算法透明度到伦理规范,OCR技术的安全应用已成为当前亟待解决的重要问题。
随着技术的不断进步和创新,OCR技术将在保障安全性需求的前提,必然有更多的商业机会等着我们。