使用AI进行“文本纠错”

news2024/11/16 5:40:00

AI在现实中的应用有很多,你有没有想过,它还可以进行文本纠错呢?传统的校对既耗时又枯燥,通过“AI纠错”,不仅能更快完成,还能提高准确度。那么AI“文本纠错”背后的原理是什么呢?和我一起看看吧!

前面跟大家分享了AI开放平台的相关内容,之后想围绕AI应用实例这块跟大家分享交流,这节主要讲述跟NLP相关的一个应用实例——“文本纠错”。

一、背景

近几月,AI人工智能火遍全网。小编注意到AI在现实中的应用有很多,甚至可以进行文本纠错呢。而文稿传播最重要的一点就是信息的准确性,尤其是一些有知名度的正式平台更是会在文稿发送前进行校对修正。

传统的人工校对工作量是非常大的,一篇5000字的文稿完成校对差不多需要1-2个小时,对于校稿人员来说既耗时又枯燥。有一家内容平台就提出,希望通过AI能力提供快速校对工具,主要针对中文文稿,帮助校稿人员和编辑人员减少内容错误。

二、关键技术

文本纠错中用到的技术的前世今生在这不过多介绍了,目前文本纠错的主流方向还是使用机器学习的方式来完成,其中需要用到的核心技术主要包括语言知识学习、上下文理解和知识计算。

  • 语言知识学习:可以理解为是对语言规则等先验知识的学习,通过学习词法、句法等规则进行语言模型构建,例如中英文的主谓宾结构就是不一样的。
  • 上下文理解:是指分析错误点上下文语境和语义,从纠错候选中选择最合适的。尤其是中文,相同的词汇在不同语境中往往表达不同的含义。
  • 知识计算:知识计算主要包括关联知识计算和文本理解,关联知识主要是通过对全局知识的统计来实现纠错,可以是局部不完整语句的补充。文本理解是通过统计理解全局句子内容,解决低频领域知识的泛化问题。

三、产品设计

1. 应用场景

(1)用户场景:审稿或者编辑人员输入中文文字信息,系统自动纠错,并给出修改建议,审稿人员对错误快速修订。

(2)应用边界:

  • 支持用词错误检测,针对音近、形近的错字和别字进行纠正
  • 支持句子级错误检测,主要是针对句子中出现的多字、少字等错误,相对难度校大。
  • 支持场景类错误纠正,这类错误需要具备一些特定领域的知识才能识别纠错,所以尽量支持。

2. 产品定位

  • 产品定位:为应用工具型产品,实现中文文本自动纠错功能。
  • 用户定位:满足两类B端用户,第一类针对具备自主的文稿编辑工具,提供API服务,与现有系统进行改造融合;第二类是针对缺少文稿编辑工具的用户,提供web页面功能。

3. 产品功能设计

(1)页面功能设计

页面核心功能主要包括如下:支持内容上传、内容审查、结果确认和内容下载。

主要页面设计如下:

(2)API接口设计

包括内容纠错请求接口和结果回调接,分别用于内容审查纠错和结果返回,以下描述主要的输入和输出参数:

  • 输入:接口鉴权、文本内容、文本编码格式等。
  • 输出:文本分析结果,包括源文本、纠错文本、文本位置,置信度。

5. 评估指标

产品上线前,需要对产品的性能进行评估,主要包括三个指标:误报率、召回率和处理时间。

  • 误报率:代表正确的句子被改错的比率,等于正确句子被纠错的个数/正确句子的个数。
  • 召回率:代表错误的句子被全部纠正的比率,等于含有错误的句子被改正的数量/所有含错误的句子数量。
  • 处理性能:代表处理多少个字符的耗时,单位是千字耗时,s / 千字符。

四、结论

       “文本纠错”的功能是NLP非常基础的场景应用,但是实际业务价值却是很大的。在具体业务场景应用方面不仅可以用在在媒体编辑、电子病历等输入文本纠错,还可以应用于语音搜索、客服问答等业务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/410688.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python综合案例-小费数据集的数据分析(详细思路+源码解析)

目录 1. 请导入相应模块并获取数据。导入待处理数据tips.xls,并显示前5行。 2、分析数据 3.增加一列“人均消费” 4查询抽烟男性中人均消费大于5的数据 5.分析小费金额和消费总额的关系,小费金额与消费总额是否存在正相关关系。画图观察。 6分析男女顾…

chatGPT写文章攻略-用chatGPT写网文

chatGPT可以写中文吗 ChatGPT可以写中文。在过去的几年中,许多深度学习机器翻译模型已经开始探索中英文翻译、去噪声、语音识别等任务,并且在这些任务中ChatGPT具有最先进的表现。 目前,例如GPT-3和GPT-2都可以用来生成中文文本。为此&…

以太坊上海升级,DeFi 3.0的序章

引言 距离以太坊Shapella升级(也曾被称为上海升级)仅剩一天的时间!自2015年以太坊上线以来,它已成为世界排名第二的加密虚拟资产,以太坊诞生于行业的意义在于它能够让开发者构建智能合约和去中心化应用(DAp…

Jumpserver与Freeipa集成(以及其他配置)

背景: jumpserver的安装参照:jumpserver的简单安装使用,Freeipa的安装参照:Freeipa的简单搭建配置。准备将Freeipa与Jumpserver集成。其实Freeipa搭建后linux客户端如果安装了Freeipa client。也能完成用户的授权权限管理了&…

肖 sir_就业课__005项目数据

项目数据 一、项目周期 (1)新项目:从无到有,从项目的开始到上线的时间 时间长:3个月、6个月、1年、2年 (2)老项目:迭代项目 迭代周期:1个月、2个月、3个月迭代、 &#…

现在是香港推动Web3的“正确时机” 将采取监管与发展并重策略

香港财政司司长陈茂波在香港特区政府网站发表司长随笔《发展Web3—守正创新 稳慎前行》,提出为了让Web3稳慎走好创新发展的道路,政府将采取“适当监管”和“推动发展”两者并重的策略,确保虚拟资产行业可持续和负责任发展。 此前,…

java_集合

1.集合 集合分为单列集合(collection)和双列集合(map). 单列就是每个位置只有一个值,双列则是每个位置都是一对键值对,类似于python的字典。 2.collection 其中,collection又可以分为List…

全国大学生智能汽车竞赛——安装Ubuntu操作系统(双系统)

1.1 电脑分区 1.1.1 分区原因 由于我们想要在电脑上同时安装Windows和Ubuntu系统,所以就要在window使用的内存中划分出来一段用来给Ubuntu系统使用,相当于一个应用程序一样 1.1.2 分区步骤 1.右击此电脑,点击管理,然后双击左侧…

【刷题笔记】--dp--376. 摆动序列122. 买卖股票的最佳时机 II

感觉自己dp还不是很会(/(ㄒoㄒ)/~~ 写dp题的步骤:①通过定义子问题,确定dp[ ] or dp[ ][ ] 表示的含义 ②写出子问题的递归关系 ③确定初始条件 题目: 思路: ①确定dp的含义:dp[i]表示 到i位置&#x…

网络信息安全(三层设备部署DHCP服务器与DHCP中继、ICMP协议)

文章目录三层路由器部署DHCP服务器配置trunkVLAN创建将端口加入对应vlan路由创建子接口路由器创建地址池服务器配置静态IPDHCP服务器部署创建作用域在三层设备配置DHCP中继DHCP中继原理ICMP协议概述用途封装格式三层路由器部署DHCP服务器 配置trunk VLAN创建 这里以S1为例&…

Vulnhub:Digitalworld.local (Development)靶机

kali:192.168.111.111 靶机:192.168.111.130 信息收集 端口扫描 nmap -A -v -sV -T5 -p- --scripthttp-enum 192.168.111.130 查看网站首页源码 访问development目录,提示存在一个流量包 查看流量包发现另一个网站路径:/devel…

多模态之论文笔记ViLT

文章目录ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision一. 简介1.1 摘要1.2 文本编码器,图像编码器,特征交互复杂度分析1.2 特征交互方式分析1.3 图像特征提取分析二. 方法 Vision-and-Language Transformer2.1. 方…

【高危】Apache Linkis JDBC EngineConn 插件<1.3.2 存在反序列化漏洞

漏洞描述 Apache Linkis 是一个用于将上层应用与底层数据引擎解耦,提供标准化接口的中间件。 该项目受影响版本存在反序列化漏洞,由于ConnectionManager.java中未对dbUrl、username、password等参数进行充分过滤,当恶意用户完全控制应用程序…

缘起|蚂蚁应用级服务发现的实践之路

文|肖健(花名:昱恒)蚂蚁集团技术专家、SOFARegistry Maintainer专注于服务发现领域,目前主要从事蚂蚁注册中心 SOFARegistry 的设计和研发工作。本文 8339 字 阅读 15 分钟PART. 1前言什么是服务发现?我们今…

Python人工智能在气象中的实践技术应用

专题一 Python 和科学计算基础 1.1 Python 入门和安装 1.1.1 Python 背景及其在气象中的应用 1.1.2 Anaconda 解释和安装以及 Jupyter 配置1.1.3 Python 基础语法 1.2 科学数据处理基础库 1.2.1 Numpy 库1.2.2 Pandas 库1.2.3 Scipy 库 1.2.4 Matplotlib 和 Cartopy 库 …

thinkphp6多应用模块配置使用

1.安装thinkphp6 6.0之前安装都是从Git或者直接下载安装包进行安装,从6.0开始安装方式就改成了composer进行安装了,安装命令如下: 稳定版:composer create-project topthink/think tp 开发版:composer create-projec…

SOLIDWORKS官方认证考试

SOLIDWORKS官方认证考试: CSWA认证 CSWP认证 CSWPA认证 CSWE认证 SOLIDWORKS认证考试是达索SOLIDWORKS公司推出的全球性认证考试项目,是作为衡量您所具备的SOLIDWORKS应用专长与能力的一种测试和认可,主要考察对设计、仿真一体化、机电一体…

Hadoop 生态圈及核心组件简介Hadoop|MapRedece|Yarn

文章目录大数据时代HadoopHadoop概述Hadoop特性优点Hadoop国内外应用Hadoop发行版本Hadoop集群整体概述HDFS分布式文件系统传统常见的文件系统数据和元数据HDFS核心属性HDFS简介HDFS shell操作Map Reduce分而治之理解MapReduce思想分布式计算概念MapReduce介绍MapReduce产生背景…

低代码,是稳打稳扎还是饮鸩止渴?

2023年,业内对低代码的发展充满了想象。 人们认为,未来低代码它的商业价值不可估量。 据Gartner的最新报告显示,到2023年,全球低代码开发技术市场规模预计将达到269亿美元,比2022年增长19.6%。 随着数字化进入深水区&a…

数据仓库、数据集市、数据湖,你的企业更适合哪种数据管理架构?

建设企业级数据平台,首先需要了解企业数据,确认管理需求,并选择一个数据管理架构。那么面对纷繁复杂的数据来源,多元化的数据结构,以及他们的管理使用需求,企业数据平台建设该从何处入手呢?哪个…