231112-中文错别字识别与纠正问题的大模型与小模型调研

news2024/11/16 13:55:49

在这里插入图片描述

A. 引言

当前,以ChatGPT为代表的大语言模型(Large Language Models, LLMs)正引领着新一轮工业革命。ChatGPT最开始的研究领域隶属于NLP的一个子问题,其输入是text,输出也是text。在从文本输入到文本输出的诸多应用场景中,中文错别字及语法纠正,有着诸多潜在的应用场景及实用价值。然而,大模型在这一领域尚存在研究不足。

带错别字或语法错误的输入文本
AI模型/LLM模型/ChatGPT模型等
错别字纠正或语法纠正后的输出文本

B. 实验方法

  • 数据构造:从网络找一篇合同文件,并通过人工的方式故意将正确中文改成错误中文。

在这里插入图片描述

B.1 测试过程

文件上传
提示输入
回答分析
  • 提示语句
    1. 你是一个中文合同审核专员。
    2. 请逐行阅读文章中的每一话。
    3. 如果这句话中有错别字,请通过括号的形式指出来。
    4. 这是一个参考的原文例子:本合同文本供用人单位与建立劳动关系的劳动者签定劳动合同时使用。
    5. 你要输出的结果格式是:本合同文本供用人单位与建立劳动关系的劳动者签定(签订)劳动合同时使用。

B.2 平台对比:

  • ChatGPT4
  • AskYourPDF
  • 讯飞星火
  • 智谱清言
  • 文心一言

C. 结果分析

C.1 实验结果

OpenAI:ChatGPT >>> 失败

在这里插入图片描述

AskYourPDF>>> 失败

在这里插入图片描述

科大讯飞:讯飞星火>>> 失败

在这里插入图片描述

百度:文心一言>>> 失败

在这里插入图片描述

原文:甲乙双方依法参加社会保险,甲方为乙方办理有关社会保险手续,并承担相应社会保险义务,乙方应当缴纳的社会保险费由甲方从乙方的工资中代扣代缴。

修改:甲乙双方依法参加社会保险,甲方为乙方办理有关社会保险手续,并承担相应社会保险义务,乙方应当缴纳的社会保险费由甲方从乙方的工资中代扣代缴。”

智谱AI:智谱清言>>> 失败,无法访问

在这里插入图片描述

C.2 实验分析

本质

  • 大语言模型本质上仍然是一个深度学习模型。

数据

  • 深度学习模型在既定的任务Task上需要大量数据input输入数据Xoutput输出数据Y,从而构成输入 X → Y X \rightarrow Y XY的映射关系,进而服务于单任务学习或多任务的学习。

猜测

  • 上述大模型,在文件错别字识别与语法纠正任务上,可能缺少相应的中文数据集的训练,故而并不适用于错别字及语法的纠正任务。

局限

  • 本文及实验部分仅为初步实验结果,在提示词及API调用阶段可能会进一步提升不同平台的模型分析性能。

D. 未来展望

对于中文错别字识别及语法纠正分析的任务,实际上已有一些商业软件或开源项目。这些软件或项目本身并不依赖大模型,就可以在一定程度上取得不错的效果。如果将大模型与这些小模型结合,可能会给用户更好的体验效果。

D.1 现有模型

商用软件

  • 百度AI开放平台 - 百度提供了一系列的语言处理工具,包括错别字检测和纠正。
    • 百度AI开放平台-全球领先的人工智能服务平台
  • 腾讯云自然语言处理 - 腾讯云的NLP服务中也包含文本校对功能,能够识别和纠正错别字。
    • NLP 服务_自然语言处理_智能文本处理 - 腾讯云
  • 阿里云机器学习平台 - 阿里云提供的机器学习服务中包括文本分析工具,可能包含错别字识别功能。
    • 人工智能平台 PAI_机器学习建模训练部署_智能推荐_人工智能-阿里云

开源项目

  • HanLP - HanLP是一个由哈工大社会计算与信息检索研究中心开发的自然语言处理库,支持包括错别字检测在内的多种功能。
    • GitHub - hankcs/HanLP
    • HanLP官网
  • FudanNLP - 复旦大学自然语言处理实验室开发的NLP工具包,包含中文错别字识别功能。
    • GitHub - FudanNLP/fnlp
    • The Fudan Lab For Natural Language Processing
  • Jieba - Jieba是一个流行的中文分词工具,虽然主要用于分词,但也可以用于一些基本的错别字识别。
    • GitHub - fxsjy/jieba: 结巴中文分词
  • THULAC - 清华大学的一个轻量级中文词法分析工具,可以用于中文错别字的识别。
    • THULAC:一个高效的中文词法分析工具包
    • GitHub - thunlp/THULAC-Python
  • Pycorrector: 这是一个基于Python3.6开发的中文文本纠错工具,依靠语言模型检测错别字位置,并通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征进行纠错。Pycorrector支持规则和端到端模型,能够处理包括谐音字词、混淆音字词、字词顺序颠倒、字词补全、形似字错误、中文拼音全拼、中文拼音缩写以及语法错误等多种常见错误类型​​​​。
    • GitHub - shibing624/pycorrector: pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,LLaMA等模型应用在纠错场景,开箱即用。
  • FASPell: 这个项目使用BERT进行预训练和微调,然后通过CSD过滤器得到最终结果。它支持简体中文文本、繁体中文文本、人类论文以及OCR结果等多种类型的文本​​。
    • GitHub - iqiyi/FASPell: 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker (Chinese Spell Check / 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)
  • YoungCorrector: 这是基于Pycorrector改造的一个项目,实现了基于纯规则的纠错系统。它专注于提供更多基于规则的纠错选项​​。
    • GitHub - hiyoung123/YoungCorrector: 基于规则的文本纠错系统。

这些工具和项目各有特点,适用于不同的应用场景。商用软件通常提供更全面的服务和支持,而开源项目则提供了更大的灵活性和定制化的可能性。在选择时,商用软件如百度的文本纠错工具适用于更广泛的商业应用场景,而开源项目则为研究人员和开发者提供了更多的定制化和研究机会。

D.2 后续调研

  • 针对上述商业软件及开源项目,将做进一步的实验分析,整理、汇总并更新。

D.3 未来模型

基本范式

  • 未来Agent-Based LLMs将通过大模型,对用户的需求进行任务拆解,随后交付给不同的Agents(小模型、系统、或API)进行执行,随后Agents会将执行的结果返回给中央大模型,并按照用户需求的格式,进行回复呈现。

结合方向

  • 在未来,大模型+小模型的基本范式,将同样适用于中文错别字识别及语法纠正的任务之中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1201054.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言从入门到精通之【概述】

#include指令和头文件 例如#include <stdio.h>&#xff0c;我们经常看到C文件最上面会有类似这样的语句&#xff0c;它的作用相当于把stdio.h文件中的所有内容都输入该行所在的位置。实际上&#xff0c;这是一种“拷贝-粘贴”的操作。 #include这行代码是一条C预处理器…

Smart Link 和 Monitor Link应用

定义 Smart Link常用于双上行链路组网&#xff0c;提高接入的可靠性。 Monitor Link通过监视上行接口&#xff0c;使下行接口同步上行接口状态&#xff0c;起到传递故障信息的作用。 Smart Link&#xff0c;又叫做备份链路。一个Smart Link由两个接口组成&#xff0c;其中一个…

木疙瘩踩坑日记-容易忽略的一些BUG

在一开始玩家务必很清楚这三个概念 图形&#xff1a;舞台上元素的最小单位。软件自带的以及外部导入的图片默认都是图形&#xff01;最朴素的元素&#xff01;可以添加预制动画、关键帧动画、进度动画&#xff08;软件自带的形状&#xff09; 元件&#xff1a;一个可以内部封…

高性能收发原始数据包的框架(Netmap)

一、Netmap 简介 Netmap 是一个高性能收发原始数据包的框架&#xff0c;由 Luigi Rizzo 等人开发完成&#xff0c;其包含了内核模块以及用户态库函数。其目标是&#xff0c;不修改现有操作系统软件以及不需要特殊硬件支持&#xff0c;实现用户态和网卡之间数据包的高性能传递。…

Git系列之分支与标签的使用及应用场景模拟

&#x1f389;&#x1f389;欢迎来到我的CSDN主页&#xff01;&#x1f389;&#x1f389; &#x1f3c5;我是君易--鑨&#xff0c;一个在CSDN分享笔记的博主。&#x1f4da;&#x1f4da; &#x1f31f;推荐给大家我的博客专栏《Git实战开发》。&#x1f3af;&#x1f3af; &a…

【网络奇遇记】我和因特网的初相遇2 —— 三种交换方式

&#x1f308;个人主页&#xff1a;聆风吟 &#x1f525;系列专栏&#xff1a;网络奇遇记、数据结构 &#x1f516;少年有梦不应止于心动&#xff0c;更要付诸行动。 文章目录 前言一. 电路交换1.1 电路交换讲解1.2 电路交换实例 二. 分组交换1.1 分组交换讲解1.2 分组交换实例…

Go 14岁了

今天我们庆祝Go开源十四周年&#xff01;Go度过了美好的一年&#xff0c;发布了两个功能齐全的版本和其他重要的里程碑。 我们在2月份发布了Go 1.20&#xff0c;在8月份发布了Go 1.21&#xff0c;更多地关注实现改进而不是新的语言更改。 在Go 1.20中&#xff0c;我们预览了配置…

基于Python+Django的图书管理系统

项目介绍 图书是人类文明传播的一个重要方式&#xff0c;很多历史悠久的文明都是通过图书来进行传递的&#xff0c;虽然随着时代的进步电子信息技术发展很快&#xff0c;但是纸质图书的地位仍然是非常稳固的&#xff0c;为了能够让知识拥有更加快捷方便的传递方式我们开发了本…

Typora-PicGo-七牛云图床

Typora-PicGo-七牛云图床 问题描述&#xff1a; 每次使用Typora写完笔记后&#xff0c;想要将笔记上传至CSDN会发现一个问题&#xff0c;由于没有配置图床&#xff0c;笔记中的图片需要一张一张的上传到CSDN&#xff0c;非常麻烦&#xff0c;若使用PicGo并搭配七牛云的10G免费…

Django配置文件,request,链接mysql方法,Orm简介

三板斧问题(views.py) HttpResponse # 返回的是字符串render # 渲染一个HTML静态文件&#xff0c;模板文件redirect # 重定向的 在视图文件中得视图函数必须要接收一个形参request&#xff0c;并且&#xff0c;视图函数也要有返回值&#xff…

Linux - 基础IO(重定向 - 重定向模拟实现 - shell 当中的 重定向)- 下篇

前言 上一篇博客当中&#xff0c;我们对 文件 在操作系统当中是 如何就管理的&#xff0c;这个问题做了 详细描述&#xff0c;本篇博客将基于上篇 博客当中的内容进行 阐述&#xff0c;如有疑问&#xff0c;请参考上篇博客&#xff1a; Linux - 基础IO&#xff08;Linux 当中…

matlab 多自由度的车辆垂向振动模型 车辆平稳性研究

1、内容简介 略 17-可以交流、咨询、答疑 多自由度的车辆垂向振动模型 多自由度的车辆垂向振动模型&#xff0c;包含四分之一车体模型、半车模型和整车模型 垂向振动模型、四分之一车体模型、半车模型和整车模型 2、内容说明 略 3、仿真分析 略 4、参考论文 略 链接&…

第七章 块为结构建模 P3|系统建模语言SysML实用指南学习

仅供个人学习记录 块行为建模 块提供了行为情境&#xff0c;行为这个 SysML 词条覆盖了块如何处理输如/输出和其内部状态改变的所有描述。 块可以指定某个行为作为其主行为或者分类器行为&#xff0c;该行为在块实例化后启动执行。其他行为可以指定为方法&#xff0c;提供了处…

人机交互——自然语言生成

自然语言生成是让计算机自动或半自动地生成自然语言的文本。这个领域涉及到自然语言处理、语言学、计算机科学等多个领域的知识。 1.简介 自然语言生成系统可以分为基于规则的方法和基于统计的方法两大类。基于规则的方法主要依靠专家知识库和语言学规则来生成文本&#xff0…

【Redis】list列表

上一篇&#xff1a; String 类型 https://blog.csdn.net/m0_67930426/article/details/134362606?spm1001.2014.3001.5501 目录 Lpush LRange Rpush Lpop Rpop Lindex Ltrim Lset 列表不存在的情况 如果列表存在 Linsert ​编辑 在………之前插入 在……后面插入…

Windows系统安装Redis、配置环境变量

系列文章目录 第一章 Java线程池技术应用 第二章 CountDownLatch和Semaphone的应用 第三章 Spring Cloud 简介 第四章 Spring Cloud Netflix 之 Eureka 第五章 Spring Cloud Netflix 之 Ribbon 第六章 Spring Cloud 之 OpenFeign 第七章 Spring Cloud 之 GateWay 第八章 Sprin…

【 第十一章】软件设计师 之 面向对象设计与结构化分析设计

文章底部有个人公众号&#xff1a;热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。有兴趣的可以关注一下。为何分享&#xff1f; 踩过的坑没必要让别人在再踩&#xff0c;自己复盘也能加深记忆。利己利人、所谓双赢。 备考资料导航 软考好处&#xff1a;软考的…

域名无法访问了,如何找回浏览器的缓存

背景需求 双十一即将来临&#xff0c;这意味着我购买了三年低配的阿里服务器&#xff0c;而它的服务期限也即将到期。为了提前做好准备&#xff0c;我在一周前对静态网站进行了备份&#xff0c;并成功地使用了Vercel进行部署&#xff08;已经有了域名&#xff09;。相比于付费…

腾讯云3年轻量应用服务器2核2G4M带宽540元,它来了

腾讯云轻量应用服务器特价是有新用户限制的&#xff0c;所以阿腾云建议大家选择3年期轻量应用服务器&#xff0c;一劳永逸&#xff0c;免去续费困扰。腾讯云轻量应用服务器3年可以选择2核2G4M和2核4G5M带宽&#xff0c;3年轻量2核2G4M服务器540元&#xff0c;2核4G5M轻量应用服…

jdk21 虚拟线程原理及使用分享

虚拟线程概述 jdk21已于北京时间9月19日21点正式发布, 其中引人注目的就是虚拟线程(Virtual Thread)随之正式发布, 不再是此前jdk19、jdk20中的预览版本。 平台线程&#xff1a;java传统的线程是对系统线程的包装&#xff0c;为了区别于虚拟线程&#xff0c;因此将通过传统方式…