从 ChatGPT 爆火回溯 NLP 技术

news2025/1/12 21:07:28

ChatGPT 火遍了全网,多个话题频频登上热搜。见证了自然语言处理(NLP)技术的重大突破,体验到通用技术的无限魅力。

GPT 模型是一种 NLP 模型,使用多层变换器(Transformer)来预测下一个单词的概率分布,通过训练在大型文本语料库上学习到的语言模式来生成自然语言文本。而 NLP 技术是人工智能领域的重要研究分支,被视为人工智能皇冠上的明珠。图灵测试的假设就是针对自然语言处理技术而设计的。本质上说,自然语言处理技术就是为了让计算机理解人类语言。

NLP 技术其实由来已久

从 1940 年代 Warren Weaver 提出机器翻译的思想以来,NLP 经历了 70 多年的发展,从技术的角度大致可分为三个阶段:

  • NLP 1.0:基于规则的 NLP,即按照提前设定好的规则,进行自然语言理解;

  • NLP 2.0:基于统计学的 NLP,即根据语料库中对应搭配出现的概率大小来做出自然语言的理解;

  • NLP 3.0:基于深度学习的 NLP,利用深度学习技术,构建类似“人脑”的神经网络,能够像人脑一样理解自然语言。

NLP 技术可分为自然语言生成(NLG)和自然语言理解(NLU)两部分。NLG 会使用计算机创建人类语言文本,如 ChatGPT。NLU 会录入文本,理解上下文和意图,然后生成智能回复,如 Siri。

NLP 基本任务

从实践的角度讲,NLP 领域绝大多数任务都可以归结为下面的四大任务当中:

(1)序列标注:最基础的自然语言处理任务,包括分词、词性标注、命名实体识别等。总的来说,一切需要将每个单词/单字都给出一个类别的任务都可以归结为这一类。这一类任务是 NLP 中最典型的任务,也是很多其他任务的上游任务。典型的如中文自然语言处理,由于中文的 token 是汉字,而最小语素是由一个或多个汉字构成的词语,这就需要对中文文本进行分词。分词过程就是典型的序列标注任务。

(2)文本分类(聚类):分类任务是机器学习领域的基础性任务,文本分类也是常见的自然语言处理任务,旨在将不同长度的文本最终归纳到某个类别当中,典型如文本分类、文本聚类、情感识别、情感计算等等都可以归于此。从某种角度说,序列标注任务也是一种连续进行的分类任务。

(3)关系判断:关系判断用于判断两个句子的某种关系。该类任务的场景繁杂,简单的如文本相似度识别、文本关联识别,复杂的如机器阅读理解,机器问答、语义改写等等都可以划分为此类。

(4)生成任务:生成任务用于在输入某个文本内容后,根据需要自动生成另一段文字。典型的如机器翻译,文本摘要、文本扩充等等。

此外,还有一些如机器阅读理解、关系提取、推理等任务,可以视为以上四类任务的复杂组合和变体。

日常生活中,垃圾邮件过滤程序、拼写检查程序、语法检查程序、自动更正、语言翻译、情感分析、语义搜索等都属于 NLP 。基于 Transformer 架构的新深度学习(DL)方法的出现,为 NLP 技术的性能和功能带来了革命性的变化。现在,先进的 NLP 模型已成为现代搜索引擎、语音助手和聊天机器人的核心。这些应用程序在自动处理日常订单、路由查询和回答常见问题时也变得日益纯熟。

NLP 现实用例

| 初创公司

自然语言处理应用在过去十年呈爆炸式增长,因为由 GPU 驱动的递归神经网络的改进提供了性能更好的人工智能。这使得初创公司得以提供语音服务、语言教师和聊天机器人等服务。

| 医疗健康

医疗健康面临的困难之一是难以获得。打医生办公室电话并一直等待的情况十分常见,与索赔代表联系可能同样困难。通过实施 NLP 来训练聊天机器人是医疗健康行业的一项新兴技术,可以解决医疗专业人员的短缺问题,并开创与患者的沟通渠道。

NLP 的另一个重要的医疗健康应用程序是生物医学文本挖掘(通常称为 BioNLP)。鉴于生物文献数量众多,以及生物医学出版速度不断提高,自然语言处理是一个关键的工具,可以在已发表的研究中提取信息,推动生物医学领域的知识进步。这非常有助于药物研发和疾病诊断。

| 金融服务

NLP 是为金融服务公司构建更好的聊天机器人和 AI 助理的关键组成部分。在众多用于基于 NLP 的应用程序的语言模型中,BERT 已成为机器学习领域 NLP 的领军者及语言模型。例如,银行可以使用 NLP 来评估信用记录很少或没有信用记录的客户信誉。

| 零售

除了医疗健康外,聊天机器人技术还常用于零售应用程序,能够准确分析客户查询,并生成回复或建议。这可简化客户流程,并提高商店运营效率。NLP 还用于文本挖掘客户反馈和情感分析。

技术只有实际应用才有价值。ChatGPT 的出现,让更多人看到了以 NLP 为代表的人工智能技术的无限可能。作为将科技创新视为第一驱动力的高新技术企业,思腾合力将加大相关技术研发力度,持续探索人工智能在千行百业的海量应用场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/384686.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

cuda编程以及GPU基本知识

目录CPU与GPU的基本知识CPU特点GPU特点GPU vs. CPU什么样的问题适合GPU?GPU编程CUDA编程并行计算的整体流程CUDA编程术语:硬件CUDA编程术语:内存模型CUDA编程术语:软件线程块(Thread Block)网格&#xff08…

新界面Moonbeam DApp上线,替你先尝试了一番!

作者:充电中的小恐龙 请注意,本篇内容来自Moonbeam社区成员的无偿分享,与Moonbeam官方和Moonbeam中文社区无关。本文内容仅供参考,对于内容的准确性和实效性,请自行谨慎判断。 本文撰写于DApp上线Beta版本之时&#…

数据库开发(一文概括mysql基本知识)

Mysql 是最流行的关系型数据库管理系统,在 WEB 应用方面 MySQL 是最好的 关系型数据库(Relational Database Management System:关系数据库管理系统)应用软件之一。mysql在问开发中,几乎必不可少,因为其他的可能是要收费的&#x…

【运维】Linux定时任务 定时执行脚本

【运维】Linux定时任务 定时执行脚本 在安装完成操作系统后,默认会安装 crond 服务工具,且 crond 服务默认就是自启动的。crond 进程每分钟会定期检查是否有要执行的任务,如果有,则会自动执行该任务。 五分钟执行一次sh脚本 进入编…

taobao.item.update.delisting( 商品下架 )

¥开放平台基础API必须用户授权 单个商品下架输入的num_iid必须属于当前会话用户 公共参数 请求地址: HTTP地址 http://gw.api.taobao.com/router/rest 公共请求参数: 公共响应参数: 点击获取key和secret 请求参数 响应参数 请求示例 TaobaoClient client new …

6-3 SpringCloud快速开发入门: Feign实现负载均衡的服务消费

Feign实现负载均衡的服务消费 负载均衡:Spring Cloud 提供了 Ribbon来实现负载均衡,使用 Ribbo直接注入一个 RestTemplate对象即可,RestTemplate已经做好了负载均衡的配置; 在 Spring Cloud下,使用 Feign也是直接可以实…

实时的软件生成 —— Prompt 编程打通低代码的最后一公里?

PS:这也是一篇畅想,虽然经过了一番试验,依旧有一些不足,但是大体上站得住脚。传统的软件生成方式需要程序员编写大量的代码,然后进行测试、发布等一系列繁琐的流程。而实时生成技术则是借助人工智能技术,让…

在CANoe/CANalyzer中观察CAN Message报文的周期Cycle

案例背景: 该篇博文将告诉您,如何直观的,图示化的,查看CAN网络中各CAN Message报文的周期变化。 优质博文推荐阅读(单击下方链接,即可跳转): Vector工具链 CAN Matrix DBC CAN M…

市场份额下降,股价暴跌,金山云要想实现盈利还需要更长的时间

来源:猛兽财经 作者:猛兽财经 IPO后股价表现与估值变化 金山云(KC)于2020年5月在纳斯达克进行了IPO上市,当时IPO价格为17美元。根据S&P Capital IQ的数据,截至2020年6月1日,金山云的股价已…

linux基本功系列之uname实战

文章目录前言一. uname命令介绍二. 语法格式及常用选项三. 参考案例3.1 输出全部信息3.2 输出内核名称及版本3.3 输出网络节点的主机名3.4 输出主机硬件架构3.5 输出操作系统名称3.6 显示版本信息总结前言 大家好,又见面了,我是沐风晓月,本文…

深度学习-【语义分割】学习笔记4 膨胀卷积(Dilated convolution)

文章目录膨胀卷积为什么需要膨胀卷积gridding effect连续使用三次膨胀卷积——1连续使用三次膨胀卷积——2连续使用三次膨胀卷积——3Understanding Convolution for Semantic Segmentation膨胀卷积 膨胀卷积,又叫空洞卷积。 左边是普通卷积,右边是膨胀…

python的多线程编程之锁

1、 背景概述 在上篇文章中,主要讲述了python中的socket编程的一些基本方面,但是缺少关于锁的相关概念,从而在这篇文章中进行补充。 由于在python中,存在了GIL,也就是全局解释器锁,从而在每次进行获得cpu的…

网络通信--Linux

文章目录网络通信的基础通信模型IP地址和端口port网络套接字网络字节序初识UDP与TCP两种协议sockaddr结构体家族认识一些网络常用基础函数UDP实现简单通信TCP实现简单通信总结网络通信的基础 网络通信是建立在多层协议之下,最终利用数据传输线路进行数据通信。首先…

Web Spider案例 网洛克 第三题 AAEncode加密 练习(七)

声明 此次案例只为学习交流使用,抓包内容、敏感网址、数据接口均已做脱敏处理,切勿用于其他非法用途; 文章目录声明一、资源推荐二、逆向目标三、抓包分析 & 下断分析逆向3.1 抓包分析3.2 下断分析逆向拿到混淆JS代码3.3 AAEncode解决方…

【强烈建议收藏:MySQL面试必问系列之SQL语句执行专题】

一.知识回顾 之前的文章我们一起学习了MySQL面试必问系列之事务专题、锁专题,没有学习的小伙伴可以直接通过该链接地址直接访问,MYSQL你真的了解吗专栏的文章,接下来我们就一起来学习一下MySQL中SQL语句的执行流程,看看你掌握的怎…

csdn文章导航

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注…

Windows11安装Anaconda遇到的一些bug的【解决方案】

Windows11安装Anaconda遇到的一些bug的【解决方案】问题描述:CondaValueError: Malformed version string ~: invalid character(s)或者类似:CondaHTTPError解决思路:主要是换源的时候清华大学的路径不对,过时了。。。只需修改用户…

图数据库认证考试 NGCP 错题解析 vol.02:这 10 道题竟无一人全部答对

如果你读过「NebulaGraph 错题解析第一期」,大概知道在错题解析未出来之前,NebulaGraph 专业技能认证 NGCP(全称 NebulaGraph Certified Professional)的通过率仅有 16.7%。但是,经过上一轮 NebulaGraph 认证考试出题人…

EventGraph:Event Extraction as Semantic Graph Parsing 论文解读

EventGraph: Event Extraction as Semantic Graph Parsing 论文:2022.case-1.2.pdf (aclanthology.org) 代码:huiling-y/EventGraph (github.com) 期刊/会议:CASE 2022 摘要 事件抽取涉及到事件触发词和相应事件论元的检测和抽取。现有系…

黑盒测试重点复习内容

黑盒测试一、等价类划分边界值分析法二、判定表法一、等价类划分边界值分析法 对于各种输入或者输出,必须考虑等价类和边界值,并补充一些特殊值,如空值、空格、0、异常格式等特殊值。 基本概念: 有效等价类:满足需求…