Speech and Language Processing-导读

news2024/11/26 2:29:32

       朋友们,最近打算做一个大工程,我曾多次提过,chatgpt未来将是一股非常大的信息技术革命,有的人不以为然,或者国内很多企业好像并不是很重视,以我从业多年来的经验,chatgpt与之前的NLP技术有着较为本质的区别,从chatgpt开始,我愿意称程序员的编程语言为第四代编程语言,也就是没有过程,只需要告诉需求,就可以实现编程,这是一个伟大的突破,一旦第四代编程语言成型,纯程序员我觉得绝大部分会被替代为prompt设计师或者需求分析师。

       既然这次AI浪潮如此强大,我也想做点什么,想来想去,很多人对AI听说甚至自己干这行,但是对该行业的整个历史发展历程不够清楚,我经过寻找,找到了《Speech and Language Processing》这本书,打算把这本书整本都给大家解释,带读,希望能尽绵薄之力带你进入AI的世界。

正则表达式,文本规范化,编辑距离

上面是1966年由系统工程师约瑟夫·魏泽堡和精神病学家肯尼斯·科尔比在20 世纪60 年代共同编写的机器人ELIZA,是世界上第一个真正意义上的聊天机器人。 

是的,你没有看错,就是1966年,也就是如果你是90年左右出生的,大概是你的父亲那一辈,就已经有聊天机器人了,并且他是世界上第一个AutoRobot。

译文:上面的对话来自ELIZA,这是一个早期的自然语言处理系统,可以通过模仿Rogerian心理治疗师的反应与用户进行有限的对话(Weizenbaum, 1966)。ELIZA是一个非常简单的程序,它使用模式匹配来识别像“我需要X”这样的短语,并将它们转换成合适的输出,比如“如果你得到X对你意味着什么?”这个简单的技术在这个领域取得了成功,因为ELIZA实际上不需要知道任何东西来模仿罗杰斯式的心理治疗师。正如Weizenbaum所指出的,这是为数不多的对话类型之一,听众可以表现得好像他们对世界一无所知。Eliza对人类对话的模仿非常成功:许多与Eliza互动的人开始相信它真的理解他们和他们的问题,甚至在向他们解释了程序的操作之后,许多人仍然相信Eliza的能力(Weizenbaum, 1976),即使在今天,这样的聊天机器人仍然是一种有趣的娱乐。

       当然,现代会话代理不仅仅是一种消遣;他们可以回答问题,预订机票,或寻找餐馆,这些功能依赖于对用户意图的更复杂的理解,我们将在第26章看到。尽管如此,为ELIZA和其他聊天机器人提供动力的基于模式的简单方法在自然语言处理中发挥着至关重要的作用。

      我们将从描述文本模式的最重要的工具开始:正则表达式。正则表达式可以用来指定我们可能想要从文档中提取的字符串,从上面Eliza中转换“I need X”,到定义像$199或$24.99这样的字符串来从文档中提取价格表。

       所谓规范化文本,其实就是把原来的text转化为更加便利、标准的模式。

       分词是我们处理自然语言的第一个步骤,英文通常有天然的空格来区分不同的词,但是英文也有部分词语不能用空格去区分,对于日文和中文,则更没有空格去区分,这都是难点。

      文本规范化的另一部分是词根化,即确定两个单词具有相同的词根,尽管它们表面上存在差异。例如,单词sang, sung和sings都是动词sing的形式。sings这个词是这些词的共同根,将所有这些词映射成sings。词形化对于处理像阿拉伯语这样的形态复杂的语言是必不可少的。

      词干提取指的是一种更简单的词尾提取,我们主要是从词尾提取后缀。文本规范化还包括句子分割:使用句点或感叹号等线索将文本分解成单独的句子。最后,我们需要比较单词和其他字符串。

      我们将引入一个称为编辑距离的度量,它根据将一个字符串更改为另一个字符串所需的编辑(插入、删除、替换)次数来度量两个字符串的相似程度。编辑距离是一种应用于整个语言处理的算法,从拼写纠正到语音识别再到共同参考分辨率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/460931.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【jenkins学习】windows环境下部署与设置中文显示

准备: jenkins安装包: https://www.jenkins.io/zh/download/ Java 17安装包: https://www.oracle.com/java/technologies/downloads/#jdk17-windows 1、jdk安装 不建议放在C盘,自定义一个不含中文的路径,安装即可 配置…

轻松掌握K8S目录持久卷PV/PVC的kubectl操作知识点04

1、介绍 在docker中可以将容器中的目录挂载出来,在k8s中pod可以部署在不同节点,假如该节点的机器宕机了,k8s可能就会将此Pod转移到其他机器,就不是原先的机器了。k8s有自己的一套挂载方案,如下图所示, 原…

Flink通过Maxwell读取mysql的binlog发送到kafka再写入mysql

1.准备环境 JDK1.8 MySQL Zookeeper Kakfa Maxweill IDEA 2.实操 2.1开启mysql的binlog 查看binlog 状态,是否开启 show variables like log_% 如果log_bin显示为ON,则代表已开启。如果是OFF 说明还没开启。 [Linux] 编辑 /etc/my.cnf 文件&…

什么品牌台灯最舒服?推荐最热门的护眼灯品牌排行

台灯是人们生活中用来照明的一个电器,平时阅读跟学习时都会用来照明,补充室内不足的光线。 那么,台灯哪个品牌最舒服?分享几款好用的护眼台灯给大家。 (1) 南卡护眼台灯Pro 南卡是目前国内护眼效果方面做得最棒的一个品牌&#x…

企业本地文档如何实现规范在线管理?

随着企业数字化生产方式的不断推进,网络办公和在线协作越来越普遍,企业内部可能出现大量的文件和文档,这些文档多存在于不同的设备和存储介质上,这给企业的信息管理带来了一定程度的困难。为了提高企业的知识管理效率,…

SpringCloudTencent:安装北极星polaris服务

腾讯推出了自己的微服务框架,其中polaris(北极星)服务更是核心,除了提供服务发现和治理中心,除服务发现、服务注册和健康检查之外,还提供流量控制、故障容错和安全能力。现在我们试着快速安装一下。 1.win…

Java笔记_11(常见算法)

Java笔记_11常见算法 一、常见算法1.1、查找算法1.2、排序算法 二、Arrays三、Lambda表达式四、综合练习4.1、按照要求进行排序4.2、不死神兔4.3、猴子吃桃子4.4、爬楼梯 一、常见算法 1.1、查找算法 基本查找 package Common_algorithms.Basic_Search;import java.util.Ar…

IT运维:服务器管理

服务器是连接到其他设备以提供服务的设备。其他设备称为客户端,此设置称为客户端-服务器模型。 服务器提供的服务包括存储数据、托管网站、运行应用程序、中继信息和执行计算。任何向发出请求的客户端提供服务的设备都可以充当服务器,但大型IT组织通常具…

笔试练习Day01

目录 选择题: 题一: String 类: StringBuffer 类的详解: 关于 Vector 的详解: 编程题: 题一:组队竞赛 题二:删除公共字符串 选择题: 题一: String 类…

node(express框架)连接mysql 基础篇

文章目录 电脑安装mysql配置mysql连接mysql 创建表 创建node文件启动node node 连接数据库连接数据库 电脑安装mysql 由于我的是mac 我就安装mac版本的 mysql 如已安装跳过此步骤 mysql官网选择版本安装配置 这里注意选择下面的 next输入mysql密码 点击finish 配置mysql 打…

ROS:TF变换

一.TF变换数据格式(msg) TransformStamped.msg(两个坐标系之间转换) std_msgs/Header header uint32 seq time stamp string frame_id 指明哪一个坐标系(父坐标系) string child_f…

汇编语言(第3版) - 学习笔记 - 实验8 分析一个奇怪的程序

实验8 分析一个奇怪的程序 题目解析顺序执行查看反汇编测试一下 题目 分析下面的程序,在运行前思考:这个程序可以正确返回吗? 运行后再思考:为什么是这种结果? 通过这个程序加深对相关内容的理解。 assume cs:codesg codesg segmentmov ax, 4c00h int 21h …

BUUCTF pwn1_sctf_2016

小白垃圾笔记而已,不建议阅读。 唉,因为没有在一开始创建flag文件,导致调试了半天也没有找到问题所在。 这道题是这样的: main函数调用vuln函数 其实在程序中还有一个get_flag函数: 我们可以将返回地址覆盖成它。 覆…

E. Number With The Given Amount Of Divisors

传送门 题意:求出整好有n个因子的最小整数。 思路: 要找到恰好有n个因子的最小整数,我们可以利用质因数分解的思想来求解。设该整数的质因数分解式为:其中p1,p2,...,pn均为不同的质数,a1,a2,...,an均为正整数。则该整…

【vue3】05-vue的双向绑定 — v-model

文章目录 v-mdelv-model的基本使用v-model绑定其他表单元素textareaselectcheckboxradio v-model修饰符 v-mdel v-model 是 Vue.js 中用于表单元素和组件双向数据绑定的指令。它可以将表单元素或组件的值和 Vue 实例的数据属性进行双向绑定: 即当表单元素或组件的值发生变化时…

Ajax 实例

文章目录 AJAX 实例AJAX 实例解析 AJAX 实例 为了帮助您理解 AJAX 的工作原理&#xff0c;我们创建了一个小型的 AJAX 应用程序: 实例 <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <script> function loadXMLDoc() {var x…

第五期(2022-2023)传统行业云原生技术落地调研报告——金融篇

随着数字化浪潮的来临&#xff0c;云原生技术正在改变着各行各业&#xff0c;通过IT变革驱动业务创新发展&#xff0c;促进企业自身以及产业生态的转型升级。 因此&#xff0c;灵雀云联合云原生技术实践联盟&#xff08;CNBPA&#xff09;和行业内头部厂商F5&#xff0c;共同发…

如何实现一款接入chatGPT的智能音箱

现有的一些“智能音箱”如某度和某猫精灵&#xff0c;跟现在的chatGPT比显得智障。如果能有一款接入chatGPT的智能音箱&#xff0c;它的交互性就好多啦。有gpt加持的智能音箱绝对会很强&#xff0c;以下提供探讨下实现思路。 目前智能音箱在语音交互层面依然不够成熟&#xff0…

PSO算法、MATLAB代码实现以及测试效果

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 PSO算法原理进化操作算法流程图matlab代码实现main函数部分适应度函数部分PSO算法主体测试结果 (F1~F6) PSO算法原理 粒子群优化( Particle Swarm Optimization&am…

【C++关联容器】map的成员函数

目录 map 1. 构造、析构和赋值运算符重载 1.1 构造函数 1.2 析构函数 1.3 赋值运算符重载 2. 迭代器 3. 容量 4. 元素访问 5. 修改器 6. 观察者 7. 操作 8. 分配器 map map是关联容器&#xff0c;它按照特定的顺序存储由关键字值和映射值的组合形成的元素。 在一…