人工智能(pytorch)搭建模型8-利用pytorch搭建一个BiLSTM+CRF模型,实现简单的命名实体识别

news2024/11/24 19:06:45

大家好,我是微学AI,今天给大家介绍一下人工智能(pytorch)搭建模型8-利用pytorch搭建一个BiLSTM+CRF模型,实现简单的命名实体识别,BiLSTM+CRF 模型是一种常用的序列标注算法,可用于词性标注、分词、命名实体识别等任务。本文利用pytorch搭建一个BiLSTM+CRF模型,并给出数据样例,通过一个简单的命名实体识别(NER)任务来演示模型的训练和预测过程。文章将分为以下几个部分:

1. BiLSTM+CRF模型的介绍
2. BiLSTM+CRF模型的数学原理
3. 数据准备
4. 模型搭建
5. 训练与评估
6. 预测
7. 总结

1. BiLSTM+CRF模型的介绍

BiLSTM+CRF模型结合了双向长短时记忆网络(BiLSTM)和条件随机场(CRF)两种技术。BiLSTM用于捕捉序列中的上下文信息,而CRF用于解决标签之间的依赖关系。实际上,BiLSTM用于为每个输入序列生成一个特征向量,然后将这些特征向量输入到CRF层,以便为序列中的每个元素分配一个标签。BiLSTM 和 CRF 结合在一起,使模型即可以像 CRF 一样考虑序列前后之间的关联性,又可以拥有 LSTM 的特征抽取及拟合能力。

2.BiLSTM+CRF模型的数学原理

假设我们有一个序列 x = ( x 1 , x 2 , . . . , x n ) \boldsymbol{x} = (x_1, x_2, ..., x_n) x=(x1,x2,...,xn),其中 x i x_i xi 是第 i i i 个位置的输入特征。我们要对每个位置进行标注,即为每个位置 i i i 预测一个标签 y i y_i yi。标签集合为 Y = y 1 , y 2 , . . . , y n \mathcal{Y}={y_1, y_2, ..., y_n} Y=y1,y2,...,yn,其中 y i ∈ L y_i \in \mathcal{L} yiL L \mathcal{L} L 表示标签的类别集合。

BiLSTM用于从输入序列中提取特征,它由两个方向的LSTM组成,分别从前向后和从后向前处理输入序列。在时间步 t t t,BiLSTM的输出为 h t ∈ R 2 d h_t \in \mathbb{R}^{2d} htR2d,其中 d d d 是LSTM的隐藏状态维度。具体来说,前向LSTM从左至右处理输入序列 x \boldsymbol{x} x,输出隐状态序列 h → = ( h 1 → , h 2 → , . . . , h n → ) \overrightarrow{h}=(\overrightarrow{h_1},\overrightarrow{h_2},...,\overrightarrow{h_n}) h =(h1 ,h2 ,...,hn ),其中 h t → \overrightarrow{h_t} ht 表示在时间步 t t t 时前向LSTM的隐藏状态;后向LSTM从右至左处理输入序列 x \boldsymbol{x} x,输出隐状态序列 h ← = ( h 1 ← , h 2 ← , . . . , h n ← ) \overleftarrow{h}=(\overleftarrow{h_1},\overleftarrow{h_2},...,\overleftarrow{h_n}) h =(h1 ,h2 ,...,hn ),其中 h t ← \overleftarrow{h_t} ht 表示在时间步 t t t 时后向LSTM的隐藏状态。则每个位置 i i i 的特征表示为 h i = [ h i → ; h i ← ] h_i=[\overrightarrow{h_i};\overleftarrow{h_i}] hi=[hi ;hi ],其中 [ ⋅ ; ⋅ ] [\cdot;\cdot] [;] 表示向量拼接操作。

CRF用于建模标签之间的关系,并进行全局优化。CRF模型定义了一个由 Y \mathcal{Y} Y 构成的联合分布 P ( y ∣ x ) P(\boldsymbol{y}|\boldsymbol{x}) P(yx),其中 y = ( y 1 , y 2 , . . . , y n ) \boldsymbol{y} = (y_1, y_2, ..., y_n) y=(y1,y2,...,yn) 表示标签序列。具体来说,CRF模型将标签序列的概率分解为多个位置的条件概率的乘积,即

P ( y ∣ x ) = ∏ i = 1 n ψ i ( y i ∣ x ) ∏ i = 1 n − 1 ψ i , i + 1 ( y i , y i + 1 ∣ x ) P(\boldsymbol{y}|\boldsymbol{x})=\prod_{i=1}^{n}\psi_i(y_i|\boldsymbol{x}) \prod_{i=1}^{n-1}\psi_{i,i+1}(y_i,y_{i+1}|\boldsymbol{x}) P(yx)=i=1nψi(yix)i=1n1ψi,i+1(yi,yi+1x)

其中 ψ i ( y i ∣ x ) \psi_i(y_i|\boldsymbol{x}) ψi(yix) 表示在位置 i i i 时预测标签为 y i y_i yi 的条件概率, ψ i , i + 1 ( y i , y i + 1 ∣ x ) \psi_{i,i+1}(y_i,y_{i+1}|\boldsymbol{x}) ψi,i+1(yi,yi+1x) 表示预测标签为 y i y_i yi y i + 1 y_{i+1} yi+1 的联合概率。这些条件概率和联合概率可以用神经网络来建模,其中输入为位置 i i i 的特征表示 h i h_i hi

CRF模型的全局优化问题可以通过对数似然函数最大化来实现,即

max ⁡ y log ⁡ P ( y ∣ x ) = ∑ i = 1 n log ⁡ ψ i ( y i ∣ x ) ∑ i = 1 n − 1 log ⁡ ψ i , i + 1 ( y i , y i + 1 ∣ x ) \max_{\boldsymbol{y}}\log P(\boldsymbol{y}|\boldsymbol{x}) = \sum_{i=1}^{n}\log\psi_i(y_i|\boldsymbol{x}) \sum_{i=1}^{n-1}\log\psi_{i,i+1}(y_i,y_{i+1}|\boldsymbol{x}) ymaxlogP(yx)=i=1nlogψi(yix)i=1n1logψi,i+1(yi,yi+1x)
其中 y \boldsymbol{y} y 是所有可能的标签序列。可以使用动态规划算法(如维特比算法)来求解全局最优标签序列。

综上所述,BiLSTM+CRF模型的数学原理可以表示为:

P ( y ∣ x ) = ∏ i = 1 n ψ i ( y i ∣ x ) ∏ i = 1 n − 1 ψ i , i + 1 ( y i , y i + 1 ∣ x ) P(\boldsymbol{y}|\boldsymbol{x}) = \prod_{i=1}^{n}\psi_i(y_i|\boldsymbol{x}) \prod_{i=1}^{n-1}\psi_{i,i+1}(y_i,y_{i+1}|\boldsymbol{x}) P(yx)=i=1nψi(yix)i=1n1ψi,i+1(yi,yi+1x)

其中

ψ i ( y i ∣ x ) = exp ⁡ ( W o T h i + b o T y i ) ∑ y i ′ ∈ L exp ⁡ ( W o T h i + b o T y i ′ ) \psi_i(y_i|\boldsymbol{x}) = \frac{\exp(\boldsymbol{W}_o^{T}\boldsymbol{h}_i + \boldsymbol{b}_o^{T}\boldsymbol{y}i)}{\sum{y_i'\in\mathcal{L}}\exp(\boldsymbol{W}_o^{T}\boldsymbol{h}_i + \boldsymbol{b}_o^{T}\boldsymbol{y}_i')} ψi(yix)=yiLexp(WoThi+boTyi)exp(WoThi+boTyi)

ψ i , i + 1 ( y i , y i + 1 ∣ x ) = exp ⁡ ( W t T y i , i + 1 ) ∑ y i ′ ∈ L ∑ y i + 1 ′ ∈ L exp ⁡ ( W t T y i ′ , i + 1 ′ ) \psi_{i,i+1}(y_i,y_{i+1}|\boldsymbol{x}) = \frac{\exp(\boldsymbol{W}t^{T}\boldsymbol{y}{i,i+1})}{\sum_{y_i'\in\mathcal{L}}\sum_{y_{i+1}'\in\mathcal{L}}\exp(\boldsymbol{W}t^{T}\boldsymbol{y}{i',i+1}')} ψi,i+1(yi,yi+1x)=yiLyi+1Lexp(WtTyi,i+1)exp(WtTyi,i+1)

其中 W o \boldsymbol{W}_o Wo b o \boldsymbol{b}_o bo 是输出层的参数, W t \boldsymbol{W}_t Wt 是转移矩阵, h i \boldsymbol{h}_i hi 是位置 i i i 的特征表示, y i \boldsymbol{y}i yi 是位置 i i i 的标签表示, y i , i + 1 \boldsymbol{y}{i,i+1} yi,i+1 是位置 i i i i + 1 i+1 i+1 的标签联合表示。

在这里插入图片描述

3. 数据准备

下面我将使用一个简单的命名实体识别(NER)任务来演示模型的训练和预测过程。数据集包含了一些句子,每个句子中的单词都被标记为“B-PER”(人名开始)、“I-PER”(人名中间)、“B-LOC”(地名开始)、“I-LOC”(地名中间)或“O”(其他)。

数据样例:

John B-PER
lives O
in O
New B-LOC
York I-LOC
. O

4. 模型搭建

首先,我们需要安装PyTorch库:

pip install torch

接下来,我们将使用PyTorch搭建BiLSTM+CRF模型。完整的模型代码如下:

import torch
import torch.nn as nn
import torch.optim as optim

from TorchCRF import CRF

class BiLSTM_CRF(nn.Module):
    def __init__(self, vocab_size, tag_to_ix, embedding_dim, hidden_dim):
        super(BiLSTM_CRF, self).__init__()
        self.embedding_dim = embedding_dim
        self.hidden_dim = hidden_dim
        self.vocab_size = vocab_size
        self.tag_to_ix = tag_to_ix
        self.tagset_size = len(tag_to_ix)

        self.word_embeds = nn.Embedding(vocab_size, embedding_dim)
        self.lstm = nn.LSTM(embedding_dim, hidden_dim // 2,
                            num_layers=1, bidirectional=True)

        self.hidden2tag = nn.Linear(hidden_dim, self.tagset_size)
        self.crf = CRF(self.tagset_size)

    def forward(self, sentence):
        embeds = self.word_embeds(sentence).view(len(sentence), 1, -1)
        lstm_out, _ = self.lstm(embeds)
        lstm_out = lstm_out.view(len(sentence), self.hidden_dim)
        lstm_feats = self.hidden2tag(lstm_out)
        return lstm_feats

    def loss(self, sentence, tags):
        feats = self.forward(sentence)
        return -self.crf(torch.unsqueeze(feats, 0), tags)

    def predict(self, sentence):
        feats = self.forward(sentence)
        return self.crf.decode(torch.unsqueeze(feats, 0))

5. 训练与评估

接下来,我们将使用训练数据对模型进行训练,并在每个epoch后打印损失值和准确率。

def train(model, optimizer, data):
    for epoch in range(10):
        total_loss = 0
        total_correct = 0
        total_count = 0
        for sentence, tags in data:
            model.zero_grad()
            loss = model.loss(sentence, tags)
            loss.backward()
            optimizer.step()
            total_loss += loss.item()

            prediction = model.predict(sentence)
            total_correct += sum([1 for p, t in zip(prediction, tags) if p == t])
            total_count += len(tags)

        print(f"Epoch {epoch + 1}: Loss = {total_loss / len(data)}, Accuracy = {total_correct / total_count}")

6. 预测

最后,我们将使用训练好的模型对新的句子进行预测。

def predict(model, sentence):
    prediction = model.predict(sentence)
    return [p for p in prediction]

7. 总结

用训练好的模型对新的句子进行预测。

def predict(model, sentence):
    prediction = model.predict(sentence)
    return [p for p in prediction]

7. 总结

本文介绍了如何使用PyTorch搭建一个BiLSTM+CRF模型,并通过一个简单的命名实体识别(NER)任务来演示模型的训练和预测过程。希望这篇文章能帮助你理解BiLSTM+CRF模型的原理,并为你的实际项目提供参考作用哦。

更新精彩的模型搭建与应用请持续关注哦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/614799.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chatgpt赋能python:Python如何到下一行

Python如何到下一行 Python是一种高级编程语言,因其简单易学、可读性高、广泛的应用领域与强大的工具库而迅速成为了广泛使用的语言之一。在Python编程中,换行操作是经常使用的操作。本文将介绍Python中的换行操作以及如何在代码中使用它。 换行符 换…

百度APP iOS端包体积50M优化实践(三) 资源优化

01 前言 百度APP iOS端包体积优化系列文章的前两篇重点介绍了包体积优化整体方案、各项优化收益和图片优化方案,图片优化是从无用图片、Asset Catalog和HEIC格式三个角度做深度优化。本文重点介绍资源优化,在百度APP实践中,资源优化包括大资…

存储过程和函数的区别

目录 零、基本格式 一、返回值 二、参数传递 1、存储过程 2、函数 三、执行方式 四、事务处理 1、存储过程 2、函数 五、数据库兼容性 课上老师提出的讨论题:存储过程和函数的区别? 有同学回复:在数据库后端编程中,存储…

Python数据攻略-Pandas的数据创建与基础特性

大家好,我是Mr数据杨!今天将进入Python的Pandas数据世界,就像三国演义中的英雄们,用聪明才智塑造自己的命运。 记得三国中,周瑜曾利用兵法巧妙策划火烧赤壁,击败曹军。这就像创建一个Pandas DataFrame&…

布局量子计算工业应用!D-Wave正在“偷偷”干大事

​ (图片来源:网络) D-Wave 致力于让用户从量子计算中即时受益,而不必等到长远的未来。几十年来,这家加拿大公司一直努力将设备商业化,多家企业客户都在使用其量子计算来优化业务运营。例如,Pay…

Spark RDD容错机制

文章目录 一、RDD容错机制(一)血统方式(二)设置检查点方式 二、RDD检查点(一)RDD检查点机制(二)与RDD持久化的区别(三)RDD检查点案例演示 三、共享变量&#…

mysql数据库出现Too many connections以及磁盘满了的查看方式

Too many connections问题 这问题是数据库连接数太多了导致的, 两个排查方向 1、当用户数量大的时候 先查看最大连接数show variables like ‘%max_connections%’; 这里的最大连接数就是2000,够用了,一般500-1000就够了,内存多…

【干货分享】3D模型可视化、格式转换引擎和Parasolid如何集成?

​今天分享一个示例项目,该示例项目使用HOOPS链轮将HOOPS Exchange和Siemens Parasolid实施到HOOPS Visualize中。 HOOPS中文网http://techsoft3d.evget.com/↓ 点击下方视频查看详情 ↓ HOOPS Visualize - Exchange和Parasolid集成视频 正如您在上面的视频中看到…

小白必看:零基础入门网络安全

1、什么是网络安全? 官方的回答:指网络系统的硬件、软件及其系统中的数据受到保护,不因偶然的或者恶意的原因而遭受到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。 具有保密性、完整性、可用性、可控性…

chatgpt赋能python:Python如何分成两栏写入Word文档

Python如何分成两栏写入Word文档 在进行文本排版时,有些时候我们需要将文字分成两栏来排版,这样可以让文章更加美观,易读。 本文将介绍一种使用Python将文本分成两栏写入Word文档的方法。在介绍具体实现方法之前,我们先来了解一…

【SLAM】ROS平台下三种自主探索算法总结

目录 前言 一、frontier_exploration 二、explorate_lite 三、rrt_exploration 总结 前言 探索是指当机器人处于一个完全未知或部分已知环境中,通过一定的方法,在合理的时间内,尽可能多的获得周围环境的完整信息和自身的精确定位&#…

自动化测试支持

自动化测试支持 自动化测试是现代软件开发中不可或缺的一环。它可以帮助开发团队快速、精确地检测软件中的缺陷,提高软件质量和开发效率。 自动化测试可以在代码变更频繁、测试用例数庞大时,显著地减少测试时间和工作量。相对于手动测试,自动…

集权设施攻防兵法:实战攻防之堡垒机篇

一、黑客视角下的堡垒机 堡垒机是一种网络安全设备,用于保护和管理企业内部网络与外部网络之间的访问。它作为一种中间节点,提供安全的访问控制和审计功能,用于保护内部网络免受未经授权的访问和攻击。堡垒机通常被用作跳板服务器&#xff0…

计算机网络实验:RIP路由协议配置

目录 前言实验目的实验内容相关知识点实验设备实验过程总结 前言 计算机网络是指由多台计算机通过通信设备和通信线路互联起来,实现信息交换的系统。计算机网络中的路由器是一种专用的网络设备,它负责根据目的地址选择最佳的传输路径,将数据…

容器(第二篇)docker网络

Docker 网络实现原理: Docker使用Linux桥接,在宿主机虚拟一个Docker容器网桥(docker0),Docker启动一个容器时会根据Docker网桥的网段分配给容器一个IP地址,称为Container-IP,同时Docker网桥是每个容器的默认网关。因为…

6月6日汇报

1. 张量CP分解 三阶张量的CP分解是将其分解为三个矩阵。例如:一个三阶张量 ,则CP分解可以写为 其中, 表示向量外积, 。下图为三阶张量的CP分解: 将上面的CP分解展开,也可以写为: 假设有一个三维…

LS1028/LS1043/LS1046+FPGA+TSN多路时间敏感性网络智能工业网关方案

随着 物联网、大数据、人工智能等技术的快速发展与应用,给传统的云计算模式带来了巨大的挑战,这也催生出了计算模式的变革, 边缘计算由此诞生。 所谓边缘计算,是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用…

From Java To Kotlin 2:Kotlin 类型系统与泛型终于懂了

上期主要分享了 From Java To Kotlin 1 :空安全、扩展、函数、Lambda。 这是 From Java to Kotlin 第二期。 带来 表达式思维、子类型化、类型系统、泛型。 From Java to Kotlin 关键在于 思维的转变。 表达式思维 Kotlin 中大部分语句是表达式。 表达式思维是一…

Vue.js 中的数据请求是什么?如何进行数据请求?

Vue.js 中的数据请求是什么?如何进行数据请求? Vue.js 是一款流行的前端框架,它提供了许多方便的工具和 API,用于构建交互式的用户界面。其中,数据请求是 Vue.js 中重要的一部分,它可以让我们从服务器获取…

通过python封装商品ID采集1688商品详情数据,1688商品详情接口,1688API接口

1688是阿里巴巴集团旗下的B2B电商平台,提供海量的商品和服务。通过1688的API接口可以获取到商品的详细数据,并进行采集和分析。 1688的商品详情接口包括以下信息: 商品名称商品图片商品价格商品库存商品属性商品描述商品评价商品销量商品SK…