昇思25天学习打卡营第10天|利用 MindSpore 实现 BERT 对话情绪识别的完整攻略

news2025/1/15 17:22:05

目录

环境配置

导入模块和库

准备数据集

数据集下载和压缩

数据加载和数据预处理

进行模型的构建和优化器的设置

配置和准备模型的训练过程

测量训练操作的执行时间

模型验证

模型推理

自定义推理数据集


环境配置


        首先,利用“%%capture captured_output”来捕获后续代码执行所产生的输出。其次,运用“!pip uninstall mindspore -y”这一命令,对已经安装的 mindspore 库予以卸载。随后,从特定的镜像源(即中国科学技术大学的镜像)安装明确版本(2.2.14)的 mindspore 库,之后安装 mindnlp 库,最后使用 pip 命令来显示关于“mindspore”库的详细信息,包括版本、所在位置、依赖项等相关信息。

        代码如下:

%%capture captured_output  
# 实验环境已经预装了mindspore==2.2.14,如需更换mindspore版本,可更改下面mindspore的版本号  
!pip uninstall mindspore -y  
!pip install -i https://pypi.mirrors.ustc.edu.cn/simple mindspore==2.2.14  
# 该案例在 mindnlp 0.3.1 版本完成适配,如果发现案例跑不通,可以指定mindnlp版本,执行`!pip install mindnlp==0.3.1`  
!pip install mindnlp  
!pip show mindspore  

        运行结果:

Name: mindspore  
Version: 2.2.14  
Summary: MindSpore is a new open source deep learning training/inference framework that could be used for mobile, edge and cloud scenarios.  
Home-page: https://www.mindspore.cn  
Author: The MindSpore Authors  
Author-email: contact@mindspore.cn  
License: Apache 2.0  
Location: /home/nginx/miniconda/envs/jupyter/lib/python3.9/site-packages  
Requires: asttokens, astunparse, numpy, packaging, pillow, protobuf, psutil, scipy  
Required-by: mindnlp  

导入模块和库


        首先导入了一些必要的模块和库,包括操作系统相关的 os 模块,mindspore 库,以及 mindspore 中关于数据集处理的一些模块(如 text、GeneratorDataset、transforms),还有一些其他与模型训练和评估相关的模块(如 nn、context),以及来自 mindnlp 的 Trainer、Evaluator 和一些回调函数(CheckpointCallback、BestModelCallback),还有用于评估的指标 Accuracy 。

        代码如下:

import os  
import mindspore  
from mindspore.dataset import text, GeneratorDataset, transforms  
from mindspore import nn, context  
from mindnlp._legacy.engine import Trainer, Evaluator  
from mindnlp._legacy.engine.callbacks import CheckpointCallback, BestModelCallback  
from mindnlp._legacy.metrics import Accuracy  

        运行结果:

Building prefix dict from the default dictionary ...  
Dumping model to file cache /tmp/jieba.cache  
Loading model cost 1.034 seconds.  
Prefix dict has been built successfully. 

准备数据集


        定义了一个被称作 SentimentDataset 的类,其主要用途在于对数据集进行准备工作。此类别能够读取处于特定路径之下的数据文件,并将其加以处理,转化为标签和文本数据的形式,与此同时,还支持通过索引来对样本进行访问以及获取数据集的长度信息。

        代码如下:

# prepare dataset  
class SentimentDataset:  
    """Sentiment Dataset"""  
    def __init__(self, path):  
        # 初始化方法,接收数据集的路径作为参数  
        self.path = path  
        self._labels, self._text_a = [], []  
        self._load()  # 调用内部方法加载数据  
    def _load(self):  
        # 内部方法,用于从指定路径加载数据集  
        with open(self.path, "r", encoding="utf-8") as f:  
            dataset = f.read()  
        lines = dataset.split("\n")  
        for line in lines[1:-1]:  
            label, text_a = line.split("\t")  
            self._labels.append(int(label))  
            self._text_a.append(text_a)  
    def __getitem__(self, index):  
        # 实现了索引访问功能,通过索引获取数据集中的特定样本  
        return self._labels[index], self._text_a[index]  
    def __len__(self):  
        # 实现了获取数据集长度的功能  
        return len(self._labels) 

数据集下载和压缩


        首先,运用“!wget”命令从特定的网址下载数据集,并将其存储为“emotion_detection.tar.gz”。随后,借助“!tar xvf”命令对已下载的压缩文件“emotion_detection.tar.gz”实施解压操作。

        代码如下:

# download dataset  
!wget https://baidu-nlp.bj.bcebos.com/emotion_detection-dataset-1.0.0.tar.gz -O emotion_detection.tar.gz  
!tar xvf emotion_detection.tar.gz 

        运行结果:

--2024-07-03 08:14:39--  https://baidu-nlp.bj.bcebos.com/emotion_detection-dataset-1.0.0.tar.gz  
Resolving baidu-nlp.bj.bcebos.com (baidu-nlp.bj.bcebos.com)... 119.249.103.5, 113.200.2.111, 2409:8c04:1001:1203:0:ff:b0bb:4f27  
Connecting to baidu-nlp.bj.bcebos.com (baidu-nlp.bj.bcebos.com)|119.249.103.5|:443... connected.  
HTTP request sent, awaiting response... 200 OK  
Length: 1710581 (1.6M) [application/x-gzip]  
Saving to: ‘emotion_detection.tar.gz’  
  
emotion_detection.t 100%[===================>]   1.63M  9.58MB/s    in 0.2s      
  
2024-07-03 08:14:40 (9.58 MB/s) - ‘emotion_detection.tar.gz’ saved [1710581/1710581]  
  
data/  
data/test.tsv  
data/infer.tsv  
data/dev.tsv  
data/train.tsv  
data/vocab.txt  

数据加载和数据预处理


        第一步:首先导入了 numpy 库。然后定义了一个名为 process_dataset 的函数,用于处理数据集。函数接受数据源、分词器、最大序列长度、批处理大小和是否打乱数据等参数。函数内部根据设备类型进行不同的处理,包括对文本进行分词和填充、对标签进行类型转换、将数据分批处理等操作。

        代码如下:

#导入了 numpy 库  
import numpy as np  
#数据源 source、分词器 tokenizer最大序列长度 max_seq_len(默认为 64)、批处理大小 batch_size(默认为 32)和是否打乱数据 shuffle(默认为 True )  
def process_dataset(source, tokenizer, max_seq_len=64, batch_size=32, shuffle=True):  
    #判断设备类型是否为 'Ascend'   
    is_ascend = mindspore.get_context('device_target') == 'Ascend'  
    #定义了列名["label", "text_a"]  
    column_names = ["label", "text_a"]  
    #创建了一个 GeneratorDataset 对象 dataset ,并设置了列名和是否打乱  
    dataset = GeneratorDataset(source, column_names=column_names, shuffle=shuffle)  
    # transforms  
    type_cast_op = transforms.TypeCast(mindspore.int32)  
    #定义了一个内部函数 tokenize_and_pad ,用于根据设备类型对输入的文本进行分词和填充处理。  
    def tokenize_and_pad(text):  
        if is_ascend:  
            tokenized = tokenizer(text, padding='max_length', truncation=True, max_length=max_seq_len)  
        else:  
            tokenized = tokenizer(text)  
        return tokenized['input_ids'], tokenized['attention_mask']  
    # map dataset  
    #将文本列 text_a 通过 tokenize_and_pad 函数处理得到 input_ids 和 attention_mask 列  
    dataset = dataset.map(operations=tokenize_and_pad, input_columns="text_a", output_columns=['input_ids', 'attention_mask'])  
    #将标签列通过 type_cast_op 转换为 mindspore.int32 类型,并将其重命名为 labels 。     
    dataset = dataset.map(operations=[type_cast_op], input_columns="label", output_columns='labels')  
    # batch dataset  
    if is_ascend:  
        #如果是 Ascend 设备,使用 batch 方法  
        dataset = dataset.batch(batch_size)  
    else:  
        #否则,使用 padded_batch 方法,并指定填充信息。  
        dataset = dataset.padded_batch(batch_size, pad_info={'input_ids': (None, tokenizer.pad_token_id),  
                                                         'attention_mask': (None, 0)})  
    #函数返回处理后的数据集  
    return dataset 

        第二步:从 mindnlp.transformers 中导入 BertTokenizer ,并从预训练的 'bert-base-chinese' 模型获取分词器。

        代码如下:

from mindnlp.transformers import BertTokenizer  
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')  
tokenizer.pad_token_id  

        运行中:

        运行结果:

        0

        第三步:然后分别对训练集(data/train.tsv)、验证集(data/dev.tsv)和测试集(data/test.tsv)进行处理,得到对应的数据集 dataset_train 、 dataset_val 和 dataset_test ,最后获取训练集的列名

        代码如下:

dataset_train = process_dataset(SentimentDataset("data/train.tsv"), tokenizer)  
dataset_val = process_dataset(SentimentDataset("data/dev.tsv"), tokenizer)  
dataset_test = process_dataset(SentimentDataset("data/test.tsv"), tokenizer, shuffle=False)  
dataset_train.get_col_names()  

        运行结果:

        ['input_ids', 'attention_mask', 'labels']

        第四步:打印出训练集中的第一个样本。

        代码如下:

print(next(dataset_train.create_tuple_iterator()))  

        运行结果:

[Tensor(shape=[32, 64], dtype=Int64, value=  
[[ 101,  872, 1440 ...    0,    0,    0],  
 [ 101, 3766, 7231 ...    0,    0,    0],  
 [ 101, 6821, 3221 ...    0,    0,    0],  
 ...  
 [ 101,  872, 5634 ...    0,    0,    0],  
 [ 101, 1812, 3152 ...    0,    0,    0],  
 [ 101, 2571, 4157 ...    0,    0,    0]]), Tensor(shape=[32, 64], dtype=Int64, value=  
[[1, 1, 1 ... 0, 0, 0],  
 [1, 1, 1 ... 0, 0, 0],  
 [1, 1, 1 ... 0, 0, 0],  
 ...  
 [1, 1, 1 ... 0, 0, 0],  
 [1, 1, 1 ... 0, 0, 0],  
 [1, 1, 1 ... 0, 0, 0]]), Tensor(shape=[32], dtype=Int32, value= [1, 1, 1, 0, 1, 1, 1, 2, 1, 1, 2, 0, 1, 2, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1,   
 0, 1, 1, 1, 1, 0, 1, 1])]  

进行模型的构建和优化器的设置


        从 mindnlp.transformers 模块引入了 BertForSequenceClassification(即用于序列分类的 Bert 模型)以及 BertModel 。借助预训练的 'bert-base-chinese' 模型构建了一个用于序列分类的模型,同时明确指定分类的类别数量为 3 。其后,运用 auto_mixed_precision 函数把模型设定为混合精度模式,精度层级为 'O1' 。还创建了一个优化器 nn.Adam ,旨在对模型的可训练参数进行优化,将学习率设定为 2e-5 。

        代码如下:

from mindnlp.transformers import BertForSequenceClassification, BertModel  
from mindnlp._legacy.amp import auto_mixed_precision  
# set bert config and define parameters for training  
model = BertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=3)  
model = auto_mixed_precision(model, 'O1')  
optimizer = nn.Adam(model.trainable_params(), learning_rate=2e-5)   

        运行中:

        运行结果:

The following parameters in checkpoint files are not loaded:  
['cls.predictions.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight']  
The following parameters in models are missing parameter:  
['classifier.weight', 'classifier.bias']  

配置和准备模型的训练过程


        代码如下:

metric = Accuracy()  
# define callbacks to save checkpoints  
ckpoint_cb = CheckpointCallback(save_path='checkpoint', ckpt_name='bert_emotect', epochs=1, keep_checkpoint_max=2)  
best_model_cb = BestModelCallback(save_path='checkpoint', ckpt_name='bert_emotect_best', auto_load=True)  
trainer = Trainer(network=model, train_dataset=dataset_train,  
                  eval_dataset=dataset_val, metrics=metric,  
                  epochs=5, optimizer=optimizer, callbacks=[ckpoint_cb, best_model_cb])  

        分析:首先定义了一个名为 metric 的对象,它是 Accuracy 类型,可能用于评估模型的准确性。

        然后定义了两个回调函数:

        ckpoint_cb 是一个 CheckpointCallback 对象,用于指定保存检查点的路径为 'checkpoint',检查点名称为 'bert_emotect',保存的周期为 1 个 epoch,最多保留 2 个检查点。

        best_model_cb 是一个 BestModelCallback 对象,用于指定保存最佳模型的路径和名称,并设置自动加载。

        最后创建了一个 Trainer 对象,指定了模型 model 、训练数据集 dataset_train 、评估数据集 dataset_val 、评估指标 metric 、训练轮数为 5 轮、优化器 optimizer ,以及回调函数列表 [ckpoint_cb, best_model_cb] 。

测量训练操作的执行时间


        代码如下:

%%time  
# start training  
trainer.run(tgt_columns="labels")  

        分析:在 Jupyter Notebook 环境中,“%%time”是一个魔法命令,用于测量下面代码单元格的执行时间。

        接下来的代码“trainer.run(tgt_columns="labels")”表示运行名为“trainer”的对象的“run”方法,并指定目标列名为“labels”。综合起来,整段代码的意思是测量“trainer.run(tgt_columns="labels")”这个训练操作的执行时间。

        运行结果:

模型验证


        首先创建了一个名为 evaluator 的评估器对象。它使用指定的模型 model 、评估数据集 dataset_test 和评估指标 metric 进行初始化。然后,通过 evaluator.run(tgt_columns="labels") 来运行这个评估器,并且指定评估的目标列名为 "labels" 。

        代码如下:

evaluator = Evaluator(network=model, eval_dataset=dataset_test, metrics=metric)  
evaluator.run(tgt_columns="labels") 

        运行结果:

模型推理


        首先创建了一个名为 dataset_infer 的数据集对象,其数据来自 "data/infer.tsv" 文件。

        然后定义了一个名为 predict 的函数,用于对输入的文本进行预测。函数内部定义了一个标签映射 label_map ,将数字标签映射为对应的文本标签(“消极”“中性”“积极”)。对输入的文本进行分词处理后, 通过模型得到预测的逻辑值,进而得到预测的标签。如果有给定的真实标签 label ,会在输出信息中同时显示预测标签和真实标签,否则只显示预测标签。

        最后,通过遍历 dataset_infer 数据集中的标签和文本,对每个文本进行预测并打印相关信息。

        代码如下:

dataset_infer = SentimentDataset("data/infer.tsv")  
def predict(text, label=None):  
    label_map = {0: "消极", 1: "中性", 2: "积极"}  
    text_tokenized = Tensor([tokenizer(text).input_ids])  
    logits = model(text_tokenized)  
    predict_label = logits[0].asnumpy().argmax()  
    info = f"inputs: '{text}', predict: '{label_map[predict_label]}'"  
    if label is not None:  
        info += f" , label: '{label_map[label]}'"  
    print(info)  
from mindspore import Tensor  
for label, text in dataset_infer:  
    predict(text, label)  

        运行结果:

inputs: '我 要 客观', predict: '中性' , label: '中性'  
inputs: '靠 你 真是 说 废话 吗', predict: '消极' , label: '消极'  
inputs: '口嗅 会', predict: '中性' , label: '中性'  
inputs: '每次 是 表妹 带 窝 飞 因为 窝路痴', predict: '中性' , label: '中性'  
inputs: '别说 废话 我 问 你 个 问题', predict: '消极' , label: '消极'  
inputs: '4967 是 新加坡 那 家 银行', predict: '中性' , label: '中性'  
inputs: '是 我 喜欢 兔子', predict: '积极' , label: '积极'  
inputs: '你 写 过 黄山 奇石 吗', predict: '中性' , label: '中性'  
inputs: '一个一个 慢慢来', predict: '中性' , label: '中性'  
inputs: '我 玩 过 这个 一点 都 不 好玩', predict: '消极' , label: '消极'  
inputs: '网上 开发 女孩 的 QQ', predict: '中性' , label: '中性'  
inputs: '背 你 猜 对 了', predict: '中性' , label: '中性'  
inputs: '我 讨厌 你 , 哼哼 哼 。 。', predict: '消极' , label: '消极'  

自定义推理数据集


        自己输入推理数据,展示模型的泛化能力。

        代码如下:

predict("家人们咱就是说一整个无语住了 绝绝子叠buff")  

        运行结果:

        inputs: '家人们咱就是说一整个无语住了 绝绝子叠buff', predict: '中性'

         最终 运行结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1895521.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

银湖资本在中国设立公司运营点,全球投资巨头的新篇章!

近日,全球知名私募股权投资公司银湖资本宣布在中国设立公司运营点。一点是银湖资本在国内安置了两个办事营业点,一个在黑龙江,一个在广州等一线城市。这一举动标志着银湖资本在全球范围内的扩展进入了新的阶段,同时也展示了其对中…

iOS手机竖着拍的照片被旋转了90°的原因以及解决方案

EXIF.getData(IMG_FILE, function () { // IMG_FILE为图像数据 var orientation EXIF.getTag(this, “Orientation”); console.log(“Orientation:” orientation); // 拍照方向 }); 获取拍照方向的结果为1-8的数字: 注意:对于上面的八种方向中&a…

Xilinx FPGA:vivado关于真双端口的串口传输数据的实验

一、实验内容 用一个真双端RAM,端口A和端口B同时向RAM里写入数据0-99,A端口读出单数并存入单端口RAM1中,B端口读出双数并存入但端口RAM2中,当检测到按键1到来时将RAM1中的单数读出显示到PC端,当检测到按键2到来时&…

从单体服务到微服务:预初始化属性多模式 Web 应用开发记录<四> FreeMarker 视图首次渲染优化

欢迎关注公众号&#xff1a;冬瓜白 相关文章&#xff1a; 多模式 Web 应用开发记录<一>背景&全局变量优化多模式 Web 应用开发记录<二>自己动手写一个 Struts多模式 Web 应用开发记录<三>预初始化属性 经过一段时间的开发和测试&#xff0c;我们成功地…

java的工厂设备管理系统-计算机毕业设计源码16179

摘要 在现代制造业中&#xff0c;高效的设备管理对于确保生产过程的顺利进行至关重要。为了满足工厂对于设备管理的需求&#xff0c;我们设计并实现了一个基于 Java 的工厂设备管理系统。 该系统旨在提供一个全面、可靠且易于使用的解决方案&#xff0c;以帮助工厂有效地管理…

temu a4接口 逆向

声明(lianxi a15018601872) 本文章中所有内容仅供学习交流使用&#xff0c;不用于其他任何目的&#xff0c;抓包内容、敏感网址、数据接口等均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff01; 前言(lianxi …

【️讲解下Laravel为什么会成为最优雅的PHP框架?】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

为什么进口主食冻干那么高贵?必入榜主食冻干总结分享

新手养猫人常常会有这样的疑问&#xff1a;为何进口主食冻干价格如此昂贵&#xff0c;但仍有大量养猫达人对其推崇备至&#xff1f;与国产主食冻干相比&#xff0c;进口产品的价格高出3-4倍之多&#xff0c;那么这高昂的价格背后&#xff0c;进口主食冻干是否真的值得推荐&…

偏微分方程笔记(驻定与非驻定问题)

椭圆方程可以看成抛物方程 t → ∞ t\rightarrow\infty t→∞的情况。 抛物&#xff1a; 双曲&#xff1a;

音视频流媒体视频平台LntonAIServer视频监控平台工业排污检测算法

在当今社会&#xff0c;环境保护和可持续发展已成为全球关注的焦点。工业生产作为经济发展的重要支柱&#xff0c;其对环境的影响不容忽视。因此&#xff0c;如何有效地监控和管理工业排污&#xff0c;成为了一个亟待解决的问题。LntonAIServer工业排污检测算法应运而生&#x…

【架构-20】死锁

什么是死锁&#xff1f; 死锁(Deadlock)是指两个或多个线程/进程在执行过程中,由于资源的互相占用和等待,而陷入一种互相等待的僵局,无法继续往下执行的情况。 产生死锁的四个必要条件: &#xff08;1&#xff09;互斥条件(Mutual Exclusion)&#xff1a;至少有一个资源是非共享…

2024 年 亚太赛 APMCM (B题)中文赛道国际大学生数学建模挑战赛 |洪水灾害数据分析 | 数学建模完整代码+建模过程全解全析

当大家面临着复杂的数学建模问题时&#xff0c;你是否曾经感到茫然无措&#xff1f;作为2022年美国大学生数学建模比赛的O奖得主&#xff0c;我为大家提供了一套优秀的解题思路&#xff0c;让你轻松应对各种难题&#xff01; 完整内容可以在文章末尾领取&#xff01; 该段文字…

概率论与数理统计_下_科学出版社

contents 前言第5章 大数定律与中心极限定理独立同分布中心极限定理 第6章 数理统计的基本概念6.1 总体与样本6.2 经验分布与频率直方图6.3 统计量6.4 正态总体抽样分布定理6.4.1 卡方分布、t 分布、F 分布6.4.2 正态总体抽样分布基本定理 第7章 参数估计7.1 点估计7.1.1 矩估计…

python库(3):Cerberus库

1 Cerberus简介 Cerberus 是一个Python数据验证库&#xff0c;设计用于验证数据结构的有效性和一致性。它提供了一种简单而强大的方式来定义和应用验证规则&#xff0c;特别适用于处理用户输入的验证、配置文件的检查以及API的参数验证等场景。下面将详细介绍 Cerberus 的特点…

精准畜牧业:多维传感监测及分析动物采食行为

全球畜牧业呈现出一个动态且复杂的挑战。近几十年来&#xff0c;它根据对动物产品需求的演变进行了适应&#xff0c;动物生产系统需要提高其效率和环境可持续性。在不同的畜牧系统中有效行动取决于科学技术的进步&#xff0c;这允许增加照顾动物健康和福祉的数量。精准畜牧业技…

【C++ | 继承】|概念、方式、特性、作用域、6类默认函数

继承 1.继承的概念与定义2.继承的方式2.1继承基本特性2.2继承的作用域2.2.1隐藏赋值兼容 派生类的创建和销毁构造函数拷贝构造赋值重载 1.继承的概念与定义 继承是面向对象编程中的一个重要概念。它的由来可以追溯到软件开发中的模块化设计和代码复用的需求。 在软件开发过程…

山西车间应用LP-LP-SCADA系统的好处有哪些

关键字:LP-SCADA系统, 传感器可视化, 设备可视化, 独立SPC系统, 智能仪表系统,SPC可视化,独立SPC系统 LP-SCADA&#xff08;监控控制与数据采集&#xff09;系统是工业控制系统的一种&#xff0c;主要用于实时监控、控制和管理工业生产过程。 在车间应用LP-SCADA系统&#xf…

【项目日记(四)】搜索引擎-Web模块

❣博主主页: 33的博客❣ ▶️文章专栏分类:项目日记◀️ &#x1f69a;我的代码仓库: 33的代码仓库&#x1f69a; &#x1faf5;&#x1faf5;&#x1faf5;关注我带你了解更多项目内容 目录 1.前言2.前端模块2.1页面设计2.2后端交互 3.部署到云服务器4.总结 1.前言 在前面的文…

25届最近5年华北电力大学自动化考研院校分析

华北电力大学&#xff08;北京保定&#xff09; 目录 一、学校学院专业简介 二、考试科目指定教材 三、近5年考研分数情况 四、近5年招生录取情况 五、最新一年分数段图表 六、初试大纲复试大纲 七、学费&奖学金&就业方向 一、学校学院专业简介 二、考试科目指…

论文导读 | knowledge-based VQA

背景介绍 传统的视觉问答&#xff08;Visual Question Answering, VQA&#xff09;基准测试主要集中在简单计数、视觉属性和物体检测等问题上&#xff0c;这些问题不需要超出图像内容的推理或知识。然而&#xff0c;在knowledge-based VQA中&#xff0c;仅靠图像无法回答给定的…