Hugging Face Transformer:从原理到实战的全面指南

news2024/9/25 14:59:53

一、前言


我们知道ChatGPT和所有预训练大语言模型的核心是什么?其实就是 Transformer,Hugging Face 的火爆离不开他们开源的这个 Transformers 库。这个开源库里有数万个我们可以直接调用的模型。很多场景下,这个开源模型已经足够我们使用了。接下来我们就从Transformer的架构和具体的案例来介绍Hugging Face Transformer。

二、Transformer 架构


Transformer 是一种用于自然语言处理和其它序列到序列任务的神经网络模型,它是在2017年由Vaswani等人提出来的 ,Transformer的核心模块是通过自注意力机制(Self Attention) 捕捉序列之间的依赖关系。

如果只有词向量本身,没有注意力机制和位置编码,那么语言模型就不能够分配。 比如一个单词 apple 它到底是水果还是一个科技公司呢,它是不知道的,只有通过自注意力机制,捕捉到了上下文关联信息之后,这个语言模型才能够建立起整个序列的选举表征。

自注意力机制是由三个部分组成的:

  • Query Key Value: 查询键值,自注意力机制输入进去是一个序列,每一个元素都是一个向量,也就是词向量,对于每一个元素我们都会给它计算出来三个向量 Query、Key还有Value,这三个向量通许序列本身的词向量再乘以Query、Key和Value的参数矩阵,通过矩阵乘法,我们从词向量本身衍生出来三个额外的向量,就是Query、Key和Value。

  • Attention Scores:注意力的得分,对于每个查询向量,我们都要计算它和所有其它键向量之间的相似度得分,这个得分就叫注意力得分。这个得分就是通过对查询向量和键向量进行点击Dot Product计算得到的。

  • Attention Weight:注意力的权重,得到了注意力的得分之后,它会通过Softmax进行一个归一化,然后就得到了注意力的权重。这个权重实际上就是每个值向量的加权平均值,也是自注意力机制的输出,经过这一系列的计算,这个序列中每一个词向量的彼此就开始从完全互不相通变成有了很多关系,那输出的向量就能够为 Transformer 所用,可以进行更进一步的分析处理。

所有的注意力机制都是多头的,多头注意力就是将注意力机制增加了一点小小的改进,也是通过把输入向量进行线性变换,生产很多组注意力机制,这些注意力机制就可以并行计算,同时计算很多组Query、Key和Value,然后聚合成一个新的向量表示,把多头再进行聚合,这样做的好处是它可以同时关注不同位置的和不同语义层面上的信息,从而更好的捕捉序列的全局特征和局部特征,因此,多头注意力在处理复杂序列数据时表现的更好了。

除了自注意力和多头注意力机制之外,Transformer 还包括编码器(Encoder)和解码器(Decoder):Encoder:将序列映射成一组隐藏状态,经过了注意力机制的处理,Decoder再将隐藏状态映射到输出序列,这是Transformer基本的一个机制,这些隐藏状态通过多个堆叠的自注意力层还有前馈神经网络层形成比较复杂的并行结构。

上面这张图展示一个输入的文本序列在编码器Encoder和解码器Decoder内部,以及从Encoder到Decoder怎么样流动的一个过程,可以了解一下。

Encoder和Decoder在Transformer内部是由多个堆叠组成的,所以在Encoder中,每一个Transformer模块都是包含两个子层:

  • 多头自注意力层(Multi Head Self Attention)

  • 前馈神经网络层(Feed Forward Neuro Network)

在Decoder中也包括两个子层,多头注意力机制层和Encoder Decoder注意力层,这是两个不同的注意力层,一个是Self Attention,序列本身自己的注意力;一个是Encoder的输入、Encoder过来的输出和Decoder本身的输入结合的Attention,所以向量序列通过多层的 Transformer 模块进行处理,每一个模块都会对序列进行一系列的自注意力、前馈、再自注意力、前馈、然后传递到Decoder过来又进行自注意力,然后再进行Encoder Decoder Attention,再进行Feed Forward等一系列传递的过程,层层叠加,重重叠叠,这样Transformer就能够得到越来越多的输入和输出序列之间的依赖关系,逐层学习各个序列之间的高级特征,从而可以有效的捕捉到序列到序列的语义,进行语义方面的学习。

三、最具影响力的 Transformers


以下是 Transformer 模型(简短)历史中的一些关键节点:

Transformer 架构 于 2017 年 6 月推出。原本研究的重点是翻译任务。随后推出了几个有影响力的模型,包括

  • 2018 年 6 月: GPT, 第一个预训练的 Transformer 模型,用于各种 NLP 任务并获得极好的结果

  • 2018 年 10 月: BERT**, 另一个大型预训练模型,该模型旨在生成更好的句子摘要**

  • 2019 年 2 月: GPT-2, GPT 的改进(并且更大)版本,由于道德问题没有立即公开发布

  • 2019 年 10 月: DistilBERT, BERT 的提炼版本,速度提高 60%,内存减轻 40%,但仍保留 BERT 97% 的性能

  • 2019 年 10 月: BART 和 T5, 两个使用与原始 Transformer 模型相同架构的大型预训练模型(第一个这样做)

  • 2020 年 5 月, GPT-3, GPT-2 的更大版本,无需微调即可在各种任务上表现良好(称为零样本学习)

其中,最具影响力的应该要属Google 2018年提出的BERT模型,它是最流行的自然语言处理模型之一,它是通过双向的 Transformer 编码器来学习上下文相关的单词表示。BERT诞生之后,很多人就开始对BERT加以改进,看看能不能找到更好的 Transformer。

  • RoBERTa:它是Facebook提出来的,基于BERT进一步训练的语言模型,通过改变一些内部结构还有训练过程,提升了一定的模型表现力,实际上对于下游的一些任务来说,RoBERTa和BERT是各有特点,主要看你的具体任务是什么?有些任务还是BERT表现不错,而有些任务上,RoBERTa会比BERT稍微好一些。

  • ALBERT:它是一种基于BERT轻量级的语言模型,是Google和Toyota团队2019年提出的。它通过参数共享和范围这种技术缩短了模型的大小和训练时间,同时还能保持跟BERT差不多的表现能力,它会更轻量级一些。

  • DistillBERT:也是一种基于BERT轻量级的语言模型,由Hugging Face团队2019年推出的,使用了一种知识蒸馏的方法,能够保持BERT模型的效率,还能把BERT模型压缩到一半以上,只剩下一半左右的参数,但是同时保持类似的表现力,可以说DistillBERT是一个很小的大模型,效率比较高。

四、Hugging Face Transformers


Hugging Face Transformers 是一家公司,在Hugging Face提供的API中,我们几乎可以下载到所有前面提到的预训练大模型的全部信息和各种参数。我们可以认为这些模型在Hugging Face基本就是开源的了,我们只需要拿过来微调或者重新训练这些模型。用官方的话来说,Hugging Face Transformers 是一个用于自然语言处理的Python库,提供了预训练的语言模型和工具,使得研究者和工程师能够轻松的训练使用共享最先进的NLP模型,其中包括BERT、GPT、RoBERTa、XLNet、DistillBERT等等。

通过 Transformers 可以轻松的用这些预训练模型进行文本分类、命名实体识别、机器翻译、问答系统等NLP任务。这个库还提供了方便的API、示例代码和文档,让我们使用这些模型或者学习模型变得非常简单。

4.1、Transformers Pipeline

我们先来看看,Transformers 这个开源库到底能干些什么。下面的代码都是直接使用开源模型,需要利用 GPU 的算力,所以你最好还是在 Colab 里运行,注意不要忘记把 Runtime 的类型修改为 GPU。

from transformers import pipeline  
  
classifier = pipeline(task="sentiment-analysis", device=0)  
preds = classifier("I am really happy today!")  
print(preds)

输出结果:

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).  
Using a pipeline without specifying a model name and revision in production is not recommended.  
[{'label': 'POSITIVE', 'score': 0.9998762607574463}]

这个代码非常简单,第一行代码,我们定义了一个 task 是 sentimental-analysis 的 Pipeline,也就是一个情感分析的分类器。里面 device=0 的意思是我们指定让 Transformer 使用 GPU 资源。如果你想要让它使用 CPU,你可以设置 device=-1。然后,调用这个分类器对一段文本进行情感分析。从输出结果看,它给出了正确的 Positive 预测,也给出了具体的预测分数。因为我们在这里没有指定任何模型,所以 Transformers 自动选择了默认的模型,也就是日志里看到的 distilbert-base-uncased-finetuned-sst-2-english 这个模型。

看名字我们可以知道,这个模型是一个针对英语的模型。如果想要支持中文,我们也可以换一个模型来试试。

classifier = pipeline(model="uer/roberta-base-finetuned-jd-binary-chinese", task="sentiment-analysis", device=0)  
preds = classifier("这家店有点黑,鱼香肉丝也太难吃了。")  
print(preds)

输出结果:

[{'label': 'negative (stars 1, 2 and 3)', 'score': 0.934112012386322}]

这里,我们指定模型的名称,就能换用另一个模型来进行情感分析了。这次我们选用的是 roberta-base-finetuned-jd-binary-chinese 这个模型。RoBERTa 这个模型是基于 BERT 做了一些设计上的修改而得来的。而后面的 finetuned-jd-binary-chinese 是基于京东的数据进行微调过的一个模型。

Pipeline 是 Transformers 库里面的一个核心功能,它封装了所有托管在 HuggingFace 上的模型推理预测的入口。你不需要关心具体每个模型的架构、输入数据格式是什么样子的。我们只要通过 model 参数指定使用的模型,通过 task 参数来指定任务类型,运行一下就能直接获得结果。

比如,我们现在不想做情感分析了,而是想要做英译中,我们只需要把 task 换成 translation_en_to_zh,然后选用一个合适的模型就好了。

translation = pipeline(task="translation_en_to_zh", model="Helsinki-NLP/opus-mt-en-zh", device=0)  
  
text = "Artificial intelligence is really amazing. I believe you will fall in love with it."  
translated_text = translation(text)  
print(translated_text)

输出结果:

[{'translation_text': '人工智能真的太神奇啦,我相信你会喜欢上它'}]

在这里,我们选用了赫尔辛基大学的 opus-mt-en-zh 这个模型来做英译中,运行一下就可以看到,我们输入的英文被翻译成了中文。不过,我们怎么知道应该选用哪个模型呢?这个如魔法一般的 Helsinki-NLP/opus-mt-en-zh 模型名字从哪里可以找到呢?

五、Hugging Face实战


Hugging Face是一个AI社区,致力于分享机器学习模型和数据集。它的主要产品包括Hugging Face Dataset、Hugging Face Tokenizer、Hugging Face Transformer和Hugging Face Accelerate。

  • Hugging Face Dataset是一个库,用于轻松访问和共享音频、计算机视觉和自然语言处理(NLP)任务的数据集。只需一行代码即可加载数据集,并使用强大的数据处理方法快速准备好数据集,以便在深度学习模型中进行训练。在Apache Arrow格式的支持下,以零拷贝读取处理大型数据集,没有任何内存限制,以实现最佳速度和效率。

  • Hugging Face Tokenizer是一个用于将文本转换为数字表示形式的库。它支持多种编码器,包括BERT、GPT-2等,并提供了一些高级对齐方法,可以用于映射原始字符串(字符和单词)和标记空间之间的关系。

  • Hugging Face Transformer是一个用于自然语言处理(NLP)任务的库。它提供了各种预训练模型,包括BERT、GPT-2等,并提供了一些高级功能,例如控制生成文本的长度、温度等。

  • Hugging Face Accelerate是一个用于加速训练和推理的库。它支持各种硬件加速器,例如GPU、TPU等,并提供了一些高级功能,例如混合精度训练、梯度累积等。

5.1、Hugging Face Dataset

Hugging Face Dataset是一个公共数据集仓库,用于轻松访问和共享音频、计算机视觉和自然语言处理(NLP)任务的数据集。只需一行代码即可加载数据集,并使用强大的数据处理方法快速准备好数据集,以便在深度学习模型中进行训练。

在Apache Arrow格式的支持下,以零拷贝读取处理大型数据集,没有任何内存限制,以实现最佳速度和效率。Hugging Face Dataset还与拥抱面部中心深度集成,使您可以轻松加载数据集并与更广泛的机器学习社区共享数据集。

在花时间下载数据集之前,快速获取有关数据集的一些常规信息通常会很有帮助。数据集的信息存储在 DatasetInfo 中,可以包含数据集描述、要素和数据集大小等信息。

使用 load_dataset_builder() 函数加载数据集构建器并检查数据集的属性,而无需提交下载:

>>> from datasets import load_dataset_builder  
>>> ds_builder = load_dataset_builder("rotten_tomatoes")  
  
# Inspect dataset description  
>>> ds_builder.info.description  
Movie Review Dataset. This is a dataset of containing 5,331 positive and 5,331 negative processed sentences from Rotten Tomatoes movie reviews. This data was first used in Bo Pang and Lillian Lee, ``Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales.'', Proceedings of the ACL, 2005.  
  
# Inspect dataset features  
>>> ds_builder.info.features  
{'label': ClassLabel(num_classes=2, names=['neg', 'pos'], id=None),  
 'text': Value(dtype='string', id=None)}

如果您对数据集感到满意,请使用 load_dataset() 加载它:

from datasets import load_dataset  
  
dataset = load_dataset("rotten_tomatoes", split="train")

5.2、Hugging Face Tokenizer

Tokenizers 提供了当今最常用的分词器的实现,重点是性能和多功能性。这些分词器也用于Transformers。

Tokenizer 把文本序列输入到模型之前的预处理,相当于数据预处理的环节,因为模型是不可能直接读文字信息的,还是需要经过分词处理,把文本变成一个个token,每个模型比如BERT、GPT需要的Tokenizer都不一样,它们都有自己的字典,因为每一个模型它的训练语料库是不一样的,所以它的token和它的字典大小、token的格式都会各有不同,整体来讲,就是给各种各样的词进行分词,然后编码,以123456来代表词的状态,这个就是Tokenizer的作用。

所以,Tokenizer的任务就是把输入的文本转换成一个一个的标记,它还可以负责对文本序列的清洗、截断、填充进行处理。简而言之,就是为了满足具体模型所要求的格式。

主要特点:

  • 使用当今最常用的分词器训练新的词汇表并进行标记化。

  • 由于Rust实现,因此非常快速(训练和标记化),在服务器CPU上对1GB文本进行标记化不到20秒。

  • 易于使用,但也非常多功能。

  • 旨在用于研究和生产。

  • 完全对齐跟踪。即使进行破坏性规范化,也始终可以获得与任何令牌对应的原始句子部分。

  • 执行所有预处理:截断、填充、添加模型所需的特殊令牌。

这里演示如何使用 BPE 模型实例化一个:classTokenizer

from tokenizers import Tokenizer  
from tokenizers.models import BPE  
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))

5.3、Hugging Face Transformer

Transformers提供API和工具,可轻松下载和训练最先进的预训练模型。使用预训练模型可以降低计算成本、碳足迹,并节省训练模型所需的时间和资源。这些模型支持不同模态中的常见任务,例如:

  • 自然语言处理:文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。

  • 计算机视觉:图像分类、目标检测和分割。

  • 音频:自动语音识别和音频分类。

  • 多模式:表格问答、光学字符识别、从扫描文档中提取信息、视频分类和视觉问答。

Transformers支持PyTorch、TensorFlow和JAX之间的框架互操作性。这提供了在模型的每个阶段使用不同框架的灵活性;在一个框架中用三行代码训练一个模型,在另一个框架中加载它进行推理。模型还可以导出到ONNX和TorchScript等格式,以在生产环境中部署。

# 导入必要的库  
from transformers import AutoModelForSequenceClassification  
  
# 初始化分词器和模型  
model_name = "bert-base-cased"  
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)  
  
# 将文本编码为模型期望的张量格式  
inputs = tokenizer(dataset["train"]["text"][:10], padding=True, truncation=True, return_tensors="pt")  
  
# 将编码后的张量输入模型进行预测  
outputs = model(**inputs)  
  
# 获取预测结果和标签  
predictions = outputs.logits.argmax(dim=-1)

5.4、Hugging Face Accelerate

Accelerate 是一个库,只需添加四行代码,即可在任何分布式配置中运行相同的 PyTorch 代码!简而言之,大规模的训练和推理变得简单、高效和适应性强。

from accelerate import Accelerator  
  
accelerator = Accelerator()  
  
model, optimizer, training_dataloader, scheduler = accelerator.prepare(  
    model, optimizer, training_dataloader, scheduler  
)

5.5、基于Hugging Face Transformer实现的文本分类示例

安装Hugging Face必要的库

pip install torch  
pip install transformers  
pip install datasets
# 导入必要的库  
from transformers import AutoTokenizer, AutoModelForSequenceClassification  
from datasets import load_dataset  
  
# 定义数据集名称和任务类型  
dataset_name = "imdb"  
task = "sentiment-analysis"  
  
# 下载数据集并打乱数据  
dataset = load_dataset(dataset_name)  
dataset = dataset.shuffle()  
  
# 初始化分词器和模型  
model_name = "bert-base-cased"  
tokenizer = AutoTokenizer.from_pretrained(model_name)  
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)  
  
# 将文本编码为模型期望的张量格式  
inputs = tokenizer(dataset["train"]["text"][:10], padding=True, truncation=True, return_tensors="pt")  
  
# 将编码后的张量输入模型进行预测  
outputs = model(**inputs)  
  
# 获取预测结果和标签  
predictions = outputs.logits.argmax(dim=-1)  
labels = dataset["train"]["label"][:10]  
  
# 打印预测结果和标签  
for i, (prediction, label) in enumerate(zip(predictions, labels)):  
    prediction_label = "正面评论" if prediction == 1 else "负面评论"  
    true_label = "正面评论" if label == 1 else "负面评论"  
    print(f"Example {i+1}: Prediction: {prediction_label}, True label: {true_label}")


输出结果:


100%|██████████| 3/3 [00:00<00:00, 65.66it/s]  
Downloading model.safetensors: 100%|██████████| 436M/436M [00:19<00:00, 22.0MB/s]  
Some weights of the model checkpoint at bert-base-cased were not used when initializing BertForSequenceClassification: ['cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight']  
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).  
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).  
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight']  
**You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.  
**Example 1: Prediction: 正面评论, True label: 正面评论  
Example 2: Prediction: 正面评论, True label: 负面评论  
Example 3: Prediction: 正面评论, True label: 正面评论  
Example 4: Prediction: 正面评论, True label: 负面评论  
Example 5: Prediction: 正面评论, True label: 负面评论  
Example 6: Prediction: 正面评论, True label: 正面评论  
Example 7: Prediction: 正面评论, True label: 正面评论  
Example 8: Prediction: 负面评论, True label: 正面评论  
Example 9: Prediction: 正面评论, True label: 负面评论  
Example 10: Prediction: 正面评论, True label: 负面评论

从上面的结果来看,效果其实不太好,因为我们没有做任务相关数据的训练,直接使用bert模型进行文本情感分析,自然效果不太理想的,从运行的日志也能看到,提示我们应该在下游任务上训练这个模型,以便能够用于预测和推理。

  • Transformer 架构论文: https://arxiv.org/abs/1706.03762

  • Hugging Face官方文档:https://huggingface.co/docs

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2163879.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Pyside】pycharm2024配置conda虚拟环境

知识拓展 Pycharm 是一个由 JetBrains 开发的集成开发环境&#xff08;IDE&#xff09;&#xff0c;它主要用于 Python 编程语言的开发。Pycharm 提供了代码编辑、调试、版本控制、测试等多种功能&#xff0c;以提高 Python 开发者的效率。 Pycharm 与 Python 的关系 Pycharm 是…

2024年9月24日---关于MyBatis框架(3)

五 Mybatis的缓存 5.1 Mybatis缓存简介 缓存(cache)&#xff1a;提前把数据存放到缓存当中&#xff0c;下一次再使用的时候&#xff0c;直接从缓存中拿&#xff0c;而不用再次去数据库中查询一次了。这样的优势在于&#xff1a;通过减少IO的⽅式&#xff0c;来提⾼程序的执⾏…

28岁打算转行靠谱么,这个年龄转行,有什么适合的行业么?

前言 大家好&#xff0c;我是职场小油条播妞&#xff0c;最近被一组表情包洗脑了。 &#xff08;强哥表情包我就不放了&#xff0c;大家自行脑补&#xff09; 我要让老板知道&#xff0c;招我进来&#xff0c;就要承担一定的风险 既然领导把岗位交给咱&#xff0c;证明这岗位…

short-link笔记

1.Accessors(chain true) (见于Result类的注解) 不写默认为false&#xff0c;当该值为 true 时&#xff0c;对应字段的 setter 方法调用后&#xff0c;会返回当前对象。 -->可用于链式编程 参:Accessors 注解详解-CSDN博客 2.关键信息脱敏 利用将class通过jackon序列化为…

Azure Data Box 80 TB 现已在中国区正式发布

我们非常高兴地宣布&#xff0c;Azure Data Box 80 TB SKU现已在 Azure 中国区正式发布。Azure Data Box 是 Azure 的离线数据传输解决方案&#xff0c;允许您以快速、经济且可靠的方式将 PB 级数据从 Azure 存储中导入或导出。通过硬件传输设备可加速数据的安全传输&#xff0…

Mybtais高级结果映射-多对一表映射

前言 从前我们只进行单表的sql操作&#xff0c;但是如果涉及多张表的操作&#xff0c;原先的映射关系就不太适用了&#xff0c;因此这里将会介绍Mybatis的高级结果映射技巧 准备工作 准备两张数据库表&#xff0c;一个员工表&#xff0c;一个部门表&#xff08;我们使用oracle的…

彻底理解前端模块化

目录 引入历史问题 CommonJSexports导出module.exports导出require导入加载过程缺点 AMD规范&#xff08;基本不用&#xff09;require.js使⽤ CMD规范&#xff08;基本不用&#xff09;SeaJS的使⽤ ES Module简单使用export关键字import关键字export和import结合default⽤法im…

自然语言处理在人工智能领域的发展历程,以及NLP重点模型介绍

大家好&#xff0c;我是微学AI&#xff0c;今天给大家介绍一下自然语言处理在人工智能领域的发展历程&#xff0c;以及NLP重点模型介绍。本文详细介绍了自然语言处理的发展历程&#xff0c;同时深入探讨了各种自然语言处理模型的原理与应用。文章首先回顾了自然语言处理技术的发…

读论文《OmniGen: Unified Image Generation》

OmniGen演示了在单一框架内执行各种图像生成任务的能力。此外&#xff0c;它还具有推理能力和语境学习能力。 论文地址&#xff1a;2409.11340v1 (arxiv.org) 项目地址&#xff1a;GitHub - VectorSpaceLab/OmniGen 项目目前还不完整&#xff0c;论文展现的通用性十分强大&am…

【Java】Java中接口与内部类详解

目录 引言 一、接口&#xff08;Interface&#xff09; 1.1 接口的定义 1.1.1 接口的特点 1.2 接口的实现 1.3 接口的继承 1.4 接口的注意事项 1.5 代码示例 二、内部类&#xff08;Inner Class&#xff09; 2.1 内部类特点 2.2 成员内部类 2.2.1 对象的创建 2.…

基于SpringBoot社区疫情信息管理系统的设计和实现

文未可获取一份本项目的java源码和数据库参考。 选题的意义 保护好人民群众的基本安全&#xff0c;贯彻党的领导下中国一盘棋的基本准则。将病毒隔绝在外&#xff0c;信息系统的存在显得至关重要&#xff0c;应对新型冠状病毒肺炎疫情治理的实践背景。实时关注更新疫情动态&a…

开放式耳机哪个牌子的质量好?2024开放式蓝牙耳机排行榜前5强推荐!

​开放式耳机因其舒适的佩戴感和较小的耳朵损伤而广受好评。曾经让人头疼的漏音问题&#xff0c;随着科技的进步&#xff0c;已经有了显著改善&#xff0c;不再是个大问题。在拥挤的环境中&#xff0c;耳机音量过大不仅会打扰他人&#xff0c;也会让自己感到不适。因此&#xf…

双十一买什么?高性价比数码好物来袭,不心动都难!

​每年的双十一都是一场购物的狂欢盛宴&#xff0c;众多数码好物纷纷推出诱人的折扣。在这琳琅满目的数码产品中&#xff0c;电容笔无疑是一颗格外耀眼的 “星”。无论是学生党用于记录课堂笔记、撰写论文&#xff0c;还是绘画爱好者进行艺术创作、灵感挥洒&#xff0c;电容笔都…

linux -L16-linux 查看应用占用的资源top

linux 查看应用占用的资源top Targetsteps启动 top 命令排序进程&#xff1a;查看特定进程&#xff1a;过滤进程其他常用选项交互式帮助 Target linux 查看应用占用的资源top steps 在 Linux 系统中&#xff0c;top 命令是一个非常有用的工具&#xff0c;它提供了一个实时更…

springframework Ordered接口学习

Ordered接口介绍 完整路径&#xff1a; org.springframework.core.Ordered Ordered 接口是 Spring 框架中的一个核心接口&#xff0c;用于定义对象的顺序。这个接口通常用于需要排序的组件&#xff0c;例如 Spring 中的 Bean、过滤器&#xff08;Filters&#xff09;、拦截器…

SUSCTF2024-Redroid-出题笔记与解题思路

SUSCTF2024-Redroid-出题笔记与解题思路 Step1Step2Step3Step4 描述&#xff1a;题目要求使用安卓13/14系统真机 Step1 Java层的逻辑比较简单&#xff0c;两个Activity MainActivity读并验证password&#xff0c;正确即进入CheckActivity&#xff0c;同时会传递password pass…

铝壳电阻与普通电阻有什么区别?

铝壳电阻和普通电阻是电子元件中常见的两种电阻类型&#xff0c;它们在结构和性能上有一定的区别。铝壳电阻是具有金属外壳的电阻器&#xff0c;其外壳通常由铝合金制成&#xff0c;具有良好的散热性能。而普通电阻则没有金属外壳&#xff0c;只有一层绝缘材料包裹着电阻丝。 …

软件设计之JavaWeb(8)

软件设计之JavaWeb(8) 此篇应在MySQL之后进行学习: 路线图推荐&#xff1a; 【Java学习路线-极速版】【Java架构师技术图谱】 尚硅谷全新JavaWeb教程&#xff0c;企业主流javaweb技术栈 资料可以去尚硅谷官网免费领取 此章节最好学完JDBC观看 学习内容&#xff1a; promiseA…

力扣面试经典150题——合并两个有序数组

目录 题目链接&#xff1a; 题目描述 示例 提示&#xff1a; 解法一&#xff1a;合并数组排序 Java写法&#xff1a; 运行时间 C写法&#xff1a; 运行时间 时间复杂度和空间复杂度 解法二&#xff1a;双指针 Java写法&#xff1a; 运行时间 C写法&#xff1a; 运…

新闻文本分类识别系统Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+TensorFlow+Django网页界面

一、介绍 文本分类识别系统。本系统使用Python作为主要开发语言&#xff0c;首先收集了10种中文文本数据集&#xff08;“体育类”, “财经类”, “房产类”, “家居类”, “教育类”, “科技类”, “时尚类”, “时政类”, “游戏类”, “娱乐类”&#xff09;&#xff0c;然…