自然语言处理|深入解析 PEGASUS:从原理到实践

news2025/3/22 18:31:19

一、引言

在信息爆炸的时代,互联网上的文本数据以极快的速度增长。无论是新闻资讯、学术论文、社交媒体动态,还是各类报告文档,我们每天接触到的文字信息量巨大。如何快速、准确地提取关键内容成为一项重要任务。文本摘要技术通过将长篇文本浓缩为简短的核心信息摘要,大幅提升了信息处理效率。

文本摘要在多个领域具有重要应用。在新闻行业,它能快速生成简讯,帮助读者了解事件概要;在学术研究中,学者可借助其迅速掌握论文核心观点;在企业中,文本摘要能从商务文档中提取关键信息,辅助决策。PEGASUS(Pre-training with Extracted Gap-sentences for Abstractive Summarization)模型是一种高效的文本摘要解决方案,通过独特的预训练方法在下游任务中表现出色。本文将深入探讨其原理、架构、训练方法及应用。

请添加图片描述


二、PEGASUS 是什么

(一)模型诞生背景

在 PEGASUS 出现前,文本摘要领域已有多种方法,但存在局限。早期抽取式摘要模型仅从原文提取句子,简单高效,但摘要缺乏连贯性,无法充分表达核心思想。基于循环神经网络(RNN)的序列到序列(seq2seq)模型引入了抽象式摘要,能生成更自然的摘要,但因梯度消失等问题,难以处理长文本。

Transformer 架构的出现解决了这些问题,通过多头注意力机制并行处理序列,捕捉全局依赖关系。PEGASUS 基于 Transformer 设计,通过创新的预训练方式提升文本摘要性能。

(二)基本概念

PEGASUS 是一种基于 Transformer 的预训练模型,专为文本摘要任务设计。其架构包括编码器解码器:编码器将输入文本转化为特征向量,解码器根据这些向量生成摘要。PEGASUS 的独特之处在于**提取间隙句子(GSG)**预训练方法:从文本中移除重要句子,让模型预测这些句子,从而学习文本核心信息,提升摘要生成能力。


三、PEGASUS 的原理剖析

(一)独特的预训练目标 GSG

PEGASUS 的核心创新在于其预训练目标——间隙句子生成(Gap Sentence Generation,GSG)。与传统预训练语言模型(如 BERT)依赖掩码语言模型(MLM)或下一句预测(NSP)不同,GSG 更贴近文本摘要任务的本质。传统方法主要优化模型对文本的理解能力,而 GSG 则通过模拟摘要生成过程,直接提升模型的生成能力。

GSG 的具体实现是从输入文档中随机选择若干完整句子(通常占总句子数的 15%-30%),将其移除并用特殊标记(如 [MASK1][MASK2] 等)替代。模型的任务是根据剩余文本预测这些被移除的句子。这种方法不仅要求模型理解文本的语义和上下文,还需要其具备提炼关键信息并生成连贯句子的能力。例如,对于一段包含五句话的文本:“句子 1:今天天气晴朗。句子 2:小明决定去公园散步。句子 3:公园里有很多人在放风筝。句子 4:小明遇到了他的朋友小李。句子 5:他们一起度过了愉快的下午。” GSG 可能移除句子 3 和句子 4,输入变为:“句子 1:今天天气晴朗。句子 2:小明决定去公园散步。[MASK1][MASK2] 句子 5:他们一起度过了愉快的下午。” 模型需根据前后文生成“公园里有很多人在放风筝。小明遇到了他的朋友小李。”。

为了进一步优化训练效果,PEGASUS 将被移除的句子拼接成一个“伪摘要”,作为解码器的目标输出。这种设计让模型在预训练阶段就熟悉摘要生成的任务模式。此外,GSG 的灵活性允许调整掩码句子的数量和比例,例如在短文本中掩码 1-2 句,在长文档中掩码更多句子,从而适应不同长度的输入。实验表明,GSG 显著提高了模型在下游摘要任务中的 ROUGE 分数,尤其是在需要高度概括的场景中。
在这里插入图片描述

(二)模型架构

PEGASUS 采用经典的 Transformer 编码器-解码器架构,结合了多头注意力机制的高效性和并行处理能力。编码器由多个 Transformer 块组成,每个块包含多头自注意力(Multi-Head Self-Attention)、前馈神经网络(Feed-Forward Neural Network)和层归一化(Layer Normalization)模块。输入文本首先通过词嵌入层转换为向量表示,随后进入编码器。多头注意力机制通过计算查询(Query)、键(Key)和值(Value)之间的关系,捕捉文本中的长距离依赖。例如,在句子“人工智能在医疗领域大放异彩”中,注意力机制能同时关注“人工智能”和“医疗领域”的语义联系。注意力计算公式为:

Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dk QKT)V

其中 d k d_k dk是键向量的维度,用于缩放防止数值过大。编码器输出的特征向量包含文本的语义和结构信息,作为解码器的输入。

解码器同样由多个 Transformer 块组成,但增加了掩码自注意力(Masked Self-Attention),确保生成过程中只依赖之前的输出词。解码器通过交叉注意力(Cross-Attention)机制与编码器输出交互,关注输入文本的关键部分。例如,在生成摘要“人工智能优化医疗诊断”时,解码器会重点关注编码器中与“人工智能”和“医疗”相关的特征。生成过程采用自回归方式,每次预测一个词,直至遇到结束标记 <EOS>。PEGASUS 在此基础上优化了参数配置,如调整注意力头数(通常为 12 12 12 16 16 16)和隐藏层维度(如 768 768 768 1024 1024 1024),以平衡性能和计算效率。

此外,PEGASUS 支持束搜索(Beam Search)解码,通过保留多个候选序列(如 beam size = 5)提高生成摘要的质量。相比贪婪解码,束搜索能更好地避免局部最优解,使摘要更连贯、自然。

(三)句子选择策略

GSG 的有效性依赖于被掩码句子的选择,PEGASUS 提供了三种策略:RandomLeadInd-Orig,并在不同场景中各有优劣。

  1. Random(随机选择)
    该策略从文档中均匀随机挑选 m m m 个句子进行掩码。例如,一篇 10 10 10 句的文档,设 m = 3 m = 3 m=3,则随机选择 3 3 3 句移除。优点是实现简单,能覆盖文本的不同部分;缺点是可能选中次要句子,降低模型对关键信息的学习效率。为缓解这一问题,可通过增大掩码比例(如 30%)增加重要句子被选中的概率,但这会提高计算成本。

  2. Lead(前 m m m 句选择)
    Lead 策略选择文档开头的前 m m m 个句子,基于新闻或论文中关键信息常集中于开头的假设。例如,一篇新闻报道的前 3 句可能包含事件的时间、地点和主体。优点是适用于信息分布偏前的文本;缺点是忽略了后文可能的重要信息,尤其在叙述性或论证性文档中效果有限。实验中,Lead 在新闻数据集(如 CNN/Daily Mail)上表现良好,但在学术论文摘要任务中逊于其他策略。

  3. Ind-Orig(基于重要性分数选择)
    Ind-Orig 策略通过计算句子重要性选择掩码对象,采用 ROUGE 分数作为评估标准。ROUGE-N 计算生成的摘要与参考文本的 ( n )-gram 重叠率,公式为:

    ROUGE-N = ∑ S ∈ { 参考摘要 } ∑ gram n ∈ S Count match ( gram n ) ∑ S ∈ { 参考摘要 } ∑ gram n ∈ S Count ( gram n ) \text{ROUGE-N} = \frac{\sum_{S \in \{\text{参考摘要}\}} \sum_{\text{gram}_n \in S} \text{Count}_{\text{match}}(\text{gram}_n)}{\sum_{S \in \{\text{参考摘要}\}} \sum_{\text{gram}_n \in S} \text{Count}(\text{gram}_n)} ROUGE-N=S{参考摘要}gramnSCount(gramn)S{参考摘要}gramnSCountmatch(gramn)

    在此,PEGASUS 计算每个句子与文档其余部分的 ROUGE-1ROUGE-2 分数,分数越高表明该句子越能代表文档核心内容。例如,在一篇科技文章中,描述主要创新的句子通常与其他句子有更高重叠。选择得分最高的前 ( m ) 个句子进行掩码,确保模型聚焦关键信息。实验验证,Ind-Orig 在多样化数据集(如 XSum、Multi-News)上表现最佳,因其能动态适应文本结构。

此外,PEGASUS 允许结合多种策略。例如,在预训练初期使用 Random 增加泛化能力,后期切换至 Ind-Orig 强化对关键信息的学习。这种混合策略进一步提升了模型的鲁棒性。研究还探索了基于 TF-IDF 或 PageRank 的句子重要性评估方法,但 ROUGE 的简单性和有效性使其成为首选。


四、PEGASUS 的优势展现

(一)强大的语言理解与生成能力

PEGASUS 在处理复杂文本时表现出色。以量子计算领域学术论文摘要生成为例,面对涉及高深理论和复杂实验的论文,PEGASUS 凭借独特的编码器 - 解码器架构和预训练目标,能理解专业术语、理论推导及实验结果分析等关键信息,精准提炼核心观点,如新型量子算法、关键数据和重要突破等,生成逻辑连贯、语言流畅的摘要。和人类生成的摘要比,其内容涵盖主要要点,语言自然,能帮读者快速把握关键,节省阅读时间。

(二)低资源下的卓越性能

在低资源场景下,PEGASUS 表现同样出色。实验数据显示,在文本摘要任务中,标注样本极少(如仅 1000 个)时,许多传统模型性能大幅下降,摘要质量难满足需求。而 PEGASUS 凭借创新预训练方式,能充分利用有限标注数据学习和微调。在对包含多领域的低资源数据集实验时,PEGASUS 仅用 1000 个样本微调,在多个数据集上 ROUGE 分数超之前最先进结果,展现出少量数据下良好适应性和泛化能力。这意味着实际应用中获取大量标注数据困难时,PEGASUS 仍能提供高质量文本摘要服务,拓展了应用范围和实用性。

(三)开箱即用与便捷的训练推理流程

PEGASUS 基于 FasterGeneration 推理加速,能快速生成文本摘要。实际应用中,用户输入待摘要文本就能迅速获得结果,提升工作效率。它还提供全面定制训练流程,涵盖数据准备到模型推理部署。开发者可按需和数据特点对模型训练优化,如在特定领域文本摘要任务中用领域数据微调,让其生成更贴合需求的摘要。这种便捷的训练推理流程降低应用门槛,推动文本摘要技术在更多领域广泛应用。


五、PEGASUS 应用领域与案例

(一)新闻领域

在新闻行业,信息快速传播和准确呈现至关重要。许多媒体机构用 PEGASUS 自动生成新闻稿件摘要,提升了新闻编辑和发布效率。某知名国际新闻媒体每天接收海量多领域新闻素材,此前编辑手动提取关键信息写摘要,耗时费力,突发新闻集中时难以快速处理。​

引入 PEGASUS 模型后情况改善,它能快速处理大量新闻文本,生成准确简洁摘要。比如国际政治会议报道,PEGASUS 可提取关键信息,生成涵盖核心内容、语言流畅的摘要,满足快速发布传播需求。据该媒体统计,使用 PEGASUS 后,新闻稿件从接收至发布时间平均缩短 30%,读者点击率和阅读完成率显著提升,这表明 PEGASUS 既提高了新闻生产效率,又提升了新闻内容质量和吸引力。

(二)客服通话分析

客服中心是企业与客户沟通的重要桥梁,每天产生大量通话记录。对通话文本有效分析处理,能助企业了解客户需求、提升服务质量。PEGASUS 用于提取通话文本摘要,给客服工作带来便利。​

以大型电商企业客服中心为例,以往客服处理完电话需手动记录客户诉求和问题,不仅增加工作负担,还因人工记录主观性和不规范性,易遗漏或误解关键信息。现在将 PEGASUS 应用于客服通话分析系统,通话结束后系统能立即对语音转文字文本提取摘要。如客户反映商品质量问题要求退换货,PEGASUS 可准确提取商品名称、订单编号等关键信息并简洁呈现给客服,提高处理效率和准确性。据统计,应用 PEGASUS 后,客服处理单个客户问题平均时间缩短 20%,客户满意度提升 15 个百分点。

(三)文档处理

在学术研究、企业办公等场景中,常需处理大量篇幅长、内容复杂的文档,快速获取核心信息是挑战。PEGASUS 在文档处理方面的应用,为解决此问题提供有效途径。​

学术研究中,科研人员阅读大量论文,手动提取关键信息耗时费力,用 PEGASUS 输入论文文本就能快速获得含研究目的、方法、主要结论等关键内容的摘要,提高文献阅读和筛选效率。​

企业办公场景也有类似需求。如跨国企业战略决策时需参考大量文档,内容繁杂,决策层难短时间了解关键信息。应用 PEGASUS 对文档自动摘要处理,转化为简洁摘要报告,为决策层提供快速准确信息支持,辅助科学决策。


六、使用 PEGASUS 的实操指南

(一)环境搭建

在使用 PEGASUS 进行文本摘要任务之前,需要确保环境满足一定的条件。首先,Python 是必不可少的,建议使用 Python 3.6 及以上版本,因为这个版本以上的 Python 在语法和性能上都有更好的表现,能够更好地支持 PEGASUS 相关的代码运行 。

其次,相关依赖库的安装也至关重要。主要依赖库包括transformers,它是 Huggingface 提供的一个强大的自然语言处理工具库,包含了各种预训练模型和工具,PEGASUS 模型也在其中 。可以使用pip install transformers命令进行安装。另外,torch库也是必需的,它是一个广泛应用于深度学习的框架,PEGASUS 模型基于torch进行构建和运行。根据自己的系统和硬件配置,选择合适的torch版本进行安装,例如在支持 CUDA 的 GPU 环境下,可以安装带有 CUDA 支持的torch版本,以加速模型的训练和推理过程。

  • Python:3.6+ 版本。
  • 依赖库:安装命令如下:(这里假设 CUDA 版本为 11.7,具体根据实际情况调整) 。
  pip install transformers torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117

(二)模型加载与调用

借助 Huggingface 的 transformers 库,可以方便地加载和调用 PEGASUS 模型。以下是一个简单的代码示例:

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# 加载预训练的PEGASUS模型和分词器
tokenizer = AutoTokenizer.from_pretrained("google/pegasus-xsum")
model = AutoModelForSeq2SeqLM.from_pretrained("google/pegasus-xsum")

# 待摘要的文本
text = "这是一篇很长的文章,包含了许多信息,比如关于人工智能的最新发展趋势,以及在医疗、交通等领域的应用。人工智能在医疗领域可以辅助医生进行疾病诊断,提高诊断的准确性;在交通领域,能够优化交通流量,减少拥堵。"

# 对文本进行编码
input_ids = tokenizer.encode(text, return_tensors='pt')

# 生成摘要
outputs = model.generate(input_ids)

# 解码生成的摘要
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(summary)

在上述代码中:

  • 首先通过 AutoTokenizer.from_pretrained 方法加载预训练的 PEGASUS 分词器,分词器的作用是将输入的文本转换为模型能够处理的数字序列。
  • 然后使用 AutoModelForSeq2SeqLM.from_pretrained 方法加载预训练的 PEGASUS 模型 。
  • 接着对待摘要的文本进行编码,将其转换为模型可以接受的输入格式。
  • 最后,通过模型的 generate 方法生成摘要,并使用分词器的 decode 方法将生成的数字序列转换回文本形式,得到最终的摘要结果 。

(三)训练与微调

根据特定任务对 PEGASUS 模型进行训练和微调,可以进一步提升模型在该任务上的性能 。首先是数据准备阶段,需要收集与任务相关的文本数据,并将其整理成合适的格式。例如,对于新闻摘要任务,可以收集大量的新闻文章及其对应的人工撰写的摘要,将每篇新闻文章作为输入文本,对应的摘要作为目标文本 。数据通常需要进行预处理,包括清洗(去除噪声、特殊字符等)、分词等操作。可以使用 NLTK、spaCy 等工具进行文本清洗和分词,也可以使用 transformers 库中的分词器进行统一的分词处理 。

在参数设置方面,需要根据任务的特点和数据规模进行合理的调整。常见的参数包括学习率(learning rate),它控制着模型在训练过程中参数更新的步长,一般设置在 0.0001 - 0.001 之间,例如对于 PEGASUS 模型在一些文本摘要任务的微调中,学习率设置为 0.0003 时能够取得较好的效果 。批次大小(batch size)决定了每次训练时输入模型的样本数量,较大的批次大小可以加快训练速度,但可能会导致内存不足,通常根据硬件条件设置为 16、32 等,在 GPU 内存充足的情况下,可以设置为 64 以提高训练效率 。训练轮数(epochs)表示模型对整个训练数据进行训练的次数,一般设置在 3 - 10 次之间,具体需要通过实验来确定最优值 。例如在对 PEGASUS 进行特定领域的文本摘要微调时,经过多次实验发现,当学习率为 0.0003,批次大小为 32,训练轮数为 5 时,模型在该领域的摘要生成任务上表现最佳 。

下面是一个使用 Huggingface 的 transformers 库进行 PEGASUS 模型微调的简单示例代码:

from transformers import PegasusForConditionalGeneration, PegasusTokenizer
from datasets import load_dataset
from transformers import TrainingArguments, Trainer

# 加载预训练的PEGASUS模型和分词器
tokenizer = PegasusTokenizer.from_pretrained("google/pegasus-xsum")
model = PegasusForConditionalGeneration.from_pretrained("google/pegasus-xsum")

# 加载自定义数据集,这里假设数据集格式为有'text'(原文)和'summary'(摘要)字段
dataset = load_dataset('your_dataset_name', split='train')

def preprocess_function(examples):
    inputs = examples["text"]
    targets = examples["summary"]
    model_inputs = tokenizer(inputs, max_length=512, truncation=True)

    # Setup the tokenizer for targets
    with tokenizer.as_target_tokenizer():
        labels = tokenizer(targets, max_length=128, truncation=True)

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

tokenized_dataset = dataset.map(preprocess_function, batched=True)

# 定义训练参数
training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=3,
    per_device_train_batch_size=16,
    save_steps=10_000,
    save_total_limit=2,
)

# 初始化Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset
)

# 开始训练
trainer.train()

在这个示例中,首先加载预训练的 PEGASUS 模型和分词器,然后加载自定义的数据集 。preprocess_function 函数对数据集中的样本进行预处理,将输入文本和目标摘要进行编码,并将编码后的目标摘要作为标签 。接着使用 TrainingArguments 定义训练参数,包括输出目录、训练轮数、批次大小等 。最后,通过 Trainer 类进行模型的训练 。


七、挑战与局限思考

(一)特定领域数据适应性问题

PEGASUS 在通用领域文本摘要任务表现出色,但面对特定领域文本存在适应性不足问题。不同领域文本有独特风格、术语和知识背景,PEGASUS 预训练基于通用语料库,对专业知识覆盖不全,处理时易抓不准关键信息、误解术语。虽可用领域专业数据微调提升性能,但获取大量高质量标注数据困难且昂贵,限制其在小众或专业领域应用,且微调后面对复杂场景仍需优化改进。

(二)生成摘要的准确性和逻辑性

PEGASUS 生成摘要时虽能捕捉关键信息,但存在不足。当原始文本含复杂逻辑关系,如因果、转折、并列等,它可能无法准确理解与表达,导致摘要逻辑不连贯甚至信息错误。比如在关于科技对环境影响的文章中,它生成的摘要可能仅罗列内容,未表达内在联系,逻辑性和完整性欠佳。此外,PEGASUS 还受文本长度、噪声影响。文本过长,模型难以全面处理,导致摘要丢失关键内容;文本有噪声(错别字、语法错误、无关信息等)时,生成摘要质量也会受影响。

(三)未来发展方向

为克服 PEGASUS 目前挑战,未来研究可从几方面展开。一方面,改进预训练方式,如在预训练阶段引入更多领域特定语料库或设计专门任务,增强模型对专业知识的理解与掌握。另一方面,优化模型生成摘要的逻辑性和准确性,改进模型架构,引入逻辑推理模块,结合语义理解技术和知识图谱,提供背景知识。同时,研究处理长文本和噪声数据,提高模型鲁棒性和适应性,不断探索创新,提升 PEGASUS 在文本摘要任务中的性能和应用价值。


八、未来展望

未来,PEGASUS 在文本摘要领域前景广阔、潜力无限。随着技术进步创新,PEGASUS 有望在多方向突破发展。​

在模型改进上,研究人员可能优化架构与预训练方式,比如探索更强注意力机制,开发新预训练任务,结合知识图谱等技术,提升性能与摘要质量。​

PEGASUS 与其他技术融合也是发展方向,如与计算机视觉、语音识别技术结合,还能与强化学习、迁移学习等人工智能分支领域结合,提高泛化与适应能力。​

在应用领域,PEGASUS 有望在金融、医疗、教育等多行业广泛应用,也可用于智能家居、智能客服等领域,带来便利与价值。​

PEGASUS 作为重要文本摘要模型,未来发展空间巨大,通过技术创新与应用拓展,将为处理和理解海量文本提供强大支持,推动自然语言处理技术在各领域深入发展。


九、结语

PEGASUS 是文本摘要领域的优秀模型,凭借独特预训练目标、强大架构和出色性能,在众多场景展现巨大价值与潜力,为处理海量文本提供高效方案,推动自然语言处理技术应用发展。虽存在挑战和局限,但随研究深入与技术进步有望解决。未来它将在更多领域广泛应用,带来便利。若对文本摘要技术感兴趣,可尝试使用 PEGASUS 模型体验其强大功能。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2319119.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring AI Alibaba快速使用

AI 时代&#xff0c;Java 程序员也需要与时俱进&#xff0c;这两个框架必须掌握。 一个是 Spring AI一个是 Spring Alibaba AI。 Spring AI 是一个AI工程领域的应用程序框架&#xff0c;它的目标是将 Spring生态系统的设计原则应用于人工智能领域。 但是&#xff0c; Spring…

socks 协议介绍

SOCKS协议详解 一、基本定义与核心功能 SOCKS&#xff08;Socket Secure&#xff09;是一种网络传输协议&#xff0c;主要用于通过代理服务器转发客户端与目标服务器之间的通信请求。其核心功能包括隐藏用户真实IP地址、穿透防火墙限制以及支持多种网络协议&#xff08;如TCP…

Linux --centos安装显卡驱动

显卡下载页面 https://www.nvidia.com/en-us/drivers/unix/ 随便下载一个即可 安装过程 查看当前设备的显卡信息 lspci | grep -i vga安装gcc相关依赖 yum update -y yum update gcc yum install build-essential yum install gcc-multilibdkms yum groupinstall "Dev…

统信UOS中使用Vscode编程

写在前面&#xff1a;统信UOS其实就是套壳的Linux系统&#xff0c;所以有问题如果搜不到解决方法&#xff0c;可以参考Linux下的解决方法。 1.环境配置 Vscode : 1.85.0 Vscode就直接下载安装就行&#xff0c;然后安装插件&#xff1a;Volar、中文汉化包 node&#xff1a;18…

docker安装向量数据库Milvus及可视化工具 Attu

前置条件 1.安装了docker 2.服务器网络正常&#xff0c;可以连接到容器下载地址 3.服务器磁盘空间正常&#xff0c;docker磁盘占用过大&#xff0c;请参考docker容量占用过大解决办法 一、下载yml文件 可在文章资源下载或者自行下载&#xff1a;下载yml 下载这个单机版本的…

DeepSeek + Kimi 自动生成 PPT

可以先用deepseek生成ppt大纲&#xff0c;再把这个大纲复制到Kimi的ppt助手里&#xff1a; https://kimi.moonshot.cn/kimiplus/conpg18t7lagbbsfqksg 选择ppt模板&#xff1a; 点击生成ppt就制作好了。

Apache Paimon 在抖音集团多场景中的优化实践

资料来源&#xff1a;火山引擎-开发者社区 本文将基于抖音集团内部两大业务的典型实时数仓场景&#xff0c;介绍Paimon在抖音集团内部的生产实践。 作者&#xff1a;李明、苏兴、文杰 抖音集团大数据工程师 目前抖音集团内部主要使用 Lambda 架构进行实时数仓建设&#xff0c;其…

当下主流 AI 模型对比:ChatGPT、DeepSeek、Grok 及其他前沿技术

&#x1f4dd;个人主页&#x1f339;&#xff1a;一ge科研小菜鸡-CSDN博客 &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; 1. 引言 人工智能&#xff08;AI&#xff09;领域近年来取得了巨大的突破&#xff0c;特别是在大语言模型&#xff08;LLM&#…

【自用】NLP算法面经(5)

一、L1、L2正则化 正则化是机器学习中用于防止过拟合并提高模型泛化能力的技术。当模型过拟合时&#xff0c;它已经很好地学习了训练数据&#xff0c;甚至是训练数据中的噪声&#xff0c;所以可能无法在新的、未见过的数据上表现良好。 比如&#xff1a; 其中&#xff0c;x1和…

体育直播视频源格式解析:M3U8 vs FLV

在体育直播领域&#xff0c;视频源的格式选择直接影响着直播的流畅度、画质以及兼容性。目前&#xff0c;M3U8 和 FLV 是两种最为常见的视频流格式&#xff0c;它们各有优劣&#xff0c;适用于不同的场景。本文将从技术原理、优缺点以及应用场景等方面对 M3U8 和 FLV 进行详细解…

Ubuntu20.04安装并配置Pycharm2020.2.5

一. 下载pycharm 社区版 1. 下载地址&#xff1a; PyCharm: the Python IDE for data science and web developmentThe Python IDE for data science and web development with intelligent code completion, on-the-fly error checking, quick-fixes, and much more.https:/…

Filter Solutions学习-02 【高级设计】界面介绍

这是高级界面的各种控件的功能。 其中说一下filter type。这不是根据自己想当然决定的&#xff0c;而是根据实际的需要&#xff0c;比如带外衰减的程度&#xff0c;带内波动&#xff08;平坦&#xff09;如何&#xff0c;还有群时延等等决定的。比如不要求矩形系数选什么。。 …

用Python实现交互式数据可视化:从基础图表到动态仪表板

用Python实现交互式数据可视化&#xff1a;从基础图表到动态仪表板 一、项目背景 本文将通过一个完整的Python项目&#xff0c;展示如何使用Plotly和ipywidgets构建从基础统计到动态交互的全栈数据可视化方案。 二、核心功能模块 1. 数据生成与预处理 np.random.seed(100)…

【深度学习与大模型基础】第6章-对角矩阵,对称矩阵,正交矩阵

一、对角矩阵 对角矩阵&#xff08;Diagonal Matrix&#xff09;是一种特殊的方阵&#xff0c;其非对角线上的元素均为零&#xff0c;只有对角线上的元素可能非零。具体来说&#xff0c;对于一个 nn的矩阵 A[]&#xff0c;如果满足 则 AA 称为对角矩阵。对角矩阵通常表示为&am…

初识R语言饼状图

目录 基础饼图 标签个性化 边界修改 密度条纹 边框颜色 基础饼图 rm(list ls())# Create Data Prop <- c(3,7,9,1,2) # Make the default Pie Plot P1 <- pie(Prop) dev.off() 标签个性化 P2 <-pie(Prop , labels c("Gr-A","Gr-B","…

Spring MVC 拦截器使用

javaweb过滤器和springmvc拦截器&#xff1a; 拦截器的概念 拦截器使用 1/创建拦截器类&#xff0c;类中实现 handler执行前&#xff0c;执行后与渲染视图后的具体实现方法 public class GlobalExceptionHandler implements HandlerInterceptor {// if( ! preHandler()){re…

汽车机械钥匙升级一键启动的优点

汽车机械钥匙升级一键启动的优点主要包括&#xff1a; 便捷性&#xff1a;一键启动功能的引入极大地提升了用车便捷性。车主无需翻找钥匙&#xff0c;只需在车辆感应范围内轻触启动键&#xff0c;即可轻松发动汽车。 安全性&#xff1a;移动管家专车专用一键启动系统配备了防…

中小企业如何低成本构建高效专属网络?

对于许多中小企业管理者而言&#xff0c;构建一套安全、灵活且可扩展的专网系统是数字化转型的“必修课”。本文将从实际业务场景出发&#xff0c;拆解企业组网的核心步骤&#xff0c;并提供可落地的实施方案建议&#xff0c;帮助您快速匹配适合自身需求的网络服务商。 一、组网…

【C++】 —— 笔试刷题day_6

刷题day_6&#xff0c;继续加油哇&#xff01; 今天这三道题全是高精度算法 一、大数加法 题目链接&#xff1a;大数加法 题目解析与解题思路 OK&#xff0c;这道题题目描述很简单&#xff0c;就是给我们两个字符串形式的数字&#xff0c;让我们计算这两个数字的和 看题目我…

pytorch 网络结构可视化Netron安装使用方法(已解决)

首先 要把保存的训练模型 转为onnx格式的文件&#xff0c;然后打开下面的链接&#xff0c;选择刚刚转的onnx文件。 下载 Netron&#xff1a; 您可以访问 Netron 的官方网站 在线使用&#xff0c;或者下载桌面版本。 mnist_cnn_model.onnx 确定后&#xff0c; 2、TensorRT学习…