Transformer学会有手就行?这本 Transformer自然语言处理实战 书无敌了

news2024/10/24 7:27:01

在人工智能领域,Transformer架构、大模型是当下最激动人心的话题之一。它们不仅推动了技术的极限,还重新定义了我们与机器交互的方式。Transformer模型最初由Google的研究人员在2017年提出,它是一种基于自注意力机制的深度学习模型,今天就给大家推荐一本学Transformer的一本好书! 就是下面这本:《Transformer自然语言处理实战》
在这里插入图片描述
本书涵盖了Transformer在NLP领域的主要应用。首先介绍Transformer模型和Hugging Face 生态系统。然后重点介绍情感分析任务以及Trainer API、Transformer的架构,并讲述了在多语言中识别文本内实体的任务,以及Transformer模型生成文本的能力,还介绍了解码策略和度量指标。

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

作者简介

Lewis Tunstall是Hugging Face机器学习工程师,致力于为NLP社区开发实用工具,并帮助人们更好地使用这些工具。

Leandro von Werra是Hugging Face机器学习工程师,致力于代码生成模型的研究与社区推广工作。

Thomas Wolf是Hugging Face首席科学官兼联合创始人,他的团队肩负着促进AI研究和普及的使命。
在这里插入图片描述

书籍目录

  • 版权信息 3
  • O’Reilly Media, Inc.介绍 2
  • 业界评论 5
  • 本书赞誉 2
  • 序 2
  • 前言 2
  • 致谢 18

第1章 欢迎来到Transformer的世界 2

  • 1.1 编码器-解码器框架 23
  • 1.2 注意力机制 26
  • 1.3 NLP的迁移学习 29
  • 1.4 Hugging Face Transformers库:提供规范化接口 34
  • 1.5 Transformer应用概览 35
  • 1.6 Hugging Face生态系统 42
  • 1.7 Transformer的主要挑战 47
  • 1.8 本章小结 49

第2章 文本分类 2

  • 2.1 数据集 53
  • 2.2 将文本转换成词元 63
  • 2.3 训练文本分类器 73
  • 2.4 本章小结 96

第3章 Transformer架构剖析 2

  • 3.1 Transformer架构 100
  • 3.2 编码器 104
  • 3.3 解码器 123
  • 3.4 认识Transformer 127
  • 3.5 本章小结 136

第4章 多语言命名实体识别 2

  • 4.1 数据集 140
  • 4.2 多语言Transformer 146
  • 4.3 多语言词元化技术 148
  • 4.4 命名实体识别中的Transformers 152
  • 4.5 自定义Hugging Face Transformers库模型类 155
  • 4.6 NER的词元化 162
  • 4.7 性能度量 166
  • 4.8 微调XLM-RoBERTa 168
  • 4.9 错误分析 171
  • 4.10 跨语言迁移 180
  • 4.11 用模型小部件进行交互 188
  • 4.12 本章小结 189

第5章 文本生成 2

  • 5.1 生成连贯文本的挑战 194
  • 5.2 贪婪搜索解码 198
  • 5.3 束搜索解码 203
  • 5.4 采样方法 208
  • 5.5 top-k和核采样 211
  • 5.6 哪种解码方法最好 215
  • 5.7 本章小结 216

第6章 文本摘要 2

  • 6.1 CNN/DailyMail数据集 219
  • 6.2 文本摘要pipeline 221
  • 6.3 比较不同的摘要 226
  • 6.4 度量生成文本的质量 229
  • 6.5 在CNN/DailyMail数据集上评估PEGASUS 237
  • 6.6 训练摘要模型 240
  • 6.7 本章小结 249

第7章 构建问答系统 2

  • 7.1 构建基于评论的问答系统 253
  • 7.2 评估并改进问答pipeline 282
  • 7.3 生成式问答 301
  • 7.4 本章小结 305

第8章 Transformer模型调优 2

  • 8.1 以意图识别为例 309
  • 8.2 创建性能基准 312
  • 8.3 通过知识蒸馏减小模型大小 319
  • 8.4 利用量化技术使模型运算更快 337
  • 8.5 基准测试量化模型 345
  • 8.6 使用ONNX和ONNX Runtime进行推理优化 346
  • 8.7 使用权重剪枝使模型更稀疏 354
  • 8.8 本章小结 360

第9章 零样本学习和少样本学习 2

  • 9.1 构建GitHub issue标记任务 365
  • 9.2 基线模型 376
  • 9.3 零样本学习 381
  • 9.4 少样本学习 393
  • 9.5 利用无标注数据 417
  • 9.6 本章小结 427

第10章 从零训练Transformer模型 2

  • 10.1 如何寻找大型数据集 431
  • 10.2 构建词元分析器 445
  • 10.3 从零训练一个模型 461
  • 10.4 结果与分析 481
  • 10.5 本章小结 487

第11章 未来发展趋势 2

  • 11.1 Transformer的扩展 490
  • 11.2 其他应用领域 501
  • 11.3 多模态的Transformer 510
  • 11.4 继续前行的建议 521

关于作者 2

关于封面 2

推荐阅读 2

书籍内容:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2212933.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4K变倍镜头特点

1、高分辨率成像: ① 能够呈现清晰、细腻的图像,可清晰快速地识别出被测物体的微小细节、特征以及潜在的缺陷等。例如在芯片外观瑕疵检测中,能清晰地分辨出芯片上的刮痕、污渍、破损、引脚缺失等问题。 ② 相比传统的变倍镜头,在…

【华为】配置NAT访问互联网

1.AR1: int g0/0/0 ip ad 64.1.1.2 255.255.255.0 int g0/0/1 ip ad 110.242.68.1 255.255.255.02.AR2: (1)配置端口ip: int g0/0/1 ip ad 10.3.1.2 255.255.255.0 int g0/0/0 ip ad 64.1.1.1 255.255.255.0(2)配置默认路由: ip route-static 0.0.0.0 0.…

JavaWeb之监听器

在JavaWeb开发中,常见的监听器(Listener)用于监听Web应用程序、会话(Session)、请求(Request)的生命周期或属性的变化。 应用域监听器: 应用域监听器(也称为ServletCon…

2023年中国环境统计年鉴(EXCEL)

2023年中国环境统计年鉴(EXCEL) 1、时间:2023年 2、《Z国环境统计年鉴》是一本重要的年度参考资料,全面反映了Z国的环境状况与发展趋势。本年鉴收集整理了大量来自各级环境保护部门、科研机构以及相关领域的数据和统计信息,内容涵盖了大气、…

APB接口协议

APB 简介信号传输时序WriteWrite stobesReadError responseWrite transferRead transferMapping of PSLVERRProtection unit support 状态机 简介 APB(Advanced Peripheral Bus)是AMBA总线的一部分,从1998年第一版至今共有3个版本。 AMBA2 …

【专题】计算机网络概述

1. 计算机网络的作用及其发展史 1.1. 计算机网络的作用 二十一世纪的一些重要特征就是数字化、网络化和信息化,它是一个以网络为核心的信息时代。 网络现在已经成为信息社会的命脉和发展知识经济的重要基础。 信息时代以网络为核心。 (1) 网络 “网络”是一个统称…

UE4 材质学习笔记10(程序化噪波/覆雪树干着色器/岩层着色器)

一.程序化噪波 柏林噪波是一种能生成很好的随机图案的算法,它是一个无限的、不重复的图案,可以采用这种基础图案并以多种方式对其进行修改, 将它缩放并进行多次组合,就可以创建一个分形图案。这些组合的缩放等级称为一个Octave 这…

ArrayList和顺序表(下)

1. Java本身提供的ArrayList 在ArrayList和顺序表(上)那一节里面,我们自己实现了ArrayList的底层大部分代码,在这个基础上,我们就可以开始来了解Java本身提供的ArrayList. 1.1 ArrayList的三种构造方法 方法解释ArrayList()无参构造ArrayList(Collection<? extends E > …

‌ComfyUI 高级实战:实现华为手机的AI消除功能

大家好&#xff0c;我是每天分享AI应用的萤火君&#xff01; 不知道大家是否还记得华为 Pura 70的「AI消除」事件&#xff0c;当时使用 华为Pura 70 系列手机的智能消除功能时&#xff0c;该功能可以被用来消除照片中女性胸口处的衣物&#xff0c;这一功能曾引发广泛的关注和伦…

OpenAI Canvas最新发布,编程和写作迎来全新史诗级加强!

文章目录 零、前言一、GPT-40 with canvas操作指导写作领域加强建议编辑调整长度阅读水平添加最后的润色添加表情 编程领域加强选中代码问问题添加评论&#xff08;添加注释&#xff09;添加日志转换语言代码审查 二、感受 零、前言 最新消息&#xff0c;国庆期间OpenAI有大动…

使用管理员删除垃圾文件

1、先设置为管理员权限 2、执行删除文件命令 使用&#xff1a;del /f /s /q “文件夹位置”例如&#xff1a;del /f /s /q "C:\Program Files (x86)\my_code\.git"

2024深圳秋季糖酒会参会攻略!建议收藏

10月29日-31日&#xff0c;第111届全国糖酒商品交易会将在深圳国际会展中心&#xff08;宝安&#xff09;举办。本届糖酒会将邀请来自超四十个国家和地区的超4200家行业厂商和20万国内外专业观众到会交易交流&#xff0c;为食品酒类行业搭建一个集展示、交易、交流、合作于一体…

IP- guard产品版本升级指引详解

一、IP-guard服务器升级步骤 1、下载升级包(IPgUpgrade版本号.zip) 到IP-guard服务器 2、解压升级包,右键以管理员身份运行 (1)“升级包”解压 (2)右键以管理员身份运行“升级包” ࿰

报表工具如何助力企业报表开发?如何选择最适合的报表工具?一篇文章统统解答!

在当今瞬息万变的商业格局中&#xff0c;企业信息化建设已成为驱动业务飞跃与增强核心竞争力的核心引擎。然而&#xff0c;伴随业务数据的井喷式增长&#xff0c;企业在数据治理与价值挖掘方面遭遇了前所未有的挑战。数据孤岛、处理流程冗长、对业务动态调整反应迟缓&#xff0…

Leetcode 分割等和子集

这段代码的目的是解决 LeetCode 416 问题&#xff1a;分割等和子集&#xff0c;即判断一个只包含正整数的数组&#xff0c;是否能够将其分割成两个子集&#xff0c;使得这两个子集的元素和相等。 算法思想&#xff08;动态规划 - 背包问题&#xff09; 该问题本质上是一个经典…

Facebook减肥产品广告投放攻略

有不少刚开始投放facebook广告的小伙伴会感到疑惑&#xff0c;为什么别人的减肥产品跑的风生水起&#xff0c;销量羡煞旁人&#xff0c;自己的广告要不就是被拒要不就是没有流量&#xff0c;甚至还可能被封号&#xff0c;如果你也有这样的困扰&#xff0c;那一定要看完这篇文章…

组合式API有什么好处

什么是组合式API&#xff1f; 组合式 API (Composition API) 是一系列 API &#xff08;响应式API、生命周期钩子、依赖注入&#xff09;的集合。它不是函数式编程&#xff0c;组合式 API 是以 Vue 中数据可变的、细粒度的响应性系统为基础的&#xff0c;而函数式编程通常强调…

使用Python进行Web开发的15个框架指南

引言 在Python Web开发领域&#xff0c;有许多不同类型的框架可供选择&#xff0c;从轻量级到全功能型&#xff0c;再到专注于异步处理的框架。本文将介绍多个Python Web框架&#xff0c;帮助开发者根据具体需求选择合适的工具。 1.Flask&#xff1a;轻量级Web框架 Flask是一…

【C语言】深入理解指针(三)(下)

本篇文章将讲解以下知识&#xff1a; 1、二维数组传参的本质 2、函数指针变量 3、函数指针数组 1、二维数组传参的本质 有了数组指针的理解&#xff0c;我们就能弄清楚二维数组传参的本质了 例如&#xff1a; 在一维数组中&#xff0c;数组名是数字首元素的地址。但有两个例外…

【进阶OpenCV】 (10)--光流估计--->描绘运动物体轨迹

文章目录 光流估计一、基本原理二、计算步骤三、实现步骤1. 处理第一帧2. 寻找特征点3. 创建全零掩膜4. 流光估计函数介绍5. 主循环处理视频的每一帧5.1 流光估计5.2 绘制轨迹5.3 生成最终图像5.4 更新旧灰度图和旧特征点 6. 释放资源 总结 光流估计 光流估计是计算机视觉中的…