阿里云X森马 AIGC T恤设计大赛;SD新手入门完全指南;揭秘LLM训练中的数学;LLM高质量阅读清单 | ShowMeAI日报

news2025/1/24 8:47:03

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!

🤖 阿里云X森马 | AIGC T 恤设计大赛,函数计算玩转 Stable Diffusion

比赛官网:https://developer.aliyun.com/adc/series/activity/aigc_design

阿里云携手服装品牌森马,推出了本次 AIGC T 恤设计大赛。开发者、设计师、AI绘画爱好者,都可以使用阿里云函数计算快速部署 Stable Diffusion,以「宇宙漫游」为主题,进行AI创作并投递作品。

参与即有机会获得 Airpods、阿里云X森马联名T恤、森马定制旅行箱、森马无门槛代金券等丰厚奖励,所有作品均有机会被森马选中并购买版权成为下一季服装图案主题。

需要注意的是,大赛自8月21日开启作品征集,到9月21日截止上传,并在9月28日公布获奖信息。注意时间哦~

🤖 Meta推出开源模型「SeamlessM4T」,能翻译和转录近百种语言

8月22日,Meta 宣布推出人工智能多模态模型「SeamlessM4T」,能够直接翻译35种语言的语音和100种语言的文本。SeamlessM4T 的翻译功能很强大,可以完成语音到文本、语音到语音、文本到语音、文本到文本的翻译,并能够自动识别语音,是 Meta 推出通用翻译器的重要一步。

SeamlessM4T 在翻译基准上的表现要优于 OpenAI 的 Whisper,虽然二者的翻译质量目前都逊色于人类,但差距正在随着模型的优化而不断缩小。

Demo:https://seamless.metademolab.com/demo

秉持其一贯的开源策略,Meta 在开源协议CC BY-NC 4.0下公开发布了 SeamlessM4T,开发人员可以在这个模型的基础上进行开发。同时,Meta 还发布了 SeamlessAlign 的数据集,其博客提到这也是迄今为止最大的开放多模态翻译数据集,覆盖挖掘的语音和文本对齐总计达 270,000 小时 ⋙ Meta Blog | GitHub 模型代码下载

🤖 巨量引擎推出AI智能成片工具,商家5分钟生成十余条带货短视频

上周,巨量引擎宣布推出AI混剪工具「智能成片」,免费开放给抖音商家使用,可以帮助商家轻松制作跑量的带货短视频。

不用写脚本、找素材、找配乐,只需有商品空镜视频 (至少3条),就能制作爆款带货短视频啦!5分钟即可快速成片,提供10+条跑量效果好的短视频,而且商家0成本使用、批量成片,大幅节省开支~

以下两个路径均可使用「智能成片」工具:巨量千川PC首页 → 工具 → 三方工具 → 智能成片、星图即合 → 智能成片 ⋙ 巨量千川 | 星图即合

🤖 一份高质量的 LLM 深度阅读清单,非常实用的资源指南

这篇文章汇集了关于大语言模型 (LLM) 的高质量、实用性强的学习资源合集,内容涉及LLM的方方面面,包括理论基础、关键论文、模型训练、实际应用、性能评估等。

这份资源注重实用性和长期参考价值,避免夸张的营销噱头,旨在真正帮助读者掌握LLM核心知识和技能,是一篇高质量的LLM学习资源指南。

以下是清单中各项内容的标题 (已翻译),感兴趣的可以阅读原文:

背景

  • 大型语言模型综述

  • 自注意力和转换器网络

  • 什么是嵌入?

  • 简述词嵌入在机器学习中的运用 (YouTube视频)

  • 了解大型语言模型的奇思妙想

基础论文

  • Attention is all you Need

  • 神经语言模型的扩展定律

  • BERT

  • 语言模型是无监督的多任务学习者

  • 训练语言模型遵循指示

  • 语言模型是少样本学习者

训练自己的模型

  • 为什么要托管自己的语言模型?

  • 如何训练自己的语言模型

  • 训练计算优化的大型语言模型

  • Opt-175B日志

算法

  • GZIP 分类器的优点

  • Meta 推荐系统:使用和扩展 Word2Vec

  • GPT 现状 (YouTube视频)

  • ChatGPT在做什么以及为什么有效

  • LlamaCPP如何可能?

  • 关于 prompt engineering

  • 从零开始构建 Transformer

部署

  • 构建面向生产环境的语言模型应用

  • 大型语言模型的挑战和应用

  • 使用语言模型构建产品时无人谈及的所有困难

  • 扩展Kubernetes以运行ChatGPT

  • 每个语言模型开发者都应知道的数字

评估

  • 可解释的机器学习

  • 评估ChatGPT

  • ChatGPT:全能但不精通

用户体验

  • 除聊天外的生成式界面 (YouTube视频)

  • 为什么聊天机器人不是未来 ⋙ 阅读原文

🤖 面向新手的 Stable Diffusion 入门指南,面面俱到的快速上手宝典

这是一个面向 Stable Diffusion 新手的入门指南系列,一共包含4篇文章,目的是让没有任何经验的读者快速上手这项强大的AI创作工具。

第一篇文章围绕 Stable Diffusion 基础知识展开,介绍了其使用方式与各种用法,以及关于提示词、参数和图像修复的内容。以下是文章大纲,感兴趣可以阅读原文:

什么是Stable Diffusion?

如何使用Stable Diffusion AI?

Stable Diffusion的优势是什么?

Stable Diffusion AI是免费的吗?

试用Stable Diffusion在线演示

Stable Diffusion能做什么?

  • 从文本生成图像

  • 从其他图像生成图像

  • 照片编辑

  • 制作视频

如何使用Stable Diffusion AI?

  • 在线生成器

  • 高级GUI

如何构建一个好的提示?

构建良好提示的规则

  • 详细和具体

  • 使用强大的关键词

那些参数是什么,我应该改变它们吗?

我应该生成多少张图片?

常见的修复图像缺陷方法

  • 人脸修复

  • 用修复修复小瑕疵

什么是自定义模型?

  • 我应该使用哪个模型?

  • 如何训练一个新的模型? ⋙ 第一篇

第二篇文章提供了构建高质量 Stable Diffusion 提示的实用技巧,对新手学习提示词汇和练习构建提示非常有帮助。此外,作者建议读者可以通过借鉴优秀的现成提示来快速上手,并在实践中逐步掌握提示构建技巧。

入门资源

一个好提示的结构

  • 主题

  • 媒介

  • 添加其他要素

构建优质提示的技巧

一些有用的关键词

  • 媒介

  • 风格

  • 艺术家

  • 网站

  • 分辨率

  • 光照

  • 附加细节

  • 色彩

总结 ⋙ 第二篇

第三篇文章针对 Stable Diffusion 的图像修复功能inpainting 展开,通过具体的分步示例向初学者展示如何使用inpainting修复图像缺陷,并给出了一些实用的inpainting技巧。读完这篇指南对inpainting的原理和用法会有较为系统的了解。

图像模型和图形用户界面

基本填充设置

  • 使用填充模型(可选)

  • 创建填充遮罩

  • 填充设置:提示词、图像大小、人脸恢复、遮罩内容、降噪强度、批量大小

  • 填充结果

  • 再进行一次填充

添加新对象

填充参数解释

  • 降噪强度

  • CFG 比例

  • 遮罩内容

填充技巧 ⋙ 第三篇

第四篇涵盖了 Stable Diffusion 模型方方面面的信息,例如原始模型和微调模型的区别、几种常用的模型微调方法、通用模型、针对特定风格进行微调的模型、模型融合的方法等等。

微调模型

  • 什么是微调?

  • 为什么要制作微调模型?

  • 如何制作微调模型?

模型

  • Stable Diffusion v1.4

  • Stable Diffusion v1.5

  • F222

  • Anything V3

  • Open Journey

  • 模型比较

  • 最佳模型:DreamShaper、Deliberate v2、Realistic Vision v2、ChilloutMix、Protogen v2.2 (Anime)、GhostMix、Waifu-diffusion、Inkpunk
    Diffusion

  • 寻找更多模型

v2模型

SDXL模型

如何安装和使用模型

合并两个模型

  • 合并模型实例

模型变体

  • Pruned, Full, EMA-only模型

  • fp16/fp32模型

  • Safetensor模型

其他类型模型

总结 ⋙ 第四篇

🤖 与 Eleuther.ai 工程师对谈,揭秘 LLM 训练中的数学奥秘

EleutherAI是一家非营利的人工智能研究组织,致力于开源大规模语言模型的训练和部署。

4月的时候,EleutherAI 发布了一篇名为「Transformer Math 101」的专业文章,总结了工程师们在大语言模型训练中的实践经验,这也应该是领域内相当稀缺且高级的经验总结,对从事相关研究和工程实践的人具有重要的参考价值。

整体上说,文章总结出了一系列计算 Transformer 模型训练需求的关键公式,并进行了详细的数学推导和说明,包括计算量、内存需求等:

  1. 导言 (Introduction):文章的编写初衷是让 Transformer 语言模型中的一些基础数学公式更广为人知

  2. 计算需求 (Compute Requirements):推导计算 Transformer 模型训练需求计算量的基本公式C≈τT=6PD,并详细解释了每个变量的含义

  3. 参数与数据集权衡 (Parameter vs Dataset Tradeoffs):探讨在训练过程中参数量和数据集量的权衡取舍,提出了「chinchilla
    scaling」的概念;建议确定可接受的推理成本,然后在此基础上训练尽可能大的模型和尽可能多的文本数据

  4. 计算成本的实用经验总结 (Engineering Takeaways for Compute Costs):总结Transformer计算成本的一些实用经验,如常见的GPU计算能力数据,提高数据并行度时的吞吐量扩展情况等,这些经验对计算资源的合理配置非常有帮助

  5. 内存需求 (Memory Requirements):推导Transformer在训练和推理两个阶段的各组成部分所需内存的计算公式,包括模型参数、优化器状态、激活值、梯度等;还讨论了减小内存开销的各种方法,如混合精度训练、激活值重计算等

  6. 分布式训练 (Distributed Training):探讨了降低单个GPU内存压力,扩大可以训练的模型规模的分布式训练方法;重点讲解了分片优化器和三维并行化技术,前者可以减少优化器的内存开销,后者通过在数据、张量和流水线三个维度上进行并行来降低内存需求

  7. 结论 (Conclusion):总结表达了分享这些经验的目的,希望能对读者有所帮助,欢迎反馈意见 ⋙ Transformer Math 101

上述文章的作者之一 @Quentin Anthony 受邀参与了一期播客对谈,分享大模型训练中的关键数学知识,内容非常专业且可贵。

需要注意的是,一般这种经验性知识只能在 Google、Meta等大公司中获得。以下是播客时间轴,感兴趣可以前往收听 (或阅读文字版):

  • 00:00 Quentin在Eleuther.ai的背景和工作

  • 03:14 编写Transformers Math 101文章的动机

  • 05:58 计算计算需求的关键方程(tau x T = 6 x P x D)

  • 10:00 理论吞吐量和实际吞吐量的区别

  • 12:42 应用方程估计GPT-3训练的计算需求

  • 14:08 期望每个A100 GPU达到115+teraFLOPS作为基准

  • 15:10 Nvidia和AMD GPU在训练方面的折衷

  • 18:50 模型精度(FP32、FP16、BF16等)对内存的影响

  • 22:00 即使内存无限,模型量化的好处

  • 23:44 推理期间的KV缓存内存开销

  • 26:08如何计算优化器内存使用量

  • 32:03 训练总内存的组成部分(模型、优化器、梯度、激活函数)

  • 33:47 激活值重计算以减少内存开销

  • 38:25 如ZeRO等分片优化器在GPU之间分配

  • 40:23 ZeRO中的分散聚集等通信操作

  • 41:33 先进的3D并行技术(数据、张量、流水线)

  • 43:55 组合3D并行和分片优化器

  • 45:43 异构集群分发时的挑战

  • 47:58 闪电轮 ⋙ 播客&文字

🤖 斯坦福 CS224n | 自然语言处理与深度学习课程

https://web.stanford.edu/class/cs224n/index.html

斯坦福大学「CS224n: Natural Language Processing with Deep Learning」课程,聚焦自然语言处理与深度学习,主要介绍使用深度学习进行自然语言处理的前沿研究。通过课程的学习,学生可以系统地学习设计、实现和理解基于神经网络的自然语言处理模型。

  • 词向量

  • 词向量,词窗口分类,语言模型

  • 反向传播与神经网络

  • 依存关系解析

  • 循环神经网络与语言模型

  • seq2seq,机器翻译,子词模型

  • 自注意力机制与Transformers

  • 预训练

  • 自然语言生成

  • Hugging Face Transformers教程课

  • 提示,来自人类反馈的强化学习

  • 问题回答

  • 卷积网络,树递归神经网络与成分解析

  • NLP 与语言学间的洞察

  • 代码生成

  • 训练大语言模型

  • 多模态深度学习

  • 共指消解

  • 分析和解释性基础

  • Latex 教程

  • 模型解释性和编辑

中英字幕视频:https://www.bilibili.com/video/BV1Yo4y1D7FW

完整学习笔记:https://www.showmeai.tech/tutorials/36

课程目前进行到了 Winter 2023 期次,课程页面更新了最新版的 Slides 和 Notes,不过并没有释放出新版课程视频。

ShowMeAI 对课程历史版本的视频进行了搬运和翻译,详见上方B站链接。本公众号回复课程代码「CS224n」可以获取 ShowMeAI 整理好的完整课程资料 (当然也是历史版本)。如果对课程感兴趣,强烈推荐上面这份 ShowMeAI 的学习笔记,中文版带你丝滑学完全程~

🤖 斯坦福 CS224U | 自然语言理解课程

https://web.stanford.edu/class/cs224u

斯坦福大学「CS224U: Natural Language Understanding」是一门NLP相关的课程,以理解文本的含义为中心,对自然语言处理和深度学习进行了介绍。

课程将涵盖语言模型、文本分类、情感分析、命名实体识别、问答等主题,帮助掌握如何表示和分析语言结构,如何训练模型进行NLP任务,以及如何评估性能。

课程最新版本是 Spring 2023, 并且公开了课件、Notesbook和相关拓展材料,感兴趣可以前往主页获取:

  1. Contextual representations

  2. Multi-domain sentiment analysis

  3. Retrieval-augmented in-context learning

  4. Compositional generalization

  5. Benchmarking and adversarial training and testing

  6. Model introspection

  7. Methods and metrics

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/924532.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

火山引擎云调度GTM“同城容灾”与“异地多活”实践

随着企业不断推进数字化进程,高并发业务和海量数据的挑战也随之而来。在现实生活中,除了地震、台风、挖光纤这种小概率事件,还有很多人为造成的高概率数据丢失事件,比如人为操作失误、硬件故障、网络攻击等等,故障容灾…

RISC-V中国峰会 | 256核服务器高调亮相,谁与争锋?

8月23日,第三届RISC-V中国峰会(RISC-V Summit China 2023)在北京香格里拉饭店正式开幕,来自世界各地的行业精英汇聚一堂,为RISC-V生态系统建言献策,凝心聚力! 中国工程院院士倪光南、RISC-V国际…

C++多线程编程——thread线程创建与使用(2W字保姆级介绍)

目录 前言 线程创建 标准库thread(同步线程的创建过程) 启动线程:实例thread 线程执行单元(可调用对象) 线程等待 线程传参 线程id 成员方法获取线程id 命名空间获取线程id 让出线程资源 sleep_for() sle…

聊一聊微前端框架的选型和实现 | 业务平台

一、项目背景 目前,我们开发维护的项目主要有 6 个,但是分别对应 PC 和 H5 两个端: 如上图所示,我们 6个项目最开始是一个一个进行开发维护的,但是到后期,这几个项目之间有的部分会有业务逻辑不同&#xff…

docker高级(mysql主从复制)

数据库密码需要设置成自己的!!! 1、创建容器master13307 #docker pulldocker run -p 13307:3306 --name mysql-master \ --privilegedtrue \ -v /mysql/mysql-master/log:/var/log/mysql \ -v /mysql/mysql-master/data:/var/lib/mysql \ -…

centos 下扩容根目录

大体情况: 在VM虚拟机上安装了移动云的BCLinux镜像,磁盘设定为8G,但是用过一段时间之后根目录下磁盘已满,无法创建文件夹等操作,因此在VM上进行了磁盘扩容,扩容之后需要在系统上自行挂载,使用m…

【VsCode】SSH远程连接Linux服务器开发,搭配cpolar内网穿透实现公网访问(1)

文章目录 前言1、安装OpenSSH2、vscode配置ssh3. 局域网测试连接远程服务器4. 公网远程连接4.1 ubuntu安装cpolar内网穿透4.2 创建隧道映射4.3 测试公网远程连接 5. 配置固定TCP端口地址5.1 保留一个固定TCP端口地址5.2 配置固定TCP端口地址5.3 测试固定公网地址远程 前言 远程…

【linux】基本指令(二)【man、echo、cat、cp】

目录 一、man指令二、echo指令三、cat指令二、cp指令一些常见快捷键 一、man指令 Linux的命令有很多参数,我们不可能全记住,可以通过查看联机手册获取帮助。访问Linux手册页的命令是 man 语法: man [选项] 命令 常用选项 1.-k 根据关键字搜索联机帮助 2…

面试题-React(六):React组件和生命周期

一、React组件 React组件简介: React组件是构建用户界面的基本单元。它们将界面拆分成独立、可重用的部分,使得代码更加模块化、可维护性更高。React组件可以是函数组件或类组件,它们接收输入的数据(称为props)并返回…

ORB-SLAM2算法11之地图点MapPoint

文章目录 0 引言1 MapPoint类1.1 构造函数1.2 成员函数1.2.1 AddObservation1.2.2 EraseObservation1.2.3 SetBadFlag1.2.4 Replace1.2.5 ComputeDistinctiveDescriptors1.2.6 UpdateNormalAndDepth1.2.7 PredictScale 2 MapPoint类用途 0 引言 ORB-SLAM2算法7详细了解了Syste…

Webstorm 入门级玩转uni-app 项目-微信小程序+移动端项目方案

1. Webstorm uni-app语法插件 : Uniapp Support Uniapp Support - IntelliJ IDEs Plugin | Marketplace 第一个是不收费,第二个收费 我选择了第二个Uniapp Support ,有试用30天,安装重启webstorm之后,可以提高生产率…

排序链表-归并排序

给你链表的头结点 head ,请将其按 升序 排列并返回 排序后的链表 。 示例 1: 输入:head [4,2,1,3] 输出:[1,2,3,4] 示例 2: 输入:head [-1,5,3,4,0] 输出:[-1,0,3,4,5] 示例 3: 输…

vue 展开和收起

效果图 代码块 <div><span v-for"(item,index) in showHandleList" :key"item.index"><span>{{item.emailFrom}}</span></span><span v-if"this.list.length > 4" click"showAll !showAll">{…

Ceph入门到精通-大流量10GB/s LVS+OSPF 高性能架构

LVS 和 LVSkeepalived 这两种架构在平时听得多了&#xff0c;最近才接触到另外一个架构LVSOSPF。这个架构实际上是LVSKeepalived 的升级版本&#xff0c;我们所知道LVSKeepalived 架构是这样子的&#xff1a; 随着业务的扩展&#xff0c;我们可以对web服务器做水平扩展&#xf…

聚观早报 | 云鲸扫拖机器人J4体验;芯科科技第三代无线开发平台

【聚观365】8月24日消息 云鲸扫拖机器人J4体验 芯科科技推出第三代无线开发平台 英伟达与VMWare宣布扩大合作 万物新生&#xff08;爱回收&#xff09;2023年二季度财报 充电桩需求增长带动汽车后服务市场 云鲸扫拖机器人J4体验 家庭卫生清洁是每个人都无法回避的事情&am…

实训笔记8.24

实训笔记8.24 8.24笔记一、Sqoop数据迁移工具1.1 Sqoop的基本概念1.2 Sqoop的基本操作1.2.1 命令语法1.2.2 list-databases1.2.3 list-tables1.2.3 eval1.2.4 import1.2.5 export1.2.6 导入 二、Flume日志采集工具2.1 数据采集的问题2.2 数据采集一般使用的技术2.3 扩展&#x…

Tokenview再度升级:全新Web3开发者APIs数据服务体验!

Tokenview发布全新版本的区块链APIs和数据服务平台&#xff0c;为开发者打造更强大、更便捷的开发体验&#xff01; 此次升级&#xff0c;我们整合了开发者使用习惯以及Tokenview产品优势。我们深知对于开发者来说&#xff0c;时间是非常宝贵的&#xff0c;因此我们努力提供一…

联合注入步骤

使用场景&#xff1a; 有回显&#xff0c;可以看到某些字段的回显信息 像下面的有具体的回显信息 一、判断注入位点 在原始的id&#xff08;参数&#xff09;的输入后面添加额外的条件 如果and 11 有结果&#xff0c;and10没有结果输出&#xff0c; 就说明我们添加的额外条件…

sqlmap安装以及运用

目录 一、sqlmap简介 linux系统安装 windows系统安装 二.sqlmap确定目标 (1) sqlmap直连数据库 (2) sqlmap的URL探测 (3) Sqlmap文件读取目标 (4) Sqlmap Google批量扫注入 一、sqlmap简介 sqlmap是一个开源的渗透测试工具&#xff0c;它可以自动化检测sql注入漏洞利用…

opencv 文档识别+UI界面识别系统

目录 一、实现和完整UI视频效果展示 主界面&#xff1a; 识别结果界面&#xff1a; 查看处理图片过程&#xff1a; 查看历史记录界面&#xff1a; 二、原理介绍&#xff1a; 将图像变换大小->灰度化->高斯滤波->边缘检测 轮廓提取 筛选第三步中的轮廓&#xf…