【精华】AIGC专栏-Text/Img/Video/audio

news2024/10/7 18:23:02

(一)LLM专栏

大模型相关技术原理以及实战经验:liguodongiot/llm-action

1 ColossalAI

图片

(1)参考资料:700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级

(2)开源地址:https://github.com/hpcaitech/ColossalAI

(3)描述

  • Colossal-AI提供开箱即用的 8 到 512 卡 LLaMA2 训练、微调、推理方案
  • 对 700 亿参数训练加速 195%,并提供一站式云平台解决方案,极大降低大模型开发和落地应用成本。

(二)文生图

1 Stable Diffusion

img

(1)参考资料:Stable Diffusion导论/安装教程

​ 万字保姆级教程!Stable Diffusion完整入门指南

(2)开源地址:https://github.com/AUTOMATIC1111/stable-diffusion-webui

(3)描述

Stable Diffusion是2022年发布的深度学习文本到图像生成模型,它是一种潜在扩散模型,它由创业公司Stability AI与多个学术研究者和非营利组织合作开发。目前的SD的源代码和模型都已经开源,在Github上由AUTOMATIC1111维护了一个完整的项目,正在由全世界的开发者共同维护。由于完整版对网络有一些众所周知的需求,国内有多位开发者维护着一些不同版本的封装包。开源社区为SD的普及做出了难以磨灭的贡献。

2 InvokeAI

img

(1)参考资料:集多个AI绘画开源模型于一体的工作台#invokeAI使用测评

(2)开源地址:https://github.com/invoke-ai/InvokeAI

(3)描述

invokeAI是一个在网页上使用的AI绘画生成界面,通俗点讲,它其实是嵌套在生成模型上的一个网页外观。不同的生成模型例如stable diffusion和Dream booth等,通过导入invokeAI内,可以将不同模型的界面替换成invokeAI的界面,从而统一工作环境。

3 Fooocus

img

(1)参考资料:重磅开源工具Fooocus!让SD跟Midjourney一样简单易用!

(2)开源地址:https://github.com/lllyasviel/Fooocus

(3)描述

基于SDXL模型在SDwebui的基础上进行了改进,提供了一系列强大功能,并提供直观易懂的界面。这款开源免费软件自动化了许多内部优化和质量改进,无需用户处理繁琐的技术参数,使得用户可以全情投入到绘图交互中。

(4)使用教程:

  • 本地部署 Fooocus 低显存玩转SDXL

4 HCP-Diffusion-webui

图片

(1)参考资料:中山大学开源Diffusion模型统一代码框架,推动AIGC规模化应用

(2)开源地址:https://github.com/7eu7d7/HCP-Diffusion-webui

(3)描述

  • 统一架构:搭建 Diffusion 系列模型统一代码框架
  • 算子插件:支持数据、训练、推理、性能优化等算子算法,如 deepspeed, colossal-AI 和 offload 等加速优化
  • 一键配置:Diffusion 系列模型可通过高灵活度地修改配置文件即可完成模型实现
  • 一键训练:提供 Web UI,一键训练、推理

(三)文生视频

文生视频: 任务、挑战及现状

1 Gen-2

img

(1)参考资料:Gen2:一个可以用文本、图像或视频片段生成新视频的多模态AI系统

(2)开源地址:/

(3)描述

Gen2支持多种模式,让你可以根据不同的需求和创意生成不同风格的视频。比如:

  • 文本到视频:只用文本提示就能生成任何风格的视频。
  • 文本+图像到视频:用一张图像和一段文本提示生成视频。
  • 图像到视频:只用一张图像就能生成视频(变化模式)。
  • 风格化:将任何图像或文本提示的风格转移到你的视频上。
  • 故事板:将草图变成完全风格化和动画化的渲染。
  • 遮罩:在你的视频中隔离主题,并用简单的文本提示修改它们。
  • 渲染:将未纹理的渲染变成逼真的输出,通过应用一个输入图像或文本提示。
  • 定制:通过定制模型来释放Gen2的全部力量,获得更高保真度的结果。

2 Text2Video-Zero

(1)参考资料:【AIGC-AI视频生成系列-文章1】Text2Video-Zero

(2)开源地址:https://github.com/Picsart-AI-Research/Text2Video-Zero

(3)描述

  • zero-shot 实现文本-视频生成扩散模型,仅仅使用现有的扩散模型如Stable-Diffusion。
  • 丰富了基于生成的图像帧的latent 特征空间进行运动动态编码,并使用跨帧注意力来重新编程帧级别的Self-Attention,以保持生成场景和背景的一致性。
  • 该方法并不局限于文本到视频的合成,而是也适用于其他任务,例如条件和内容专用的视频生成,以及pix2pix,文本引导的视频编辑。

体验Demo:ModelScope Text To Video Synthesis

(四)文生音乐

举世无双语音合成系统 VITS 发展历程

1 Retrieval-based-Voice-Conversion

(1)参考资料

(2)开源地址:https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

(3)描述

  • 一个基于VITS的简单易用的语音转换(变声器)框架
  • 一种利用专门的神经网络将一个人的声音转换为另一个人的声音的方法。该方法依赖于先进的VITS模型,它是一种用于将文本转换为语音的尖端系统。即使在数据和计算能力有限的情况下,Retrieval-based Voice Conversion也能够创建逼真且富有表现力的语音转换。

2 Grad-SVC

(1)参考资料:https://www.bilibili.com/video/BV1pu4y1C7YC/

(2)开源地址:https://github.com/PlayVoice/Grad-SVC

(3)描述
在这里插入图片描述

3 dc-comix-tts

(1)参考资料:/

(2)开源地址:https://github.com/lakahaga/dc-comix-tts

(3)描述

  • 端到端的离散代码表达TTS与Mixer的协作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/991525.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux常用命令——convertquota命令

在线Linux命令查询工具 convertquota 把老的配额文件转换为新的格式 补充说明 convertquota命令用于将老的磁盘额数据文件(“quota.user”和“quota.group”)转换为新格式的文件(“quota.user”和“quota.group”)。 语法 c…

Day59|leetcode 503.下一个更大元素II、42. 接雨水

leetcode 503.下一个更大元素II 题目链接:503. 下一个更大元素 II - 力扣(LeetCode) 视频链接:单调栈,成环了可怎么办?LeetCode:503.下一个更大元素II_哔哩哔哩_bilibili 题目概述 给定一个循环…

接口使用的最佳时机

1. 引言 接口在系统设计中,以及代码重构优化中,是一个不可或缺的工具,能够帮助我们写出可扩展,可维护性更强的程序。 在本文,我们将介绍什么是接口,在此基础上,通过一个例子来介绍接口的优点。…

【2023高教社杯】A题 定日镜场的优化设计 问题分析及数学模型

【2023高教社杯】A题 定日镜场的优化设计 问题分析及数学模型 1 题目 构建以新能源为主体的新型电力系统,是我国实现“碳达峰”“碳中和”目标的一项重要措施。塔式太阳能光热发电是一种低碳环保的新型清洁能源技术[1]。 定日镜是塔式太阳能光热发电站(…

微电网的概念

微电网分布式控制理论与方法  顾伟等 微电网的概念和作用 微电网是由多种分布式电源、储能、负载以及相关监控保护装置构成的能够实现自我控制和管理的自治型电力系统,既可以与电网并网进行,也可以以孤岛运行。 分布式发电是指将容量在兆瓦以内的可再…

Elsevier出版社 | 优质好刊合集

【SciencePub学术】 爱思唯尔(Elsevier)是一家全球专业从事科学与医学的信息分析公司作为出版公司,成立于1880年,其产品包括《柳叶刀》、《四面体》和《细胞》等学术期刊,ScienceDirect电子期刊集, “趋势”(Trends)系列和“新见…

uniapp项目运行Missing script: “dev“, To see a list of scripts, run:

webstorm 打开项目根目录不对,打开到了项目上一级。 另外一个原因是,当前项目是Hbuilder 可视化界面创建的,不能在terminal直接脚本指令启动。 可以webstorm 安装支持uniapp项目插件,然后创建一个运行器,运行h5。 安…

vue 验证码 图片点击

实现登陆验证 图片依次点击功能 demo &#xff0c;上图可以根据demo修改&#xff0c;直接拿用 <template><div><div class"big-box" id"BigBox" :style"background-image:url( imgCodeUrl )"><div class"click-box…

C#,《小白学程序》第十八课:随机数(Random)第五,方差及标准方差(标准差)的计算方法与代码

1 文本格式 /// <summary> /// 《小白学程序》第十八课&#xff1a;随机数&#xff08;Random&#xff09;第五&#xff0c;方差及标准方差&#xff08;标准差&#xff09;的计算方法与代码 /// 方差 SUM(&#xff08;Xi - X)^2 ) / n i0...n-1 X Average of X[i] ///…

APP备案流程详细解读

背景介绍 2023年8月4日&#xff0c;工信部发布《工业和信息化部关于开展移动互联网应用程序备案工作的通知》。 在中华人民共和国境内从事互联网信息服务的APP主办者&#xff0c;应当依照《中华人民共和国反电信网络诈骗法》《互联网信息服务管理办法》&#xff08;国务院令第…

SpotBugs代码检查:在整数上进行没有起任何实际作用的位操作(INT_VACUOUS_BIT_OPERATION)

https://spotbugs.readthedocs.io/en/latest/bugDescriptions.html#int-vacuous-bit-mask-operation-on-integer-value-int-vacuous-bit-operation 在整数上进行无用的与、异或操作&#xff0c;实质上没有做任何有用的工作。 例如&#xff1a;v & 0xffffffff 再例如&…

如何处理异步编程中的回调地狱问题?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 解决回调地狱问题的方法⭐使用 Promise⭐使用 async/await⭐ 使用回调函数库⭐模块化⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端…

微软研究院团队获得首届AI药物研发算法大赛总冠军

编者按&#xff1a;AI 药物研发是人工智能未来应用的重要方向之一。自新冠病毒&#xff08;SARS-CoV-2&#xff09;首次爆发以来&#xff0c;新冠病毒的小分子药物研发备受关注&#xff0c;于近期举行的首届 AI 药物研发算法大赛便聚焦于此。在比赛中&#xff0c;来自微软研究院…

go语言基础操作---七

socket简单介绍—套接字编程 什么是Socket Socket&#xff0c;英文含义是【插座、插孔】&#xff0c;一般称之为套接字&#xff0c;用于描述IP地址和端口。可以实现不同程序间的数据通信。 Socket起源于Unix&#xff0c;而Unix基本哲学之一就是“一切皆文件”&#xff0c;都可…

【漏洞复现】天OA存在任意文件上传漏洞

漏洞描述 华天动力协同办公系统将先进的管理思想、管理模式和软件技术、网络技术相结合,为用户提供了低成本、高效能的协同办公和管理平台。睿智的管理者通过使用华天动力协同办公平台,在加强规范工作流程、强化团队执行、推动精细管理、促进营业增长等工作中取得了良好的成…

linux系统中驱动框架基本分析

大家好&#xff0c;今天分享一篇Linux驱动软件设计思想的文章。由于文章较长&#xff0c;可以先收藏后再慢慢看。 一、Linux驱动的软件架构 1.1 出发点 为适应多种体系架构的硬件&#xff0c;增强系统的可重用和跨平台能力。 1.2 分离思想 为达到一个驱动最好一行都不改就…

Spring全家桶相关注解总结

spring相关 Controller 【控制器】效验有效参数的合法性&#xff08;相当于安检系统&#xff09; Service 【服务】业务组装&#xff08;客服中心&#xff09; Repository 【数据持久层】实际业务处理&#xff08;实际办理的业务&#xff09; Component 【组件】工具类…

代码随想录 -- day42 -- 01背包问题、416. 分割等和子集

01背包问题 有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i]&#xff0c;得到的价值是value[i] 。每件物品只能用一次&#xff0c;求解将哪些物品装入背包里物品价值总和最大 416. 分割等和子集 思路&#xff1a; 前提条件&#xff1a; 我们要求的是让两…

力扣每日一题---207. 课程表

Problem: 207. 课程表 文章目录 解题方法复杂度Code 解题方法 y总的 Topsort 模板题 复杂度 时间复杂度: 添加时间复杂度, 示例&#xff1a; O ( n ) O(n) O(n) 空间复杂度: 添加空间复杂度, 示例&#xff1a; O ( n ) O(n) O(n) Code class Solution {int res 0; public…

【python自动化】playwright长截图切换标签页JS注入实战

前言 当前教程使用的playwright版本为1.37.0,selenium版本为3.141.0 官方文档&#xff1a;https://playwright.dev/python/docs/screenshots 本教程目录如下 文章目录 前言playwright各类截图源码阅读ElementHandle类下的截图Page类下的截图Locator类下的截图 Playwright快速…