3 个令人惊艳的 AI 项目,开源了!

news2024/11/19 17:20:19

公众号关注 “GitHubDaily”

设为 “星标”,每天带你逛 GitHub!

1789f4bcdc6052ccbeb37d5a8e94e4f4.jpeg

过去一周,从外界看,AI 貌似放缓了进步速度,但只有身处其中的人才能知道,AI 一直没有停下进化的脚步。

以下是 GitHub 过去一周,诞生的多个实用的 AI 开源项目,今天给大家做下介绍。

1. Meta 开源 AI 生成音乐模型

Meta 今天在 GitHub 开源了一个 Python 库:Audiocraft,可直接用 AI 生成音乐。

点击播放下方视频,查看音乐生成效果:

GitHub:https://github.com/facebookresearch/audiocraft

里面主要用到了一个名为 MusicGen 的音乐生成模型,MusicGen 是一个单级自回归 Transformer 模型,在 32kHz EnCodec 分词器上训练,具有 4 个以 50Hz 采样的码本。

与 MusicLM 等现有方法不同,MusicGen 不需要自我监督的语义表示,它一次生成所有 4 个码本。

卷完了文生文和文生图,接下来就看文本生成音乐要怎么发力了。

2. Diffusers 发布重磅更新

Diffusers v0.17.0 正式发布,改进了 LoRA、Kandinsky 2.1、Torch 编译加速等特性。

Diffusers 是 GitHub 上一个知名的预训练扩散模型首选库,可用于生成图像、音频,甚至分子的 3D 结构。

1a10a383212c9346ae04f538814948f1.jpeg

GitHub:https://github.com/huggingface/diffusers

无论你是在寻找简单的推理解决方案还是训练自己的扩散模型,Diffusers 均可作为模块化工具箱提供支持。

该库设计重在可用性与可定制性,主要提供以下 3 个核心组件:

  • 最先进的扩散管道,只需几行代码即可在推理中运行;

  • 可互换的噪声调度器,用于不同的扩散速度和输出质量;

  • 预训练模型可用作构建块,并与调度程序结合使用,用于创建自己的端到端扩散系统。

该项目由 Hugging Face 免费开源,你可以用它来快速训练 ControlNet,以便进一步提升 AI 绘画的效果与质量。

3. 万物皆可识别

Meta 之前在 GitHub 上开源过一个 Segment Anything Model,可自动实现图像切割。

不过该模型在图像定位表现出色,但在图像识别方面便反响平平。

为此,复旦大学联合 OPPO 研究员、国际数字经济学院,在 GitHub 开源了一个强大的图像标记基础模型:Recognize Anything Model (RAM)

该模型采用一种新的图像标记范例,可高精度地识别任何常见类别,并利用大规模图像文本对进行训练,而不是手动注释。

d086eabe5a39f592f25dcfb8016ee7e1.jpeg

GitHub:https://github.com/xinyu1205/Recognize_Anything-Tag2Text

RAM 的开发包括四个关键步骤:

  1. 通过自动文本语义解析大规模获取无注释图像标签;

  2. 使用统一标题和标记任务,训练初步模型进行自动注释,分别由原始文本和解析标签监督;

  3. 利用数据引擎生成额外注释并清除不正确的注释;

  4. 利用处理后的数据对模型进行再训练,并使用更小但质量更高的数据集进行微调。

经过众多基准测试评估,RAM 的标记能力颇为优秀,效果明显优于 CLIP 和 BLIP。值得注意的是,RAM 甚至超越了完全监督的方式,甚至可媲美 Google API。

于此同时,该项目里面还包含着一个名为 Tag2Text 的工具,可直接批量化给图像中的指定对象,生成标签。

如果结合 Meta 开源的 SAM 模型,那我们就能做到批量移除图像中的指定对象,进一步提升图像处理效率。

以上,就是本期给大家推荐的 AI 开源项目。

如果你想了解更多 AIGC 相关的内容,欢迎扫描文章底部二维码,加入我们星球进一步探讨交流:

510531b3dea8970ed5786a0e2be1f5fb.png

adf1f456d8cdf0fd374b219d04d872ca.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/633214.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!

击上方“机器学习与AI生成创作”,关注星标 获取有趣、好玩的前沿干货! 【AI生成创作与计算机视觉】知识星球 2022、2023年开始,基于扩散模型的AI绘画、ChatGPT系列大模型主导的AIGC狂潮已来!大模型下的科研、工业应用方向&#xf…

YOLOV3——你总能在这找到你想要的答案

目录 一:前言: 二:更快,更强 网络结构图 其他基础操作: Darknet53的由来 三:最明显的特点: 四:多scale 五: 为什么vgg越深效果反而越差了? 六&#…

MySQL数据库(一)

前言 数据库分为关系型数据库和非关系型数据库,mysql属于关系型数据库。 SQL语法不区分大小写。 目录 前言 一、数据库的基础知识 (一)服务器和客户端的定义 (二)请求和响应 (三)MySQL的基…

uc-osⅡ入门——创建工程模板

目录 任务: 概念 简介 性质 组成 1) 核心部分(OSCore.c) 2) 任务处理部分(OSTask.c) 3) 时钟部分(OSTime.c) 4) 任务同步和通信部分 5) 与CPU的接口部分 总结分析和思考 任务管理 时间管理 内存管理 通信同步 任务调度 理解 实践 任务: 了解什么是ucos 创建…

Qt6构建于打包发布

打包发布 release 单文件打包 参考文献:https://blog.csdn.net/sasafa/article/details/126538432 首先准备我们欲打包发布的项目 默认情况下运行时发布的是 debug 类型的(包含冗余调试信息,文件大),我们需要切换到 …

【利用AI让知识体系化】前端安全攻防知识点

文章目录 1. 前言1.1 前端安全攻防的意义1.2 概述前端安全攻防的范畴和流程 2. 攻击技术2.1 XSS攻击2.1.1 原理和类型2.1.2 预防和防御 2.2 CSRF攻击2.2.1 原理和类型2.2.2 预防和防御 3. 代码层次3.1 JavaScript代码安全3.1.1 客户端JavaScript安全3.1.2 服务器端JavaScript安…

从零玩转系列之微信支付安全

一、前言 halo各位大佬很久没更新了最近在搞微信支付,因商户号审核了我半个月和小程序认证也找了资料并且将商户号和小程序进行关联,至此微信支付Native支付完成.此篇文章过长我将分几个阶段的文章发布(项目源码都有,小程序和PC端) 在此之前已经更新了 微信支付开篇 二、微信支…

java SSM 宿舍管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 java SSM 宿舍管理系统是一套完善的web设计系统(系统采用SSM框架进行设计开发,springspringMVCmybatis),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/…

docker部署gin项目

以如下这个简单的项目为例 创建Dockerfile文件 #指定构建镜像的基础镜像 FROM golang:1.18-alpine #开发者 MAINTAINER who # 为我们的镜像设置必要的环境变量 ENV GO111MODULEon \GOPROXYhttps://goproxy.cn,direct \CGO_ENABLED0 \GOOSlinux \GOARCHamd64#设置工作目录&…

集成运算放大器的线性应用(模电速成)

目录 1、运算电路基本认识 2、反向比例、同相比例运算电路 3、电压跟随器(同相比例的特例) 4、差分比例运算电路(减法运算电路) 5、积分、微分运算电路 1、运算电路基本认识 (集成运放工作在线性区) 两…

4.LVS负载均衡集群

文章目录 LVS负载均衡集群集群介绍集群类型LVS工作模式LVS虚拟服务器介绍LVS的NAT模式部署设置NFS服务器设置节点服务器配置负载调度器 LVS负载均衡集群 集群介绍 群集的含义 Cluster,集群、群集由多台主机构成,但对外只表现为一个整体,只提…

卷积神经网络之父的强人工智能路线图:自监督,推理,规划

导读 2023 年 6 月 9 日,智源大会第一天。在这场众星云集的盛会中。目前「深度学习三驾马车」中最活跃的 Yann LeCun 教授带来了重磅演讲「朝向能学习, 思考和计划的机器进发( Towards Machines that can Learn, Reason, and Plan&#xff09…

QtXlsxWriter make报错:[Makefile:45:sub-xlsx-make_first] 错误

新安装的银河麒麟系统(x64版),编译QtXlsxWriter库的时候报错: rootzhouyingge1104-GB01:/home/zhouyingge1104/Downloads/QtXlsxWriter-master# make cd src/ && ( test -e Makefile || /usr/lib/qt5/bin/qmake -o Make…

AD09 PCB拼板制作完整流程

1、新建PCB文件 画好PCB之后,先在原有工程文件下新建一个PCB文件(可以保存为XXX拼板),PCB大小根据拼板前大小以及拼板阵列确定(也可以在做好工艺边后再修改大小)。 2、放置PCB阵列 如上图,来…

《微服务实战》 第二十九章 分布式事务框架seata AT模式

前言 本章节介绍微服务分布式项目中,使用的事务框架seata。 官网:http://seata.io/zh-cn/ springcloud-nacos-seata:https://github.com/seata/seata-samples/tree/master/springcloud-nacos-seata 1、概念 Seata 是一款开源的分布式事务解…

线程堵塞(挂起)导致消息队列消息挤压

一、背景 A服务作为生产者,每天发送上百万的mq消息,每一个消息包含500个用户id数据。 B服务作为消费者,接受MQ消息并通过http调用第三方请求进行业务处理,消费组使用了rabbitmq 的多线程消费组,一个实例并发40个mq消…

四种Bootloader程序安全机制设计

正文 大家周末好,我是bug菌~ 不管是玩单片机还是嵌入式linux,基本上都会接触到bootloader,所以bootloader程序也是一个关键的组件,进行硬件初始化,应用程序的合法性、完成性检测、升级功能等等都与其息息相关。 像一些…

【ABAP】数据类型(二)「预定义数据类型」

💂作者简介: THUNDER王,一名热爱财税和SAP ABAP编程以及热爱分享的博主。目前于江西师范大学本科在读,同时任汉硕云(广东)科技有限公司ABAP开发顾问。在学习工作中,我通常使用偏后端的开发语言A…

【哈希的模拟实现】

文章目录 1 哈希概念2 哈希冲突2.1 直接定址法 (常用)2.2 除留余数法 (常用)2.3 平方取中法2.4 折叠法2.5 随机数法2.6 数学分析法 3 闭散列3.1 线性探测3.2 二次探测 4 开散列4.1 开散列概念4.2哈希桶的模拟实现4.3 开散列与闭散列的比较 1 哈希概念 顺序结构以及平衡树中&…

Science|改变微生物群落可以增强树木对气候变化的耐受性

改变微生物群落可以增强树木对气候变化的耐受性 Shifting microbial communities can enhance tree tolerance to changing climates Research Article,2023-5-25,Science, [IF 63.714] DOI:10.1126/science.adf202 第一作者&…