新个性化时尚解决方案!Prompt2Fashion:自动生成多风格、类型时尚图像数据集。

news2024/10/6 23:47:54

今天给大家介绍一种自动化生成时尚图像数据的方法Prompt2Fashion。 首先创建了一组描述,比如“适合婚礼的休闲风格服装”,然后用这些描述来指导计算机生成图像。具体来说,他们使用了大型语言模型来写出这些服装的描述,接着将这些描述输入到另一个模型中,生成出实际的服装图像。为了确保这些图像看起来好看且合适,研究人员还请了一些人来检查这些图像,确保它们符合时尚的标准。因此,该方法可以快速有效地创造出符合不同场合和风格需求的时尚图像。

相关链接

论文地址:http://arxiv.org/abs/2409.06442v1

项目地址:https://github.com/georgiarg/Prompt2Fashion

论文阅读

Prompt2Fashion:自动生成的时尚数据集

摘要

人工智能 (AI) 与时尚的结合正在通过增强创造力、个性化和效率来彻底改变行业。从设计服装到预测趋势,人工智能正成为时装设计师、零售商和营销人员不可或缺的工具。然而,将人工智能融入时尚面临着重大挑战,特别是在评估人工智能生成的内容方面,这通常需要领域专业知识来确保相关性、风格和吸引力。

在这项工作中,我们展示了一个自动生成的时尚图像数据集,专注于个性化。该数据集涵盖了各种要求,包括性别、体型、场合和风格,以及它们的组合。通过利用大型语言模型 (LLM) 的功能以及扩散模型,我们提供了一种可扩展的时尚图像生成解决方案。我们的方法消除了设计最终服装时需要人工干预甚至扩散模型的条件提示的需要。

LLM 和扩散模型促进了生产的可扩展性,确保可以高效生成各种时尚图像。语言生成中的 LLM 以及图像生成中的扩散模型提供的质量保证由人类评估员验证。此验证过程反映了潜在消费者如何看待这些 AI 生成的服装,确保内容不仅在技术上精湛,而且还与当前的时尚趋势和消费者偏好产生共鸣。

鉴于人工智能正在创意领域取得重大进展,人类监督对生成内容的监管至关重要。毕竟,时尚图像合成框架最终是为该领域的专家(例如时装设计师)设计的。这些人工智能生成的图像很可能是创意过程的初步步骤,而不是最终产品。因此,人工智能生成的时尚内容必须由具有领域专业知识的个人进行评估。为此,在这项工作中,我们不仅为创意人员和工程师提供了一个开放的、自动生成的数据集,而且还强调了让专家参与评估过程的重要性,这不仅基于上述概念,还基于实验结果。

方法

本研究采用了大型语言模型(LLMs)和扩散模型(Diffusion Model)相结合的方法,生成时尚图像。首先,通过构建包含“风格、场合、性别”或“风格、场合、类型”的变量三元组,形成定制的提示模板。然后,这些提示被输入到LLMs中,如Mistral-7B和Falcon-7B,生成对应的服装描述。这些描述随后被用作扩散模型的输入,以生成最终的时尚图像。在实验中,研究者们创建了2000个样本,每个样本包含LLM输出的描述、原始三元组以及扩散模型生成的图像。为了确保生成的图像质量,研究者们还通过人类评估者进行评审,确保生成的时尚内容不仅在技术上可行,同时符合当前时尚趋势。

实验

由Stable Diffusion生成的图像,用5种不同的方法生成描述

由 Stable Diffusion 生成的描述和图像,其中的描述由 2 个不同的 LLM 生成,用于零样本学习、小样本学习和思维链(左栏为 Falcon-7B 模型,右栏为 Mistral-7B 模型)。

由 Stable Diffusion 生成的描述和图像,以及由 2 个不同的 LLM 为 RAG 生成的带有 PDF 的描述 并以 BLOG 作为来源(左栏为 Falcon-7B 模型,右栏为 Mistral-7B 模型)。

图像评价

描述评价

结论

本研究提出了一种生成由 2,000 张图像和描述组成的综合时尚数据集的新方法。通过利用 LLM 和扩散模型,我们创建了适合各种场合、风格和体型的多样化时尚内容集合。我们的评估表明,生成的图像和描述既相关又美观。虽然非专家的反馈证实了它们的吸引力,但专家评估对于确保高标准的时尚质量和适销性至关重要。因此,未来的工作将侧重于结合专家评级,以进一步完善数据集并增强其实用性。总体而言,该数据集代表了人工智能驱动的时装设计的重大进步,为行业进一步研究和应用提供了宝贵的资源。

未来工作

  • 目前正在创建 Hugging Face 数据集,以便研究人员和开发人员更轻松地访问和使用 Prompt2Fashion 数据集。Hugging Face 上的数据集将包括图像、其相应的描述和元数据,从而实现与机器学习框架和工具的无缝集成。

  • 为了进一步帮助用户浏览和使用 Prompt2Fashion 数据集,我们还将提供 Excel 指南。该指南将结合描述和图像,提供一种便捷的方式来探索数据集。Excel 文件中的每个条目将包括:

    1. 生成的图像。

    2. 相关描述。

    3. 元数据,例如使用的模型(Mistral 或 Falcon)、风格类别和评估分数(如适用)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2193200.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

毕业设计 大数据电影数据分析与可视化系统

文章目录 0 简介1 课题背景2 效果实现3 爬虫及实现4 Flask框架5 Ajax技术6 Echarts7 最后 0 简介 今天学长向大家介绍一个机器视觉的毕设项目 🚩基于大数据的电影数据分析与可视化系统 项目运行效果(视频): 毕业设计 大数据电影评论情感分析 &#x1…

运动传感器

运动传感器 当你走近一些自动开关门、自动开关灯泡或自动启动自动扶梯的地方时,你是否会产生这样的疑问:**"它是怎么做到的? **它是怎么做到的? 如果有,本教程不仅会回答,还会告诉你如何制作。 让我们…

【Redis】Hash类型的常用命令

背景:redis中存储数据采取key-value键值对的形式,而hash内部也是键值对,为了区别这两个东西,hash内部的键值对称为:field-value,而redis的为key-value,这里的value包括:field-value。…

基于pytorch的手写数字识别

import pandas as pd import numpy as np import torch import matplotlib import matplotlib.pyplot as plt from torch.utils.data import TensorDataset, DataLoadermatplotlib.use(tkAgg)# 设置图形配置 config {"font.family": serif,"mathtext.fontset&q…

如何在华为云服务器查看IP地址,及修改服务器登录密码!!!

1.在华为云服务器查看IP地址 (1).第一步: 先找到控制台 (2).第二步: 点击华为云Flexus云服务 (3)第三步: 找到公网IP,就找到华为云服务器IP地址啦。 注意:在操作以上步骤的前提是要已注册华为云账号及购买云服务器…

PPPoE协议个人理解+报文示例+典型配置-RFC2516

个人认为,理解报文就理解了协议。通过报文中的字段可以理解协议在交互过程中相关传递的信息,更加便于理解协议。 因此本文将在PPPoE协议报文的基础上进行介绍。 PPPoE协议发展 关于PPPoE基本原理,可参考1999年发布的《RFC2516-A Method fo…

class 031 位运算的骚操作

这篇文章是看了“左程云”老师在b站上的讲解之后写的, 自己感觉已经能理解了, 所以就将整个过程写下来了。 这个是“左程云”老师个人空间的b站的链接, 数据结构与算法讲的很好很好, 希望大家可以多多支持左程云老师, 真心推荐. 左程云的个人空间-左程云个人主页-哔哩哔哩视频…

8649 图的广度遍历

### 思路 1. **图的邻接表存储结构**:使用邻接表存储图的顶点和边信息。 2. **基本操作函数**:包括创建图、查找顶点、获取顶点值、获取第一个邻接顶点、获取下一个邻接顶点等。 3. **广度优先遍历(BFS)**:从某个顶点出…

LPDDR6 来之未远

很多朋友可能还没用上DDR5,但不好意思的是,DDR6 可能马上就要出现了。 三星和海力士较早开始DDR6 的设计,预计2025年商业化。 DDR6 速度 来源: 半导体观察 DDR6的速度将是主流的DDR4的四倍,将是现有DDR5的两倍,DDR6传输速度可达12800 Mbps。 LPDDR6 来源:快科技 L…

OpenAI董事会主席Bret Taylor的Agent公司Sierra:专注于赋能下一代企业用户体验

本文由readlecture.cn转录总结。ReadLecture专注于音、视频转录与总结,2小时视频,5分钟阅读,加速内容学习与传播。 视频来源 youtube: https://www.youtube.com/watch?vriWB5nPNZEM&t47s 大纲 介绍 欢迎与介绍 介绍Bret Taylor&#x…

功耗电流图的对比技巧

电流波形对比 使用系统画图工具的反色和透明设置项目,就可以将2张图合在一块看 方法【系统画图工具】 例如在相同的测试用例,可以对比电流和耗电量的差异

3.使用条件语句编写存储过程(3/10)

引言 在现代数据库管理系统中,存储过程扮演着至关重要的角色。它们是一组为了执行特定任务而编写的SQL语句,这些语句被保存在数据库中,可以被重复调用。存储过程不仅可以提高数据库操作的效率,还可以增强数据的安全性和一致性。此…

Python3 爬虫 中间人爬虫

中间人(Man-in-the-Middle,MITM)攻击是指攻击者与通信的两端分别创建独立的联系,并交换其所收到的数据,使通信的两端认为其正在通过一个私密的连接与对方直接对话,但事实上整个会话都被攻击者完全控制。在中…

LCD屏入门(基于ESP-IDF、SPI屏)

主要参考资料: ESP32-S3 开发 SPI 屏【DIY 智能手表】: https://www.bilibili.com/video/BV1Yc411y7bb/?spm_id_from333.337.search-card.all.click&vd_sourcedd284033cd0c4d1f3f59a2cd40ae4ef9 使用 SPI 屏和 I2C 触屏运行 SquareLine Studio 提供的手表 UI 示…

突触可塑性与STDP:神经网络中的自我调整机制

突触可塑性与STDP:神经网络中的自我调整机制 在神经网络的学习过程中,突触可塑性(Synaptic Plasticity)是指神经元之间的连接强度(突触权重)随着时间的推移而动态变化的能力。这种调整机制使神经网络能够通…

链动 2+1 模式 S2B2C 商城小程序:交易转化的创新引擎

摘要 在数字化商业时代,电商行业竞争激烈,交易转化成为核心问题。链动 21 模式 S2B2C 商城小程序源码作为创新电商模式,通过独特的推荐与分享机制、丰富奖励机制、AI 智能名片及 S2B2C 商城的个性化定制与供应链协同等,在交易转化…

redis+mysql数据一致性+缓存穿透解决方案

在分布式事务中我们知道有cap定理,即 我们保证高可用的情况下,必然要牺牲一些一致性,在保证强一致性的情况下,必然会牺牲一些可用性。而我们redismysql数据一致性的使用策略就是在我们保证可用性的情况下尽量保证数据的一致性。想…

MySql的基本语法操作

查看数据库和表 查看所有的数据库 show databases; 建立一个新的数据库 create database database_name; 也可以是 create database if not exists database_name; 表示这个数据库不存在才建立 而不会打断其他sql语句的执行,而如果没有加的话,创建…

神经网络及大模型科普揭秘

一、生物神经元及神经元构成的神经网络 下图是生物神经元的示意图: 生物神经元由细胞体、树突、轴突、轴突末梢四部分构成。 下图是生物神经网络的一个简单示意图: 生物神经元通过电信号在彼此间传递信号,神经元的各个树突接收输入信号,经过细胞体汇总,如果最终总和高…

【动态规划-最长公共子序列(LCS)】力扣97. 交错字符串

给定三个字符串 s1、s2、s3&#xff0c;请你帮忙验证 s3 是否是由 s1 和 s2 交错 组成的。 两个字符串 s 和 t 交错 的定义与过程如下&#xff0c;其中每个字符串都会被分割成若干 非空 子字符串&#xff1a; s s1 s2 … sn t t1 t2 … tm |n - m| < 1 交错 是 s1…