Meta 首个多模态大模型一键启动！首个多针刺绣数据集上线，含超 30k 张图片

news2026/2/12 21:52:08

小扎在 Meta Connect 2024 主题演讲中宣布推出首个多模态大模型 Llama 3.2 vision！该模型有 11B 和 90B 两个版本，成为首批支持多模态任务的 Llama 系列模型，根据官方数据，这两个开原模型的性能已超越闭源模型。

小编已经迫不及待部署起来了，并第一时间在 hyper.ai 官网上线了 11B 模型的一键部署教程， 欢迎大家一起推理体验~

在线运行：https://go.hyper.ai/DKGzm

9 月 23 日-9 月 27 日，hyper.ai 官网更新速览：

优质公共数据集：10 个
优质教程精选：2 个
社区文章精选：3 篇
热门百科词条：5 条
10 月截稿顶会：7 个

访问官网：hyper.ai

公共数据集精选

1. MSEmbGAN 多针刺绣数据集

该数据集是第一个通过单针和多针标签详细标注的刺绣数据集。通过专业的刺绣软件 (Wilcom 9.0) 制作了超过 30K 的图像，包括刺绣图像和相应的内容图像。本文将构建的多针刺绣数据集贡献给本研究领域的其他研究者。

直接使用：https://go.hyper.ai/urNGE

2. The Movies Dataset 电影信息数据集

该数据集包含了完整 MovieLens 数据集中 45,000 部电影的详尽元数据，这些电影都是在 2017 年 7 月之前上映的。这个数据集不仅涵盖了电影的基本资料，如海报、背景、预算和收入，还包括了上映日期、语言、制作国家和公司等详细信息。

直接使用：https://go.hyper.ai/SDwXX

3. Open X-Embodiment 真实机器人数据集

该数据集汇集了从单臂机器人到双手机器人和四足机器人的 22 种不同机器人类型的数据，由 21 个不同机构合作收集，涵盖了 527 种不同的技能和 160,266 项任务。它是通过汇集来自全球 34 个机器人研究实验室的 60 个现有机器人数据集构建的，展示了各种机器人任务和环境。

直接使用：https://go.hyper.ai/Cqlw6

4. TMDB 5k Movie Dataset 电影信息数据集

该数据集包含了 5k 部电影的详细信息，这些电影主要来自美国地区一百年间 (1916-2017) 的作品。数据集旨在帮助研究人员和分析师探索电影行业的流行趋势、投资方向，以及为电影行业的新入局者提供参考建议。

直接使用：https://go.hyper.ai/zaRFY

5. LongCite-45k 大模型细粒度提升数据集

该数据集包含 44,600 条带有句子级引用的高质量问答数据，支持最长 128k token 的长文本处理，通过生成细粒度的句子级引用，使用户能够验证模型回答的准确性。

直接使用：https://go.hyper.ai/omO5f

6. Full TMDB Movies Dataset 2024 电影资料集

TMDb（电影数据库）是一个综合电影数据库，该数据集包含来自 TMDB 数据库的 1,000k 部电影的集合，提供有关电影的信息，包括标题、评级、上映日期、收入、类型等详细信息。

直接使用：https://go.hyper.ai/r9ks2

7. InfiMM-WebMath-40B 多模态数学推理数据集

该数据集专门为数学推理任务设计的大型开源多模态数据集，包含 2.4k 万网页、 8.5k 万相关图像 URL 和 400 亿个 tokens，所有这些都经过精心提取和过滤，来自 CommonCrawl 数据库 (2019-2023) 。

直接使用：https://go.hyper.ai/P8m9l

8. VoiceAssistant-400K 语音助手优化数据集

VoiceAssistant-400K 是一个专门为语音助手优化的数据集，旨在帮助模型在提供语音助手服务时减少生成代码符号，增强模型在真实应用中的实用性。

直接使用：https://go.hyper.ai/KGIM0

9. Top 5k Albums of All Time 音乐专辑评论数据集

该数据集包含 http://rateyourmusic.com 社区用户评选出的史上最热门的 5k 张专辑。该数据集于 2021 年 10 月 12 日通过抓取获取，包括排名、专辑名称、艺术家姓名、发行日期、流派、描述、平均评分、评分数量和评论数量这些属性。

直接使用：https://go.hyper.ai/c4Olt

10. Spotify daily top 200 songs 音乐歌曲趋势数据集

该数据集包含了 2017 年至 2021 年期间，全球范围内每天的 Spotify Top 200 歌曲列表。这个数据集涵盖了超过 350k 首歌曲，为研究人员和音乐爱好者提供了丰富的信息，用于分析流行趋势、音乐偏好和其他相关研究。

直接使用：https://go.hyper.ai/afvbK

更多公共数据集，请访问：

https://hyper.ai/datasets

公共教程精选

1. 一键部署 Llama-3.2-11B-Vision-Instruct

该模型是 Llama 3.2-Vision 多模态大模型系列的 11B 参数大小，支持高分辨率图像输入（1120x1120 像素），并使用交叉注意力机制与基础模型完成和指令调整的聊天变体。进入官网克隆并启动容器，直接复制 API 地址，即可对模型进行推理体验。

直接使用：https://go.hyper.ai/DKGzm

2.ComfyUl Littletinies 童话故事插图生成 Demo

该模型能够根据文本提示生成手绘卡通风格的图像。这个模型特别适合创造具有经典卡通美学的异想天开和风格化的插图，其生成的图像具有手绘的质感、流畅的笔触，以及柔和的色彩。模型与环境已经部署完毕，根据教程指引即可进行推理生成。

直接使用：https://go.hyper.ai/YHu0a

我们还建立了 Stable Diffusion 教程交流群，欢迎小伙伴们扫码备注【SD教程】，入群探讨各类技术问题、分享应用效果~

在这里插入图片描述

社区文章精选

1. 可智能生成刺绣图案！武汉纺织大学可视计算与数字纺织团队发布首个多缝线刺绣生成对抗网络模型，被顶级期刊 TVCG 录用

武汉纺织大学计算机与人工智能学院胡新荣课题组提出了一种多缝线刺绣生成对抗网络模型 MSEmbGAN，并创建了当前最大刺绣数据集，相关论文还被顶级期刊 TVCG 录用。本文是对论文的详细解读与分享。

查看完整汇总：https://go.hyper.ai/5t8NQ

2. 权威期刊Cell Discovery新成果！上海交大洪亮团队提出CPDiffusion模型，超低成本、全自动设计功能型蛋白质

上海交通大学洪亮团队设计了一种扩散概率模型框架，该框架能够以非常低的训练成本、数据成本学习蛋白质的序列、结构与功能之间的隐含映射关系，从而生成多样化的蛋白质序列。本文是对论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/ziRvz

3. 入选 ECCV 2024！覆盖 5.4w+图像，MIT 提出医学图像分割通用模型 ScribblePrompt，性能优于 SAM

美国麻省理工学院计算机科学与人工智能实验室团队联合麻省总医院和哈佛医学院的研究人员，提出了一种用于交互式生物医学图像分割的通用模型 ScribblePrompt，这是一种基于神经网络的分割工具，支持注释人员使用涂鸦、点击和边界框等不同的注释方式，灵活地进行生物医学图像的分割任务，甚至是对于未经训练的标签和图像类型。本文是对论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/QQjAf

热门百科词条精选

1. Sigmoid 函数

2. 配对 t 检验 Paired t-Test

3. 对比学习 Contrastive Learning

4. 半监督学习 Semi-Supervised Learning

5. 数据增强 Data Augmentation

这里汇编了数百条 AI 相关词条，让你在这里读懂「人工智能」：

https://go.hyper.ai/wiki

在这里插入图片描述