AAAI‘25 今日截稿！SD 核心成员开源比 Midjourney 还强的文生图模型，现已提供一键启动

Midjourney 真的不香了！继 Stable Diffusion 3 于 6 月开源后，Stability AI 前核心成员 Robin Rombach 带领着新团队在本月初推出了 FLUX.1 图像生成模型家族。官方声称 FLUX.1 在多个关键指标上超越了 Midjourney v6.0 和 DALL·E 3 等文生图的头部模型，还是开源的。说的这么强，你是不是也摩拳擦掌了呢？

hyper.ai 官网现已在教程板块上线了「FLUX.1-schnell 文生图 Demo」， 一键克隆即可开玩，下拉文章获取链接~

8 月 12 日-8 月 16 日，hyper.ai 官网更新速览：

优质教程精选：3 个
优质公共数据集：10 个
社区文章精选：4 篇
热门百科词条：5 条
8 月截稿顶会：2 个

访问官网：hyper.ai

公共教程精选

1. FLUX.1-schnell 文生图 Demo

FLUX.1 是一个 120 亿个参数的大模型，能够从文本描述中生成图像，在即时跟踪、视觉质量、图像细节和输出多样性方面都达到了最先进的水平。该教程使用的是 FLUX.1 [schnell] 版本模型，模型与环境部署完毕，大家可根据教程指引直接使用大模型进行推理生成。

直接使用：https://go.hyper.ai/peksE

2. 在线教程 | 仅需 1 张图片即可生成完整绘画过程，Lvmin Zhang 新作 Paints-Undo 上线！

ControlNet 作者张吕敏 (Lvmin Zhang) 开发了名为 Paints-Undo 的新项目，能够快速拆解任意图像的绘画过程，帮助初学者更好地理解不同风格图像的绘画技巧。HyperAI超神经现已上线了「Paints-Undo 一张图生成绘画全过程 Demo」，该教程为大家搭建好了环境，无需输入任何命令，一键克隆即可启动！

直接使用：https://go.hyper.ai/EwBE0

3. 一键部署浦科化学大模型 ChemLLM-7B-chat Demo

ChemLLM-7B-Chat 是上海人工智能实验室（上海 AI 实验室）于 2024 年开源的首个用于化学和分子科学的开源大型语言模型「浦科化学 (ChemLLM）」。该教程为模型一键部署 Demo，只需克隆并启动该容器，直接复制生成的 API 地址，即可对模型进行推理体验。

直接使用：https://go.hyper.ai/X8V9z

公共数据集精选

1. ChemData 化学任务数据集

该数据集是由上海人工智能实验室与其发布的首个科学大模型浦科化学大模型 (ChemLLM) 一同开源的，主要包含了 9 项化学核心任务，730K 个高质量问答的大语言模型化学能力指令微调数据集。

直接使用：https://go.hyper.ai/94tF1

2. ChemBench4K 化学能力评测基准数据集

该数据集是由关于化学分子和反应的 9 个任务组成，包含 4,100 个多项选择题，该基准为客观衡量大语言模型的化学水平奠定了基础。

直接使用：https://go.hyper.ai/itsdU

3. BRIGHT 文本检索基准数据集

该数据集从不同领域（StackExchange 、 LeetCode 和数学竞赛）收集了 1,385 个真实查询，这些查询全部来自真实的人工数据。BRIGHT 数据集专门设计用来检索系统是否能够识别这种深层次的逻辑关系，并找到相关的学术文章或报告。

直接使用：https://go.hyper.ai/s735d

4. Multimodal ArXiv 科学理解数据集

Multimodal ArXiv 由 ArXivCap 和 ArXivQA 组成，以增强 LVLM 的科学理解能力。ArXivCap 是一个图形标题数据集，包含 640 万张图像和 390 万条标题。ArXivQA 是一个通过提示基于科学图形的 GPT-4V 生成的问答数据集。相关成果已被 ACL 2024 接受。

直接使用：https://go.hyper.ai/n64Jh

5. SPIQA 多模态科学论文问答数据集

这是首个专门设计用于解释计算机科学各个领域科学研究文章中复杂图形和表格的大型 QA 数据集，包含 270K 个问题，分为训练、验证和 3 个不同的评估部分。通过对 12 个著名的基础模型进行大量实验，团队评估了当前多模态系统理解研究文章细微方面的能力。

直接使用：https://go.hyper.ai/qd7I2

6. MMEvaIPro 多模态基准评估数据集

MMEvalPro 通过增加两个「锚」问题（1 个感知问题和 1 个知识问题）来改进现有的评估方法，形成测试模型多模态理解不同方面的「问题三元组」。最终的基准包含 2,138 个问题三元组，总共 6,414 个不同的问题，涵盖不同主题和难度级别。

直接使用：https://go.hyper.ai/Hw8JA

7. PubMedVision 大规模医学 VQA 数据集

PubMedVision 是一个大规模且高质量的医疗多模态数据集，研究团队通过精细的数据处理方法，从 PubMed 国际医学期刊的论文中筛选出与医疗相关的图片及有信息量的图片描述，有效过滤了大量医疗无关的图片和上下文不相关内容。
直接使用：https://go.hyper.ai/Uy8XM

8. Multi modal Self instruct 多模态基准数据集

该数据集共包含 11,193 个带有相关问题的抽象图像，涵盖了仪表板、路线图、图表、表格、流程图、关系图、视觉谜题和 2D 平面图等 8 大类别，此外还有额外的 62,476 条数据用于微调模型。

直接使用：https://go.hyper.ai/FwGuz

9. Assetto Corsa Gym 大规模自动驾驶赛车模拟基准

该数据集收集了 6,400 万步的赛车驾驶数据，其中 230 万步来自不同驾驶水平的人类驾驶员，其余来自 Soft Actor-Critic (SAC) 策略。

直接使用：https://go.hyper.ai/6tfuM

10. MiraData：具有长时长和结构化字幕的大规模视频数据集

MiraData 专注于 1 至 2 分钟的未剪辑视频片段（平均时长 72.1 秒），每个视频都配有不同角度的结构化描述，描述平均长度为 318 个字，确保了视频内容的全面呈现。该数据集为长视频生成、视频内容理解与生成领域的研究者提供了宝贵的资源和新的挑战机遇。

直接使用：https://go.hyper.ai/2LmEJ

更多公共数据集，请访问：

https://hyper.ai/datasets

社区文章精选

1. ACL 2024 公布 7 篇最佳论文，华中科技大学本科生一作成果获奖

8 月 14 日，ACL 2024 的各类奖项逐一揭晓，共有 7 篇成果荣获 Best Paper，华中科技大学、阿德莱德大学、安阳师范学院、华南理工大学共同发表的「Deciphering Oracle Bone Language with Diffusion Models」获奖，HyperAI超神经为大家带来了详细解读。

查看完整报道：https://go.hyper.ai/t5Zon

2. 麻省理工/ CETI 团队用机器学习技术分离出抹香鲸发音字母表！高度类似人类语言系统，信息承载能力更强！

近期，麻省理工学院 Pratyusha Sharma 以及 CETI 的研究者使用机器学习对抹香鲸的录音进行了分析，证实了抹香鲸发出的声音具有结构性，由不同特征组合形成，并且分离出了抹香鲸发音字母表，与人类语言表达系统高度类似。本文是对研究论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/nA23S

3.国产光芯片重大突破！清华团队利用神经网络，首创全前向智能光计算训练架构

近期，清华大学戴琼海院士、方璐教授研究团队抓住了光子传播具有对称性这一特性，将神经网络训练中的前向与反向传播都等效为光的前向传播，开发出了一种全前向模式学习的方法。本文是对研究论文的详细解读与分享。

查看完整报道：https://go.hyper.ai/lxNhj

4. 材料探索新纪元！清华大学徐勇、段文晖团队发布神经网络密度泛函框架，打开物质电子结构预测的黑箱！

为了将神经网络算法和 DFT 算法更有机地结合起来，清华大学徐勇、段文晖课题组提出了神经网络密度泛函理论 (neural-network DFT) 框架。该框架统一了神经网络中损失函数的最小化与密度泛函理论中的能量泛函优化，相比传统的有监督学习方法，具有更高的准确性和效率，为发展深度学习 DFT 方法开辟了一条新的途径。本文是对研究论文的详细解读与分享。
查看完整报道：https://go.hyper.ai/oE7nH

热门百科词条精选

1. 配对 t 检验 Paired t-Test

2. 倒数排序融合 RRF

3. 帕累托前沿 Pareto Front

4. 大规模多任务语言理解 MMLU

5. 数据增强 Data Augmentation

这里汇编了数百条 AI 相关词条，让你在这里读懂「人工智能」：

https://go.hyper.ai/wiki

在这里插入图片描述