全球AI新闻速递6.17

📢📢📢📣📣📣
哈喽！大家好，我是「奇点」，江湖人称 singularity。刚工作几年，想和大家一同进步🤝🤝
一位上进心十足的【Java ToB端大厂领域博主】！😜😜😜
喜欢java和python，平时比较懒，能用程序解决的坚决不手动解决😜😜😜

✨ 如果有对【java】感兴趣的【小可爱】，欢迎关注我

❤️❤️❤️感谢各位大可爱小可爱！❤️❤️❤️
————————————————

如果觉得本文对你有帮助，欢迎点赞，欢迎关注我，如果有补充欢迎评论交流，我将努力创作更多更好的文章。

1.美图：开启“AI工作流”新阶段。

2.阿里巴巴：推出MimicBrush 图片编辑项目，融合部分图片。

3.小爱同学与火山引擎基于豆包大模型。

4.Mozilla：升级 AI 建站服务，增加动画、放宽字符限制。

5.视频模型 Dream Machine 开放测试。

6.苹果尚未与中国本土 AI 供应商达成协议。

7.日本Carelogy 推出养宠 App：借助 AI 帮主人识别猫咪状态。

8.真实照片在AI图片大赛中意外获得两个奖项。

9.英伟达开源 3400 亿巨兽：98% 合成数据训出最强开源通用模型，性能对标 GPT-4o。

10.苹果文生图应用：仅生成卡通图片、元数据标注 AI 生成。

11.国际奥委会主席托马斯・巴赫：巴黎奥运期间将部署 AI 技术保护选手免受骚扰。

12.不同 AI 大模型匿名打 PK：字节跳动扣子平台上线“模型广场”。

13.教皇方济各呼吁全球禁止人工智能武器。

教皇在 G7 峰会上表示：“任何机器都不应该选择夺走人类的生命。”

在意大利普利亚举行的G7年度峰会上，教皇方济各发表讲话，强调了人工智能技术的潜在危险，并呼吁全球各国政府禁止在战争中使用人工智能武器。他提出为这项技术制定道德框架，并强调了合作的必要性，以指导其开发和使用。教皇方济各强调，任何机器都不应该有选择夺走人命的权力。此外，他对人工智能的影响表示担忧，称其为一场“真正的认知工业革命”，并警告这可能加剧已发展国家与发展中国家、社会主流与被压迫阶层之间的不平等。他还提到，技术的使用既可以维持生命也可以夺走生命，未来的人工智能可能达到自主通信和性能提升的奇点。

马斯克宣称特斯拉在“现实世界的人工智能”中名列前茅

特斯拉CEO埃隆·马斯克在股东大会后阶段环节中，强调了特斯拉在股东大会现场的可靠性和可靠性。他自豪地宣称，特斯拉在人工智能领域非常成功，并表示特斯拉在内部技术上实现了超额利润，包括为特斯拉公司提供人工智能解决方案。马斯克特别提到，特斯拉“世界上最好的人工智能软件和最好的人工智能推理芯片”。

特斯拉在自动驾驶和机器人技术方面的长期计划，并声称其技术水平领先于谷歌、Meta和OpenAI等公司。此外，他强调了特斯拉内部编写的操作系统的优越性，符号公司的Optimus人形机器人项目表达了高度的信心，预测其市值将达到25万亿美元。

马斯克还提到了他的新公司xAI以及Skype的聊天机器人，反映了上海浦东新区的蓬勃发展。同时，他的目标受众是年轻人，他的公司也在不断发展变化。

人工智能的未来

人形机器人坐进驾驶座

日本的研究人员正在开发一种新颖的自动驾驶技术，使用一个名为“Musashi”的人形机器人来驾驶汽车。Musashi模仿人类的关节和肌肉结构，可以执行基本驾驶操作，例如转动钥匙、踩油门和刹车，以及识别交通信号。虽然 Musashi 目前动作缓慢，但它代表了自动驾驶领域的一个重要进展，未来有潜力发展成通用人形机器人，能够完成更广泛的任务。

新算法仅通过观看视频就能发现语言

麻省理工学院开发的 DenseAV 只需观看人们说话的视频即可学会解析和理解语言的含义，在多媒体搜索、语言学习和机器人技术方面具有潜在的应用。

麻省理工学院电气工程和计算机科学博士生、麻省理工学院计算机科学和人工智能实验室 (CSAIL) 成员马克·汉密尔顿 (Mark Hamilton) 希望利用机器来了解动物的交流方式。为此，他首先着手创建一个可以“从零开始”学习人类语言的系统。

“有趣的是，灵感的关键时刻来自电影《帝企鹅日记》。有一个场景是一只企鹅在穿越冰面时摔倒，站起来时发出一声痛苦的呻吟。当你观看它时，几乎可以明显看出，这声呻吟代表了一个四个字母的单词。正是在那一刻，我们想到，也许我们需要使用音频和视频来学习语言，”汉密尔顿说。“有没有办法让算法整天看电视，然后从中弄清楚我们在说什么？”

“我们的模型‘DenseAV’旨在通过预测听到的内容来学习语言，反之亦然。例如，如果你听到有人说‘在 350 度下烤蛋糕’，那么你很可能看到的是蛋糕或烤箱。要想在数百万个视频的音频视频匹配游戏中取得成功，模型必须了解人们在谈论什么，”汉密尔顿说。

在他们训练 DenseAV 玩这个匹配游戏后，汉密尔顿和他的同事们开始观察模型在听到声音时寻找哪些像素。例如，当有人说“狗”时，算法会立即开始在视频流中寻找狗。通过查看算法选择了哪些像素，人们可以发现算法认为单词是什么意思。

有趣的是，当 DenseAV 听到狗叫声时，也会发生类似的搜索过程：它会在视频流中搜索狗。“这激起了我们的兴趣。我们想看看算法是否知道‘狗’这个词和狗叫声之间的区别，”汉密尔顿说。该团队通过为 DenseAV 赋予“双面大脑”来探索这一点。有趣的是，他们发现 DenseAV 的大脑一侧自然地专注于语言，比如“狗”这个词，而另一侧则专注于像吠叫这样的声音。这表明 DenseAV 不仅学会了单词的含义和声音的位置，还学会了区分这些类型的跨模态连接，所有这些都无需人工干预或任何书面语言知识。

其中一个应用分支是从每天发布到互联网的大量视频中学习：“我们希望系统能够从大量视频内容中学习，例如教学视频，”汉密尔顿说。“另一个令人兴奋的应用是理解新的语言，例如海豚或鲸鱼的交流，这些语言没有书面交流形式。我们希望 DenseAV 可以帮助我们理解这些从一开始就逃避人类翻译努力的语言。最后，我们希望这种方法可以用来发现其他信号对之间的模式，例如地球发出的地震声和它的地质。” 团队面临着一项艰巨的挑战：在没有任何文本输入的情况下学习语言。他们的目标是从一张白纸上重新发现语言的含义，避免使用预先训练的语言模型。这种方法的灵感来自于儿童通过观察和聆听周围环境来理解语言的方式。

为了实现这一壮举，DenseAV 使用两个主要组件分别处理音频和视觉数据。这种分离使算法无法作弊，因为视觉部分负责处理音频，反之亦然。它迫使算法识别物体，并为音频和视觉信号创建详细而有意义的特征。DenseAV 通过比较音频和视觉信号对来学习，以找出哪些信号匹配，哪些信号不匹配。这种方法称为对比学习，不需要标记示例，并允许 DenseAV 找出语言本身的重要预测模式。

DenseAV 与之前算法的一个主要区别是，之前的研究只关注声音和图像之间的相似性这一单一概念。整个音频片段（例如某人说“狗坐在草地上”）与整张狗的图像相匹配。这使得之前的方法无法发现精细的细节，例如单词“草”与狗下面的草之间的联系。该团队的算法会搜索并汇总音频片段和图像像素之间所有可能的匹配。这不仅提高了性能，还使团队能够以之前算法无法做到的方式精确定位声音。“传统方法使用单个类标记，但我们的方法会比较声音的每个像素和每一秒。这种细粒度的方法让 DenseAV 能够建立更详细的联系，从而实现更好的定位，”Hamilton 说。

研究人员在 AudioSet 上训练了 DenseAV，其中包含 200 万个 YouTube 视频。他们还创建了新的数据集来测试模型将声音和图像关联起来的效果。在这些测试中，DenseAV 在通过名称和声音识别物体等任务中的表现优于其他顶级模型，证明了其有效性。“以前的数据集仅支持粗略评估，因此我们使用语义分割数据集创建了一个数据集。这有助于像素完美的注释，从而精确评估我们模型的性能。我们可以用特定的声音或图像提示算法，并获得这些详细的定位，”汉密尔顿说。

由于涉及的数据量巨大，该项目耗时约一年。该团队表示，过渡到大型 Transformer 架构带来了挑战，因为这些模型很容易忽略细粒度的细节。鼓励模型关注这些细节是一个重大障碍。

展望未来，该团队的目标是创建能够从大量视频或纯音频数据中学习的系统。这对于存在大量视频或音频模式但不会同时存在的新领域至关重要。他们还计划使用更大的主干网来扩展这一系统，并可能整合来自语言模型的知识以提高性能。

“识别和分割图像中的视觉对象以及音频记录中的环境声音和口语，本身就是一个难题。历史上，研究人员一直依赖昂贵的人工注释来训练机器学习模型来完成这些任务，”德克萨斯大学奥斯汀分校计算机科学助理教授 David Harwath（未参与这项研究）表示。“DenseAV 在开发可以通过简单地通过视觉和声音观察世界来同时学习解决这些任务的方法方面取得了重大进展——基于这样的见解：我们看到和与之互动的事物通常会发出声音，我们也使用口语来谈论它们。该模型也不对正在说的特定语言做任何假设，因此原则上可以从任何语言的数据中学习。如果 DenseAV 能够通过将其扩展到多种语言的数千或数百万小时的视频数据来学习，那将是一件令人兴奋的事情。”

这篇描述该项工作的论文的其他作者包括牛津大学计算机视觉工程教授 Andrew Zisserman、谷歌 AI 感知研究员 John R. Hershey 和麻省理工学院电气工程和计算机科学教授兼 CSAIL 首席研究员 William T. Freeman。他们的研究部分得到了美国国家科学基金会、皇家学会研究教授职位和 EPSRC 计划资助的 Visual AI。这项研究将于本月在 IEEE/CVF 计算机视觉和模式识别会议上发表。

人工智能与生产力
Midjourney 改进了网站生成工具！

Midjourney 最近对其进行了一系列更新，以改善用户的信息编辑体验。这些更新包括简化了灯箱上的按钮，并添加了新的图像编辑功能，如“重新构图”和“重绘”。新的“重新构图”功能替代了之前的平移和缩放按钮，以便通过滑块调整图像的尺寸和方向，并利用开始/中心/结束按钮确定图像的定位。此外，“重绘”功能现在被简化命名重绘，为精选区域的细节进行编辑。

这次更新还有一些在图像上显示的新功能，使用户能够实时了解网站性能。此外，Midjourney增加了个性化图像生成功能，用户在北京图像进行评级，并应用个性化的风格定制。这些改进旨在提供更好的用户体验，并增强图像编辑的灵活性和控制度。
AI图像生成的 4 个阶段：体验地图

AI图像生成用户通常遵循类似的创作过程：构思、生成、完善和导出。

了解专家用户在图像生成过程中如何使用 AI 工具可以帮助设计师和其他初学者用户更好地在他们的项目中使用这些工具；它还可

我们的研究

我们进行了九次情境调查，以了解用户在使用 AI 生成图像时的自然行为。参与者被邀请使用他们喜欢的任何图像生成工具；所有九位参与者都选择了 Midjourney。

在会议期间，我们观察了参与者的创作过程模式，无论他们创作什么。我们将这些用户旅程提炼成高级体验图，以表示大多数用户如何实现他们的目标。

AI 图像生成过程：4 个阶段

研究参与者在生成 AI 图像时经历了四个阶段：

第一阶段：定义

用户通过定义他们的目标然后思考如何实现它来开始图像生成过程。

确定目标

用户的目标要么是灵感导向，要么是可交付成果导向。

灵感导向

当人们对最终输出缺乏预先确定的想法时，人们会使用图像生成工具来收集灵感，寻求概念而不是具体的细节或可导出的图像。

我们的研究示例包括：

1.收集 Second Life 家具的灵感；

2.创建拟人化动物可能设计的目录；

3.为客户探索徽标概念。

以交付物为导向

其他用户的主要目标是创建精美的高保真输出，力求完美，尽量减少对 AI 工具之外的调整。这些图像是最终产品，需要关注细节和迭代。

我们的研究示例包括：

1.为棋盘游戏制作最终视觉效果；

2.设计最终客户海报；

3.制作电影故事板。

确定如何实现目标

一旦用户定义了他们的目标（无论是灵感导向还是可交付成果导向），他们就会思考如何实现它。

由于表达障碍，这一步让一些研究参与者感到不知所措。用户通过参考其他来源（包括过去的图像、生成式人工智能 (genAI) 聊天机器人的指令或外部资源）克服了这个空白页问题。

以过去的图像作为起点

一些参与者依靠滚动浏览他们之前生成的图像来寻找与他们当前目标类似的东西。

由于许多参与者都曾参与过多个类似他们在我们课程中进行的项目，因此在开始新任务时，他们拥有大量的过去案例可供选择。

以生成式人工智能聊天机器人为起点

我们的许多参与者在创作过程开始时经常使用聊天机器人（主要是 ChatGPT）作为图像生成提示想法的来源。

其中一位尝试为儿童卧室制作海报，他向 ChatGPT 询问了10 个可以在海报上展示的乐高车辆玩具创意。

另一位参与者想探索工业设计概念艺术。他提示 ChatGPT 给他提供了5 种新型未来材料的例子，然后他在提示中使用这些材料创作了概念艺术。

参与者还使用 genAI 聊天机器人为他们的想法生成提示，然后将这些提示复制并粘贴到 Midjourney 中。

以外部资源为起点

一些研究参与者访问了Midlibrary等网站，这是一个由人工智能生成的图像和提示组成的众包存储库，可供从中挑选想法。

第二阶段：探索

第一阶段的输出是清晰的想法、愿景或图像提示。在第二阶段，用户尝试创建一个与他们的愿景大致匹配的图像；然后可以对该图像进行调整以获得最终输出。

创造数量

在确定目标后，参与者使用该工具生成图像。探索阶段通常涉及创建许多图像（从 20 到 80 张不等），以增加一张图像与他们的愿景足够一致的可能性。

例如，我们的一位参与者想要创建一张乐高玩具拖拉机的图片。他在 Midjourney 中生成了 20 批图像（总共 80 张图像），并选择了一张图像。另一位参与者想要生成一张蒸汽朋克主题沙发的图像。他们为同一概念创建了几个提示，并对所有提示进行了测试。

我们观察到的专家用户采用了两种常见的策略来有效地创造数量：迅速重复和迅速变化。

及时重复

这种技术涉及重复相同的提示，以“穷尽”与一个创意方向相关的“可能性”。由于人工智能图像生成算法固有的随机性，这种做法导致同一概念产生许多变体，让人们可以选择他们最喜欢的。

我们研究中的专家用户使用提示快捷方式（例如Midjourney 中的--r 10后缀）根据相同提示快速生成许多（在本例中为 10）批图像。

提示变化

提示变化包括为同一目标图像编写几个略有不同的提示。提示词汇量大的参与者使用提示变化来探索多个创意方向。

例如，一位参与者使用提示变化来生成拟人化的狐狸角色：

提示 1：拟人化的狐狸，牛仔镜头，非常详细

提示 2：拟人化的狐狸人混合体，全身吉祥物，高度详细

提示 3：人身上的狐狸头

这种提示策略也带来了挑战。快速想出大量提示替代方案对普通用户来说是一项认知挑战。

然而，专业用户拥有更丰富的技术词汇：他们知道“turnaround sheet”之类的术语会产生许多字符变体，或者使用Midjourney 中的/describe功能等内置功能（该功能为给定图像提供 5 种不同的提示措辞）。他们还会使用 Midlibrary 等来源的模型提示，并且通常更善于弄清楚如何克服表达障碍。

在探索中发现新想法

虽然用户通常在定义阶段就建立了初步的设想，但探索阶段经常会发现超越其原始概念的想法。用户通常会放弃最初的想法，转而选择更符合其愿景或偏好的图像。

据参与者称，人工智能生成的想法往往是“令人惊喜的”，引导他们探索新的和改进的方向。对许多人来说，发现比他们最初设想更优越的替代方案是人工智能图像生成的主要好处。

一旦用户创建了与他们对主题、美学和构图的期望大致匹配的图像，他们就会倾向于进入下一步，即“优化”，以解决缺陷并进一步改善图像。

然而，在灵感导向的情况下，细节并不重要，或者将使用 AI 图像生成工具外部的工具进行细化，探索阶段可能标志着 AI 图像生成过程的结束。

第三阶段：完善

在此阶段，用户调整图像以使其尽可能接近所需的输出。即使对于专家来说，这个阶段也是最复杂和最困难的。一位使用 Midjourney 的参与者说：“Midjourney 是一个生成器，而不是一个 [图像] 编辑器。”用户以多种方式完善图像。我们观察到参与者从图像中添加、删除或更改特定对象或更改构图以获得最终结果。

缺乏用户控制：对抗人工智能

一名研究参与者想要创建一张蒸汽朋克主题沙发的图像。经过多次迭代，她得到了一张她满意的沙发图像，但她想将沙发的装饰从纯色改为条纹色。由于人工智能工具的随机性，这种编辑非常困难，因为每次她尝试进行调整时，沙发的外观都会发生变化。

更改 AI 生成图像的小细节可能是一项艰巨而耗时的任务。参与者经常会感到沮丧，因为当前 AI 图像生成工具缺乏用户控制（可用性启发法 #3）。与传统的图像处理软件不同，这些工具对精细调整的支持有限，这意味着用户最终需要与 AI 对抗才能实现预期结果。因此，用户经常会感到不满意，因为最终的图像往往不够完美。

第四阶段：导出

当达到提示所能达到的极限后，用户就可以将图像导出到工具之外。

他们使用 Photoshop 等其他工具进行收尾工作和最终编辑，使用 AI 放大器放大图像（即增加图像大小），或添加文本覆盖图像。此阶段结束了他们针对该特定任务的设计过程。

非线性变化

虽然我们描述了 AI 图像生成过程的四个阶段，但并不是每个人都会经历所有阶段。个人用户的目标和体验最终决定了他们的旅程如何以及他们在每个阶段花费了多少时间。

灵感导向的创作者花更多时间探索

具有灵感导向目标的用户会在定义和探索阶段花费更多时间，并且可能会跳过优化和导出阶段，因为他们只想要图像创意而不是图像可交付成果。

例如，一位参与者在寻找徽标灵感。他在 Midjourney 中创建了几个不同的徽标创意，但决定就此止步，因为在收集了潜在的设计方向后，他计划在 Figma 中制作最终徽标。

以交付成果为导向的创作者会花更多时间进行完善

当使用 AI 生成的图像作为最终交付物时，用户试图使细节尽可能接近完美。他们从定义和探索阶段开始，但随后大部分时间都花在了优化和导出阶段。优化阶段缺乏用户控制，使这个过程对用户来说充满挑战，甚至令人沮丧。

例如，参与者为儿童卧室设计了一张乐高风格拖拉机的海报，他使用 ChatGPT 提出了这个想法，然后在 Midjourney 上花费了大部分时间，将这个想法转化为精美的最终图像。

结论

了解专家的图像生成过程对于 AI 图像生成工具的用户和设计者来说都很有价值。

AI 图像生成工具的用户可以学习如何更好地实现目标。例如，他们可以使用聊天机器人来创建提示，并可以在迭代过程中开始改变提示。

了解用户的创作过程有助于 AI 图像生成产品的设计师识别痛点和需要改进的领域（例如，需要在“优化”阶段给予用户更多控制权）。通过了解以灵感为导向和以可交付成果为导向的用户的不同需求，设计师可以创建更具针对性和效率的工具，这些工具不仅可以促进创意探索，还可以简化工作流程，从而提高用户实现目标的可能性。