AI跟踪报道第52期-新加坡内哥谈技术-本周AI新闻: X推出的惊人逼真的但不受约束的图像生成器和 GooglePixel 9

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

点击下面视频观看在B站本周AI更新：

B 站链接观看：

本周AI新闻: X推出的惊人逼真的但不受约束的图像生成器和 GooglePixel 9_哔哩哔哩_bilibili想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅: https://rengongzhineng.io/1) postgres.new (https://postgres.new/)2) https://sakana.ai, 视频播放量 1、弹幕量 0、点赞数 0、投硬币枚数 0、收藏人数 0、转发人数 0, 视频作者内哥谈技术, 作者简介 N哥，新加坡。订阅中文简报，成为AI领域的领跑者。https://rengongzhineng.io/，相关视频：小赛罗有机器人玩具！，地表最强AI主播Neuro-sama和她的老父亲Vedal一起正式入驻B站啦！，马斯克Gork2.0，画一张马斯克站起来敬酒的图片，体验一下！，机器人妈妈好不好呀？，【搬运】斯坦福大学ECON295/CS323 2024 | 人工智能时代，埃里克·施密特演讲【 Stanford Online】，入门级开源机器狗MechDog来啦！小身体大能量，智领全龄段AI教育场景！，AI新闻快报：世界即将改变，AI视频换脸真的快变态死了！！！，本周AI新闻:Google 推出gemma 2, Kyutai 开源 Moshi 和 Runway Gen-3挑战 Sora，幽默机器人，跳脸到奥运新闻下面来了https://www.bilibili.com/video/BV1W7p9e6Euc/?vd_source=a981b02467f9b48eb47a3843e6a9ca16

想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅: https://rengongzhineng.io/

1) postgres.new (https://postgres.new/)

2) https://sakana.ai/

3) https://huggingface.co/paige-ai/Virchow

X推出的惊人逼真的但不受约束的图像生成器

本周二，埃隆·马斯克（Elon Musk）的人工智能公司xAI宣布推出两款新的语言模型——Grok-2和Grok-2 mini，面向X平台（前身为Twitter）的高级用户。这些模型还与最近发布的Flux图像合成模型相结合，使X用户能够生成几乎未受审查的照片级逼真图像，并在平台上分享。

根据《The Verge》的一篇报道，Grok的图像生成能力似乎缺乏有效的安全保障，允许用户创建潜在争议性的内容。《The Verge》在测试中发现，Grok能够根据提示生成政治人物处于尴尬境地的图像、受版权保护的角色，以及暴力场景。

例如，用户已经生成了唐纳德·特朗普与卡玛拉·哈里斯在飞机上或其他敏感场景的图像，这些未受限制的输出可能不会持续太久。然而，埃隆·马斯克一直在其平台上强调“言论自由”，因此这项功能可能会保留，直到出现版权或诽谤诉讼。

这种对Grok图像生成器的滥用引发了关于责任归属的旧问题：生成这些有问题的内容究竟该由谁负责？是创建提示的人，开发AI模型的公司，还是托管这些图像的平台？到目前为止，尚无明确共识，美国正在审议的一项名为“NO FAKES法案”的新法律或将让X平台为生成逼真图像的深度伪造负法律责任。

马斯克对此问题进行了回应，他表示xAI正在开发自己的图像生成系统，但目前的这一版本是为了让人们“先玩得开心”，并强调未来将推出更多内容过滤的模型。

除了图像生成之外，xAI在博客中声称Grok-2和Grok-2 mini在能力上有了显著提升，尤其是在与一些领先的AI模型的对比中取得了优异成绩。虽然这些说法需要保持一定的怀疑态度，但Grok-2确实被认为是与OpenAI的GPT-4同级别的模型之一。然而，GPT-4的标杆尚未被超越。

虽然Grok-2展示了强大的视觉推理和文档问答能力，但其最大的问题可能在于它与X平台的深度链接，这让它更容易从推文中拉取不准确的信息，从而影响输出的准确性。这一连接让Grok看起来像是一个依赖社交媒体的朋友，总是优先检查推文，而不是直接给出清晰的答案。

尽管如此，随着企业API的发布以及未来更多功能的推出，xAI是否能在这场AI竞争中保持领先，仍是一个悬而未决的问题。

Google Pixel 9 AI

谷歌正式推出了全新的Pixel 9系列手机，而其中最引人注目的无疑是其大量的AI功能更新。

硬件提升与AI功能齐头并进

在硬件方面，谷歌为所有新款手机增加了内存，以应对需要大量内存的设备端AI处理任务。Pixel 9配备了12GB的内存，而其他机型则配备了16GB内存。

然而，软件才是这次发布的真正亮点。所有Pixel 9系列手机都搭载了一系列独家AI功能，Pro版本还将附赠一年的Google One AI Premium服务，用户可以使用谷歌最强大的AI系统——Gemini Advanced。

以下是谷歌在Pixel 9发布会上宣布的主要AI功能。

Pixel Screenshots：帮助记住重要信息

Pixel Screenshots功能类似于微软的Recall，但它更偏向手动操作。用户可以截图来记录信息，例如计划中的活动或晚餐食谱，之后可以通过对话方式搜索这些保存的信息。谷歌表示这项功能是Pixel设备独有的。

Gemini理解屏幕内容

谷歌借鉴了苹果的做法，让Gemini能够基于手机屏幕内容做出回应。当用户召唤Gemini后，可以点击“询问这个屏幕”或“询问这个视频”，Gemini会根据当前内容提供上下文相关的回复。例如，用户可以将YouTube旅行视频中的餐厅列表添加到Google Maps中。

更快更智能的Gemini助手

谷歌表示，得益于Gemini 1.5 Flash等新模型，Gemini将作为语音助手运行得更快，响应质量更高，错误率更低。此外，谷歌还为Gemini增加了更多扩展功能，它将能够从Google Keep、Tasks、Utilities和Google Calendar等应用中提取信息或执行任务。

Gemini Live语音聊天

谷歌推出了类似于ChatGPT的语音聊天功能，名为Gemini Live。该功能支持自然对话，用户可以在Gemini讲话过程中打断或暂停对话，然后稍后继续。即使手机屏幕被锁定，Gemini Live也可以正常运行。不过，这项功能仅对Gemini Advanced订阅用户开放。

新款Pixel Buds Pro 2用户还可以通过耳机与Gemini对话，只需按住耳机并说“Let’s talk live”。

重新构想你的照片

谷歌为照片编辑添加了新功能Magic Editor，用户可以通过输入文字描述来“重新构想”照片。可以通过提示更改照片的部分内容，也可以选择图像中的某个区域进行编辑。例如，用户可以替换照片中的天空或背景的其他部分，用文字描述创建理想场景。

Add Me功能

Pixel 9相机的“Add Me”选项可以让用户轻松拍摄团体照片，而无需找人帮忙拍照。用户只需拍摄朋友的照片，然后将手机交给他人，自己站到同一个位置，通过增强现实（AR）覆盖层来引导相机构图，之后相机会将两张照片合成在一起。

Pixel Studio应用程序

新的Pixel Studio应用允许用户通过文本提示创建插图。这一功能部分由设备端的扩散模型和谷歌的Imagen 3云端模型提供支持。据谷歌称，该功能需要联网才能使用。

Circle to Search分享功能

谷歌新增了AI驱动的Circle to Search功能，允许用户在图像或屏幕上圈出想要分享的部分，然后通过新的分享按钮发送。这基本上是一个简化的裁剪分享过程，无需繁琐的编辑步骤。

AI天气摘要

谷歌推出了全新的Pixel Weather应用程序，使用Gemini Nano生成AI驱动的天气报告。该应用还允许用户自定义界面的排列方式，可以将诸如紫外线指数等信息放在更显眼的位置。

通话摘要功能

谷歌将使用AI在用户挂断电话后创建通话摘要。例如，当用户在电话中被推荐了一家理发店但忘记记下电话号码时，AI可以帮助提取通话中的关键信息。谷歌表示，通话内容和摘要“永不上传至云端”，并且会在通话前通知所有参与者进行转录和摘要。这一功能适用于通话时长至少为30秒的电话。