全球AI新闻速递527

📢📢📢📣📣📣
哈喽！大家好，我是「奇点」，江湖人称 singularity。刚工作几年，想和大家一同进步🤝🤝
一位上进心十足的【Java ToB端大厂领域博主】！😜😜😜
喜欢java和python，平时比较懒，能用程序解决的坚决不手动解决😜😜😜

❤️❤️❤️感谢各位大可爱小可爱！❤️❤️❤️

1.天猫精灵发布X6智能音箱新品。

2.北京：支持医疗大模型开发、落地，推进AI 辅助治疗。

3.Adobe 预告安卓版 Acrobat 新功能：本地调用 Gemini Nano。

4.百度文心一言推出全新功能：智能配图。

5.Domo AI：上线唇形同步，提升面部对话视频转换效果。

6.腾讯AI实验室：推出TRANSAGENTS智能体框架，处理超长文学内容的翻译工作。

7.Truecaller与微软合作，允许用户克隆声音，让AI帮你接听电话

8.TikTok 推出 Symphony AI工具.

9.亚马逊与 Hugging Face 合作：定制芯片低成本运行 AI 模型。

10.电视和广播中的政治广告的人工智能披露。

美国联邦通信委员会 (FCC) 提出了一项规则，要求政治广告披露是否使用人工智能生成的内容。委员会主席杰西卡·罗森沃塞尔宣布了这项提议，强调消费者应该知道政治广告中何时使用了人工智能工具。该规则适用于有线电视运营商、卫星电视和广播提供商，但不适用于 YouTube 等流媒体服务，因为 FCC 并不监管这些服务。

该提案是制定该法规的第一步，旨在征求公众对其必要性以及如何定义人工智能生成内容的意见。FCC旨在保护公众免受误导性或欺骗性节目的侵害，并确保公众知情。如果通过，该法规可以阻止欺骗性行为，并为对违法者采取行动提供依据。

人工智能的未来

Microsoft Build 大会上最重要的 AI 公告

微软周一以一场轰动性的发布会拉开了序幕，宣布推出一系列功能强大的人工智能电脑。但在本周的 Build 大会上，微软还带来了更多惊喜，从人工智能虚拟员工到自动视频翻译。以下是本次大会上最重大新闻的汇总。

Copilot AI 代理：微软表示，其 AI 助手很快就能自动完成某些任务，从制定会议议程到处理订单再到回复电子邮件。它正在与谷歌和 OpenAI 竞争，后者正在开发自己的 AI 驱动的自主代理。

天空才是极限：人工智能行业一直在争论模型是否会以同样的速度不断改进，或者进展是否会开始趋于平稳。在一次演讲中，特邀嘉宾 Sam Altman 表示，我们还有很长的路要走。微软的首席技术官表示同意：“我们还远远没有达到……我们可以制造出多么强大的人工智能模型，”他说。

高级粘贴： Windows 11 的一项新功能将允许用户跨不同格式进行复制和粘贴。您可以立即将代码转换为不同的语言，或者让 AI 翻译或总结一段复制的文本。

恢复 Paint：微软希望通过一项功能让其图形编辑平台再次变得酷炫，该功能可让用户根据自己的涂鸦实时生成 AI 图像。您还可以使用新的滑块来决定希望 AI 对您的草图进行多大程度的创作。

即时翻译：微软的网页浏览器 Edge 很快就能实时翻译 YouTube、LinkedIn 和其他平台的视频，并配有配音和字幕。初期将支持六种语言，未来计划支持更多语言。

人工智能模型在识别心理状态的测试中表现优于人类

人类是复杂的生物。我们的交流方式是多层次的，心理学家设计了多种测试来衡量我们从彼此互动中推断意义和理解的能力。

人工智能模型在这些测试中的表现越来越好。《自然人类行为》杂志今天发表的新研究发现，一些大型语言模型 (LLM) 在执行旨在测试追踪人们心理状态的能力（即“心智理论”）的任务时，表现与人类一样好，在某些情况下甚至比人类更好。

这并不意味着人工智能系统真的能够理解我们的感受。但它确实表明，这些模型在旨在评估心理学家认为是人类独有的能力的实验中表现越来越好。为了更多地了解法学硕士在这些任务中成功和失败背后的过程，研究人员希望应用他们用来测试人类心智理论的相同系统方法。

理论上，人工智能模型越能模仿人类，它们在与人类的互动中就越有用、越有同理心。OpenAI 和谷歌上周都宣布了增强型人工智能助手； GPT-4o和Astra旨在提供比其前辈更流畅、更自然的响应。但我们必须避免陷入这样的陷阱：相信它们的能力与人类相似，即使它们看起来确实如此。

参与这项研究的汉堡-埃彭多夫大学医学中心神经科学教授克里斯蒂娜·贝基奥表示：“我们自然倾向于将心理状态、思想和意向性归因于没有思想的实体。将心理理论归因于大型语言模型存在风险。”

心智理论是情感和社交智力的标志，它使我们能够推断他人的意图，并与他人互动和产生同理心。大多数儿童在 3 至 5 岁之间掌握此类技能。

研究人员测试了两大语言模型系列，即 OpenAI 的 GPT-3.5 和GPT-4以及 Meta 的Llama的三个版本，测试任务旨在测试人类的心理理论，包括识别错误信念、识别失礼行为以及理解暗示而不是直接表达的意思。他们还测试了 1,907 名人类参与者，以比较得分集。

研究团队进行了五种类型的测试。第一种是暗示任务，旨在衡量一个人通过间接评论推断他人真实意图的能力。第二种是错误信念任务，评估一个人是否能够推断出其他人可能会合理地相信他们碰巧知道的事情并非如此。另一项测试衡量识别某人何时犯错的能力，而第四项测试包括讲述奇怪的故事，其中主角做了一些不寻常的事情，以评估一个人是否能解释所说和所想之间的对比。他们还包括一项测试，看看人们是否能理解讽刺。

人工智能模型在单独的聊天中接受了 15 次测试，因此它们会独立处理每个请求，并且它们的回答会以与人类相同的方式进行评分。研究人员随后对人类志愿者进行了测试，并将两组分数进行比较。

在涉及间接请求、误导和错误信念的任务中，两个版本的 GPT 的表现都达到或超过人类平均水平，而 GPT-4 在讽刺、暗示和奇怪的故事测试中的表现优于人类。Llama 2 的三个模型的表现低于人类平均水平。

然而，在三个 Meta 模型中，最大的一个 Llama 2 在识别失礼场景方面表现优于人类，而 GPT 则一直给出错误的回答。作者认为，这是由于 GPT 普遍不愿意得出关于意见的结论，因为这些模型大多回答说，没有足够的信息让它们以某种方式回答。

“这些模型肯定不是在展示人类的心理理论，”他说，“但我们确实表明，人类有能力对人物或人的心理做出心理推理和推理。”

卡内基梅隆大学助理教授 Maarten Sap（未参与这项研究）表示，法学硕士之所以表现如此出色，原因之一是这些心理测试已经非常完善，因此很可能被纳入他们的训练数据中。“必须承认，当你对孩子进行错误信念测试时，他们可能从未见过这种测试，但语言模型可能见过，”他说。

归根结底，我们仍然不了解 LLM 的工作原理。哈佛大学认知科学家 Tomer Ullman（未参与该项目）表示，这类研究有助于深化我们对这类模型能做什么和不能做什么的理解。但在设置此类 LLM 测试时，重要的是要牢记我们真正衡量的是什么。如果 AI 在旨在衡量心智理论的测试中胜过人类，这并不意味着 AI 具有心智理论。Ullman表示：

“我并不是反对基准测试，但我和一些人担心，我们使用基准测试的方式已经走到了尽头。不管这个东西是如何学会通过基准测试的，我认为它的方式并不像人类。”

犯罪分子使用人工智能的五种方式

生成式人工智能使得网络钓鱼、诈骗和人肉搜索变得比以往任何时候都更加容易。

人工智能给犯罪世界带来了巨大的生产力提升。

安全公司趋势科技的高级威胁研究员 Vincenzo Ciancaglini 表示，生成式人工智能提供了一种新的强大工具包，使恶意行为者能够比以往更加高效和国际化地开展工作。

大多数罪犯“并不是躲在黑暗的巢穴里密谋什么事情”，Ciancaglini 说。“他们中的大多数都是普通人，从事着需要生产力的常规活动。”

去年见证了WormGPT的兴衰，WormGPT 是一种基于开源模型构建的 AI 语言模型，使用恶意软件相关数据进行训练，旨在协助黑客，没有任何道德规则或限制。但去年夏天，该模型的创建者宣布，在该模型开始引起媒体关注后，他们将关闭该模型。自那以后，网络犯罪分子大多停止开发自己的 AI 模型。相反，他们选择使用可靠的现有工具来耍花招。

这是因为犯罪分子想要轻松生活并快速获利，Ciancaglini 解释道。任何新技术要想值得承担采用它所带来的未知风险（例如被抓的风险更高），就必须比他们目前使用的技术更好，并且能带来更高的回报。

以下是犯罪分子目前使用人工智能的五种方式。

1.网络钓鱼

苏黎世联邦理工学院人工智能安全研究员 Mislav Balunović 表示，目前犯罪分子对生成式人工智能的最大使用案例是网络钓鱼，即试图诱骗人们泄露可用于恶意目的的敏感信息。研究人员发现，ChatGPT 的兴起伴随着网络钓鱼电子邮件数量的激增。

Ciancaglini 表示，GoMail Pro 等垃圾邮件生成服务已集成 ChatGPT，这允许犯罪用户翻译或改进发送给受害者的消息。Ciancaglini 表示，OpenAI 的政策限制人们使用其产品进行非法活动，但在实践中很难监管，因为许多听起来无害的提示也可能被用于恶意目的。

OpenAI 表示，它采用人工审核和自动化系统相结合的方式识别和防止模型的滥用，如果用户违反公司政策，则会发出警告、暂停和禁令。

OpenAI 的一位发言人告诉我们：“我们非常重视产品的安全性，并根据人们使用我们产品的方式不断改进我们的安全措施。”他们补充道：“我们不断努力使我们的模型更安全、更强大，能够抵御滥用和越狱，同时保持模型的实用性和任务性能。”

OpenAI 在 2 月份的一份报告中表示，它已经关闭了五个与国家附属恶意行为者有关的账户。

此前，所谓的“尼日利亚王子骗局”中，有人承诺向受害者提供一大笔钱，但受害者只需支付一小笔预付款，这种骗局相对容易被发现，因为消息中的英语很蹩脚，而且充斥着语法错误，Ciancaglini 说道。语言模型允许诈骗者生成听起来像母语人士写的消息。

“过去，说英语的人比较容易被不说英语的人所利用，因为你可以识别出他们传递的信息，”Ciancaglini 说。但现在情况已经不同了。

得益于更先进的人工智能翻译，世界各地的不同犯罪集团之间也能更好地沟通。Ciancaglini 表示，风险在于他们可能会协调跨越本国的大规模行动，并将目标锁定在其他国家的受害者身上。

2.Deepfake 音频诈骗

生成式人工智能让深度伪造技术的发展取得了巨大的飞跃，合成图像、视频和音频看起来和听起来都比以往更加逼真。这引起了犯罪界的注意。

今年早些时候，有报道称，香港一名员工被骗走 2500 万美元，原因是网络犯罪分子利用该公司首席财务官的深度伪造视频，说服该员工将钱转入骗子的账户。“我们看到深度伪造视频终于在地下进行销售，”Ciancaglini 说。他的团队发现，有人在 Telegram 等平台上展示他们的“深度伪造作品集”，并以每张图片 10 美元或每分钟视频 500 美元的低价出售他们的服务。Ciancaglini 说，最受犯罪分子青睐的深度伪造对象之一是埃隆·马斯克。

尽管深度伪造视频的制作仍然很复杂，而且人类更容易发现，但音频深度伪造却并非如此。它们的制作成本很低，只需要几秒钟某人的声音（例如从社交媒体上截取的声音）就能产生令人恐惧的逼真效果。

在美国，曾发生过一些备受关注的案件，人们接到亲人打来的令人痛苦的电话，说他们被绑架了，并要求他们付钱才能获释，但后来发现来电者是一个使用深度伪造语音记录的骗子。

“人们需要意识到，现在这些事情是可能的，人们需要意识到，现在尼日利亚国王不再说蹩脚的英语了，”Ciancaglini 说。“人们可以用另一种声音呼唤你，他们会让你陷入非常紧张的境地，”他补充道。

他说，有些方法可以保护人们自己。Ciancaglini 建议亲人之间约定一个定期更换的秘密安全词，这可以帮助确认电话另一端的人的身份。

“我为我的奶奶设置了密码保护，”他说。

3.绕过身份检查

犯罪分子使用深度伪造的另一种方式是绕过“了解你的客户”验证系统。银行和加密货币交易所使用这些系统来验证他们的客户是否是真实的人。他们要求新用户在镜头前手持实物身份证件拍一张自己的照片。但犯罪分子已经开始在 Telegram 等平台上销售允许人们绕过这一要求的应用程序。

他们通过提供伪造或被盗的身份证件，并在真人脸上叠加一张深度伪造图像来欺骗安卓手机摄像头的验证系统。Ciancaglini 发现，有人以低至 70 美元的价格为加密货币网站 Binance 提供这些服务。

“这些技术还很基础，”Ciancaglini 说。他们使用的技术类似于 Instagram 滤镜，将别人的脸换成你自己的脸。

他说：“我们可以预见的是，未来犯罪分子将使用真正的深度伪造技术......这样你就可以进行更复杂的身份验证。” 4.4.444444444

4.越狱即服务

如果你向大多数人工智能系统询问如何制造炸弹，你将不会得到有用的答复。

这是因为人工智能公司已经采取了各种保护措施，以防止他们的模型散布有害或危险的信息。网络犯罪分子不再在没有这些保护措施的情况下自行构建人工智能模型，因为这样做成本高昂、耗时长且难度大，而是开始接受一种新趋势：越狱即服务。

大多数模型都附带了使用规则。越狱允许用户操纵人工智能系统来生成违反这些政策的输出——例如，编写勒索软件代码或生成可用于诈骗电子邮件的文本。

EscapeGPT 和 BlackhatGPT 等服务提供对语言模型 API 和经常更新的越狱提示的匿名访问。为了打击这种日益壮大的家庭手工业，OpenAI 和 Google 等人工智能公司经常需要修补可能导致其模型被滥用的安全漏洞。

越狱服务使用各种技巧来突破安全机制，例如提出假设性问题或用外语提问。人工智能公司试图阻止其模型出现不当行为，而恶意行为者则想出越来越有创意的越狱提示，两者之间一直存在着猫捉老鼠的游戏。

这些服务正中犯罪分子的下怀，Ciancaglini 说。

“跟踪越狱是一项繁琐的工作。你想出一个新的越狱方案，然后你需要测试它，然后它会运行几周，然后 Open AI 会更新他们的模型，”他补充道。“越狱对犯罪分子来说是一项非常有趣的服务。”

5.人肉搜索和监视

Balunović 表示，AI 语言模型不仅是网络钓鱼的完美工具，也是人肉搜索（在线泄露某人的私人身份信息）的完美工具。这是因为 AI 语言模型经过大量互联网数据（包括个人数据）的训练，可以推断出某人可能位于何处。

举个例子，你可以让聊天机器人假装是一名有分析经验的私家侦探。然后，你可以让它分析受害者写的文字，并从文字中的小线索推断出个人信息——例如，根据他们上高中的时间推断他们的年龄，或者根据他们在上下班途中提到的地标推断他们住在哪里。互联网上关于他们的信息越多，他们就越容易被识别。

Balunović 是一支研究团队的成员，该团队去年年底发现，大型语言模型（例如 GPT-4、Llama 2 和 Claude）能够仅从与聊天机器人的日常对话中推断出人们的种族、位置和职业等敏感信息。理论上，任何有权访问这些模型的人都可以以这种方式使用它们。

自他们的论文发表以来，利用语言模型这一特性的新服务已经出现。

虽然这些服务的存在并不表明存在犯罪活动，但它指出了恶意行为者可能获得的新功能。如果普通人可以构建这样的监控工具，那么国家行为者可能会拥有更好的系统，Balunović 说。

他说：“我们防止这些事情发生的唯一方法就是做好防御。”

他补充说，公司应该在数据保护和安全方面进行投资。

对于个人而言，提高意识是关键。Balunović 表示，人们应该三思而后行，考虑自己在网上分享的内容，并决定是否愿意让自己的个人信息被用在语言模型中。

袖珍型人工智能模型或将开启计算新时代

微软的研究表明，有可能让人工智能模型变得足够小，可以在手机或笔记本电脑上运行，而不会对其智能造成重大损害。该技术可以为人工智能开辟新的用例

使用大型语言模型进行财务报表分析

芝加哥大学布斯商学院研究论文

人工智能与生产力

K-12教师如何看待人工智能

公立 K-12 教师对 ChatGPT 等人工智能平台如何影响教育存在分歧。约三分之一的人表示，人工智能工具给课堂带来了好处和坏处，而四分之一的人表示，它们带来的坏处多于好处。约 6% 的人认为人工智能将带来净积极影响，而最大比例的人（35%）仍不确定人工智能会带来什么影响。

一种新型的互联网浏览方式

Browser Company 发布了一项名为“Call Arc”的新功能。Call Arc 允许用户只需将手机放在耳边说话，就像打电话一样，就能快速获得问题的答案。

这种基于语音的界面旨在为人们提供一种有趣且简单的方式，让他们可以随时随地获取信息，而无需打字。

Arc Search 的新 Call Arc 功能可让您通过“拨打电话”来提问Arc Search 是The Browser Company 推出的新应用，它为用户提供了一种使用语音随时随地快速获取答案的方法。这项由人工智能驱动的功能 Call Arc 的工作原理是让用户快速拨打电话来获取查询答案。

虽然 Arc Search 已经提供语音搜索功能，但新功能旨在让人们以有趣的方式在旅途中快速获得答案。据该公司称，Call Arc 可以帮助回答紧急和小问题。

要使用此功能，请打开应用程序，然后将手机放在耳边并开始提问。然后应用程序将为您提供即时语音响应。

该公司表示，Call Arc 是一种全新的语音搜索方式，可以比打字更快地提供答案，同时也让搜索体验变得像拿起电话给朋友打电话一样简单。

假设你正在做晚餐，对如何准备食材有几个问题。你可以问它这样的问题：“意大利面应该煮多长时间？”应用会给你答案，然后你可以问另一个问题，比如“为什么我应该保留一些煮面的水？”

然后，您可以在做晚餐时继续与人工智能聊天，并询问过程中可能出现的任何问题。在听答案时，用户会在屏幕上看到一个动画笑脸，嘴巴会随着音频回答您的问题而移动。

这家浏览器公司于 1 月推出了 Arc Search，为用户提供一款专门用于回答查询的应用程序。该应用程序具有“为我浏览”功能，可提供一个精心构建的网页，其中包含有关搜索查询的信息。该功能由 OpenAI 和其他公司的模型提供支持，可读取至少六个网页，并为每个查询构建一个包含用户信息的新页面。