20240822 每日AI必读资讯

news2026/2/12 9:23:30

特斯拉雇佣员工通过穿戴动捕服来帮助训练其人形机器人Optimus！

- 该职位被称为“数据采集操作员”，时薪最高可达48美元，要求员工每天行走超过七小时，携带高达30磅的重量，并长时间佩戴VR头显。

- 员工还必须身高在5英尺7英寸到5英尺11英寸之间——这可能与Optimus预计的5英尺8英寸的身高范围相近。

微软发布Phi-3.5-vision 轻量级、多模态的开源模型

- 端侧运行，多模态性能大幅提升，可进行复杂视觉推理

- 具备广泛的图像理解、光学字符识别（OCR）、图表和表格解析、多图像或视频剪辑摘要等功能

- 包括三款模型：

Phi-3.5 Mini Instruct：轻量级，适用于计算受限环境中的推理任务。

Phi-3.5 MoE：结合多个专家模型，适用于复杂的推理任务。
Phi-3.5 Vision Instruct：专注于多模态任务，如图像理解和视频摘要。

🔗模型下载：https://huggingface.co/microsoft/Phi-3.5-vision-instruct

字节跳动 Seed-ASR：自动语音识别模型

- Seed-ASR在超过2000万小时的语音数据和近90万小时的配对ASR数据上进行了训练。

- 支持精准识别普通话和13种中国方言，以及各种口音的英语和其他7种语言。

- 具有强大的上下文感知能力，能够识别在特定上下文下的语音内容。例如，模型可以利用历史对话或会议记录来更准确地识别当前语音中的人名、地名或其他上下文相关的关键词。

🔗项目地址：https://bytedancespeech.github.io/seedasr_tech_report/

- 多领域语音

•日常对话：Seed-ASR 能够识别日常对话中的语音，无论是简单的交流还是包含复杂上下文的信息。

•会议记录：模型能够识别和转录会议中的语音内容，包括多说话人场景和带有背景噪音的环境。

•视频和直播：Seed-ASR 在处理视频和直播中的语音时表现出色，能够适应不同的音频质量和背景环境。

•语音搜索：适用于智能助手和语音搜索场景，模型能够准确识别和理解用户的语音指令。

•特定领域专业术语：Seed-ASR 还能够识别包含专业术语的语音输入，如医疗、科技、汽车、音乐等领域的特定内容。

🔗 https://blink.csdn.net/details/1792089

OpenAI 推出了 GPT-4o 微调功能，每天免费送100万Token

- 允许开发者为特定用例定制模型，提供每天 100 万个免费的 GPT-4o 训练令牌和 200 万个免费的 GPT-4o mini 令牌。

- @CosineAI团队通过微调 GPT-4o ，使得其Genie AI工程师在 SWE-bench 上达到了 SOTA。

- Genie 能够自动识别和解决错误，构建新功能，并在与用户协作时进行代码重构。

- 通过精细调校的 GPT-4o 模型，Genie 在上周二宣布的新 SWE-bench Verified 基准上取得了 43.8%的 SOTA 分数。Genie 在 SWE-bench Full 上也保持了 30.08%的 SOTA 分数，超越了其之前的 19.27%的 SOTA 分数，成为该基准历史上最大的改进。

🔗原文：https://openai.com/index/gpt-4o-fine-tuning/

🔗文档：https://platform.openai.com/docs/guides/fine-tuning

v0 发布新的基于聊天的网页开发助手！类似Claude的Artifacts功能

- 可生成用户界面、自动编写运行代码

- 拥有丰富的TypeScript、React、Next.js、Vercel等前端技术的知识。

- 可以把v0视为你个人的web前端开发助手。

- 能调试代码、回答开发问题、生成代码，生成代码运行效果和交互界面等。

- v0可以根据你的需求执行以下几种任务：

1、生成用户界面（UI）：如果你请求v0生成某种类型的UI（如表单、按钮、布局等），它可以为你编写相应的代码，并生成UI的代码片段。

2、运行代码：v0可以帮助你执行或运行代码段，提供实时反馈，帮助你调试或验证代码的功能。

3、回答编程相关问题：你可以向v0提出关于web开发、前端技术（如TypeScript、React、Next.js等）的任何问题，v0会一步步为你解答，帮助你解决技术问题。

🔗详细介绍及案例演示：https://xiaohu.ai/p/12646

🔗在线体验：https://v0.dev/chat