微软发布 Phi-3.5 系列模型,涵盖端侧、多模态、MOE;字节 Seed-ASR:自动识别多语言丨 RTE 开发者日报

news2024/11/26 2:47:18

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、微软发布 Phi-3.5-vision 轻量级、多模态的开源模型,端侧运行,可进行复杂视觉推理

微软发布 Phi-3.5-vision 轻量级、多模态的开源模型,其属于 Phi-3 模型家族。该模型专为需要文本和视觉输入的应用而设计,重点处理高质量、高推理密度的数据。它支持 128K 的上下文长度,并经过严格的微调和优化过程,旨在在内存或计算资源有限、低延迟要求高的环境中广泛用于商业和研究领域。

该模型具备广泛的图像理解、光学字符识别(OCR)、图表和表格解析、多图像或视频剪辑摘要等功能,非常适合多种 AI 驱动的应用,在图像和视频处理相关的基准测试中表现出显著的性能提升。

Phi 3.5 系列 AI 模型包括三款不同特点的模型:Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct。这些模型在 Hugging Face 平台上开源,并获得了 Microsoft 的 MIT 许可证,允许不受限制的商业应用和修改。

Phi-3.5-mini-instruct 是一款轻量级模型,拥有 38.2 亿参数,支持 128k token 上下文长度,适合在内存或算力受限的设备上使用,并且在多语言和多轮对话任务中表现良好。Phi-3.5-MoE-instruct 是微软 Phi 模型中的首个 MoE 模型,采用混合专家架构,拥有 420 亿个参数,专注于处理高质量推理密集数据,并在专业学科领域的 MMLU 基准测试中击败了 GPT-4o mini。Phi-3.5-vision-instruct 是一个多模态模型,集成了文本和图像处理功能,适用于图像理解、光学字符识别等任务,并在视觉任务基准测试中表现出色。(@雷锋网)

2、字节跳动 Seed-ASR:自动语音识别模型,可识别不同语言、方言、口音

字节跳动豆包近期推出的 Seed-ASR 是一款先进的自动语音识别模型,能够识别多种语言、方言和口音。Seed-ASR 通过超过 2000 万小时的语音数据和近 90 万小时的配对 ASR 数据进行训练,展现出了卓越的识别能力。

该模型支持精准识别普通话以及 13 种中国方言,同时具备处理各种口音的英语和其他 7 种语言的能力。Seed-ASR 还具备强大的上下文感知能力,能够根据特定场景,如历史对话记录、会议纪要等信息,更准确地进行语音内容的识别。此外,Seed-ASR 可以进一步部署以支持各种场景中的特定需求,而无需额外的语言模型。(@站长之家)

3、v0 发布一个基于聊天的网页开发助手,可生成用户界面、自动编写运行代码

v0 发布一个基于聊天的网页开发助手,用户可以通过聊天的方式与 v0 互动,让它帮助调试代码、回答开发问题、生成代码等,专门用于前端开发领域,可以为用户提供关于这些技术的深入指导和帮助。无论是编写代码、优化性能、部署应用,还是解决技术难题,v0 都能提供专业的支持和建议。

它拥有丰富的 TypeScript、React、Next.js、Vercel 等前端技术的知识。用户可以把 v0 视为个人的 web 开发助手,能够帮助处理与 web 开发相关的各种问题,提供建议、解决方案和技术支持。

v0 可以根据需求执行以下几种任务:

1.生成用户界面(UI):如果用户请求 v0 生成某种类型的 UI(如表单、按钮、布局等),它可以编写相应的代码,并生成 UI 的代码片段

2.运行代码:v0 可以帮助执行或运行代码段,提供实时反馈,帮助调试或验证代码的功能

3.回答编程相关问题:用户可以向 v0 提出关于 web 开发、前端技术(如 TypeScript、React、Next.js 等)的任何问题,v0 会一步步解答,帮助解决技术问题(@小互 AI)

4、Meta 部署新网络爬虫机器人,为其 AI 模型收集大量数据

Meta 悄悄发布了一款新的网络爬虫,可用于搜索互联网并收集大量数据,为其人工智能模型提供支持。

据三家追踪网络抓取器的公司称,Meta 新网络爬虫机器人 Meta External Agent 于上月推出,类似于 OpenAI 的 GPTBot,可以抓取网络上的人工智能训练数据,例如新闻文章中的文本或在线讨论组中的对话。

根据使用档案历史记录显示,Meta 确实在 7 月底更新了一个面向开发者的公司网站,其中一个标签显示了新爬虫的存在,但 Meta 至今还没有公开宣布其新爬虫机器人。

Meta 的 Llama 是最大的 LLM 之一,虽然该公司没有透露最新版本的模型 Llama 3 使用的训练数据,但其初始版本的模型使用了由 Common Crawl 等其他来源收集的大型数据集。今年早些时候,Meta 的联合创始人、首席执行官马克・扎克伯格在一次财报电话会议上曾吹嘘说,公司的社交平台已经积累了一套用于人工智能训练的数据集,甚至「超过了 Common Crawl」。

新爬虫的存在表明 Meta 庞大的数据库可能已经不够用了,因为该公司继续致力于更新 Llama 和扩展 Meta AI,通常需要新的和高质量的培训数据来不断改进功能。

来自 Dark Visitors 的数据显示,全球近 25% 的最受欢迎的网站现在已屏蔽了 GPTBot,但只有 2% 的网站屏蔽了 Meta 的新爬虫机器人。(@IT 之家)

5、Salesforce 推出 xGen-MM 开源多模态 AI 模型

在这里插入图片描述

xGen-MM 是由 Salesforce AI Research 开发的一系列最新的基础大型多模态模型(LMMs)。该系列在 BLIP 系列的成功设计基础上进行了改进,确保了更强大和更优越的基础。这些模型在高质量的图像标注数据集和交错的图像-文本数据上进行了大规模训练,能够执行各种视觉语言任务,并在基准测试中取得了竞争性表现。(@机器之心 SOTA 模型)

02 有态度的观点

1、谷歌 DeepMind 首席执行官兼联合创始人:AGI 将有助于理解宇宙和意识的奥秘,十年内治愈所有疾病

在 Google DeepMind 的播客中,谷歌 DeepMind 首席执行官兼联合创始人 Demis Hassabis 指出,尽管现代人工智能系统没有正确的世界模型或真实经验,却在理解抽象概念和从语言学习方面表现出异常的有效性。

Hassabis 对公众对人工智能的快速接受感到惊讶,并强调了 AI 聊天机器人和语言模型的「异常有效性」。他提到了 AI 领域的长期规划、代理和保障措施的挑战,并预测了大多数疾病和通用人工智能的治疗方法将在未来十年内开发出来。

Hassabis 强调了 AI 安全性的重要性,包括对 AGI 的谨慎态度、国际合作、适应性监管、以及对 AI 产品的测试和错误发现。他还讨论了人工智能对现实、物理和意识的基本问题的潜在解答能力,以及 AGI 在理解宇宙量子层面奥秘方面的应用。最后,他表示对 AGI 在未来十年内得到发展持乐观态度。(@雷锋网)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
在这里插入图片描述
素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2063355.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DatePicker 两个日期选择框的时间范围设置不可选日期

思路 截至时间的不可选择日期,通过监听开始时间,生成

tp5php7.4配置sqlserver问题汇总

先修改database.php文件 查看php版本选择sqlserver扩展 通过百度网盘分享的文件:sqlserver 链接:https://pan.baidu.com/s/1zrIV8VWQZM9miLpyH01Aww?pwdxdgx 提取码:xdgx 通过我的分享链接复制自己需要的dll到php的ext下 在php.ini里添加扩…

电子看板助力线缆工厂生产数字化改善

在当今数字化时代,线缆工厂面临着日益激烈的市场竞争和不断提高的客户需求。为了提高生产效率、降低成本、提升产品质量,越来越多的线缆工厂开始引入电子看板系统,实现生产数字化改善。 一、线缆工厂生产面临的挑战 1、生产过程复杂 线缆生产…

【与C++的邂逅】--- 类和对象(中)

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏: 与C的邂逅 本篇博客我们将学习类和对象中,认识类的六个默认成员函数以及实现日期类。下图为本节思维导图。 🏠 类的6个默认成员函…

云渲染助力:轻松应对UE5的高电脑配置需求

UE5以其革命性的图形和模拟技术,不断推动游戏和视觉艺术的边界,但对高端硬件的依赖往往成为创意实现的瓶颈。幸运的是,云渲染的出现打破了这一限制。通过云端的强大计算资源,云渲染为艺术家和开发者提供了灵活、可扩展的解决方案&…

个人理解—uboot启动过程(2)BL1低级初始化

lowlevel_init看名字就知道是关于初级方面的初始化,其中可用将其干的事情分为11个步骤: (1)push {lr} 也就是lr压栈。 (2)检测复位状态:如冷上电、热启动、睡眠等。冷上电要初始化DDR后才能使用…

无线电子产品前端射频设计注意事项

1 引言 1.1 编写目的 整理带无线的产品RF部分对外壳及PCBA设计注意事项,主要目的是为设计者提供一些参考,提高无线产品的设计质量和效率、保证可生产性。 1.2 背景 RF布局是射频电路设计极为重要的步骤和环节,关系到射频信号能否有效的工…

房产系统架构开发小程序分析

房产系统架构开发小程序在当前市场中具有显著的优势和潜力。以下是对房产小程序的分析: 用户需求满足:房产小程序通过提供楼盘信息查询、VR看房体验、购房流程指南等功能,满足用户对房产信息的需求,并提供更加便捷的用户体验 。…

第4章 汇编语言和汇编软件

第4章 汇编语言和汇编软件 该章主要介绍了汇编语言和汇编语言编译器的安装和使用。 汇编语言程序 该小节主要介绍了为什么要有汇编语言和汇编语言程序的一些基础写法。 书中有提到CPU有不同的架构,汇编语言有不同的风格,那么不同的CPU架构和不同的汇…

线上陪玩APP开发功能分析

随着电子竞技和在线娱乐的兴起,线上陪玩APP作为一种新兴的服务模式,逐渐受到广大游戏爱好者的青睐。开发一款高效、便捷、用户友好的线上陪玩APP,需要综合考虑市场调研、功能规划、技术选型、用户体验及安全性等多个方面。以下是对线上陪玩AP…

matter模组有无源测试事例

测试一款matter模组的硬件性能 1.1 天线阻抗、电压驻波比测试 主要测试:PCB板载天线设计效率及板材PCB铜面的平整度等 1.2 模组有源数据测试 主要测试:模组的阻抗匹配、频偏等情况 1.3 模组传输能量精度 主要测试:矢量误差等数据 1.4 模…

PCL “libvtkCommonCore-9.1.so.9.1.0: undefined reference to...@GLIBCXX_3.4.30”

1.问题描述: 完成 PCL、VTK 搭建后(https://mp.csdn.net/mp_blog/creation/editor/139858438),笔者运行PCL项目程序中,遇到下面错误: [build] /usr/bin/ld: /usr/lib/x86_64-linux-gnu/libvtkCommonCore-9.1.so.9.1.0: undefine…

云计算产业链图谱_产业链全景图_云计算行业市场分析

在产业数字化转型的背景下,云计算作为信息技术的重要组成部分,正逐渐成为各行业数字化、智能化转型的关键支撑。受益于5G、大数据、物联网、人工智能等技术的快速发展,云计算产业规模持续扩大,市场需求不断增长。云计算作为一种新…

【握奇数据招聘(北森)-注册/登录安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 1. 暴力破解密码,造成用户信息泄露 2. 短信盗刷的安全问题,影响业务及导致用户投诉 3. 带来经济损失,尤其是后付费客户,风险巨大,造…

顺序表的基本操作代码

seqlist.h&#xff1a; #pragma once #include<assert.h> #include<stdio.h> #include<stdlib.h> typedef int type; typedef struct Seqlist { type* data; int size; int capacity; }sl; //初始化顺序表 void initialize(sl* ps); //销毁线性表…

网页,html,Web端实现RTSP/RTMP实时推流视频和播放

随着技术的不断发展&#xff0c;实时流传输已经成为许多应用的重要组成部分。RTSP&#xff08;Real-Time Streaming Protocol&#xff09;作为一种实时流媒体传输协议&#xff0c;广泛应用于视频监控、直播等领域。然而&#xff0c;在Web端实现RTSP实时推流视频播放却面临一些挑…

CDGA|数据治理:打破数据孤岛,建设高质量数据库

在当今这个数据驱动的时代&#xff0c;数据已成为企业最宝贵的资产之一。然而&#xff0c;随着企业规模的扩大和业务复杂度的增加&#xff0c;数据孤岛现象日益凸显&#xff0c;严重阻碍了数据的有效利用和价值挖掘。数据治理作为解决这一问题的关键策略&#xff0c;正逐步成为…

ERP进销存系统源码,专业用于企业采购,销售全流程管理的全能系统 带完整的安装代码包

系统概述 在当今竞争激烈的商业环境中&#xff0c;企业管理的高效性和精确性至关重要。而 ERP 进销存系统作为一种集成化的管理工具&#xff0c;为企业提供了全方位的解决方案&#xff0c;能够有效提升企业的运营效率和竞争力。本文将深入探讨一款专业的 ERP 进销存系统源码&a…

缺失ffmpeg.dll要用什么修复方法?快速恢复丢失的ffmpeg.dll文件

多媒体软件用户常常会遭遇一个提示&#xff1a;系统无法找到ffmpeg.dll文件。这类情况经常在启动视频编辑软件、流媒体播放应用或其他音视频处理工具时出现&#xff0c;导致相关程序无法正确加载和执行。ffmpeg.dll是一种关键的动态链接库文件&#xff0c;负责处理复杂的视频和…

无需公网IP反弹shell

一、准备条件 kali机(网络畅通,具有ipv6地址) Windows10(关掉病毒实时查杀,尽量别开防火墙) 二、生成木门拿到shell 1.启动kali提权 2.查看自己的ipv6地址 3.设置msfconsole,生成木马 msfconsole use payload/windows/x64/meterpreter_reverse_http set LHOST ipv6…