[240903] Qwen2-VL: 更清晰地看世界 | Elasticsearch 再次拥抱开源!

news2024/9/21 4:52:37

目录

    • Qwen2-VL: 更清晰地看世界
    • Elasticsearch 再次拥抱开源!

Qwen2-VL: 更清晰地看世界

历经一年研发,阿里云推出新一代视觉语言模型 Qwen2-VL,支持多语言、长视频理解、视觉推理及智能体交互,性能超越 GPT-4o 等模型,并开源 2B 和 7B 模型。

一、 Qwen2-VL 的突破

  1. 视觉理解更强大:支持不同分辨率、长宽比图片,在多项基准测试中取得全球领先,例如文档理解方面优势明显。
  2. 长视频理解:可理解20分钟以上长视频,应用于问答、对话、内容创作。
  3. 视觉智能体:集成到手机、机器人等设备,根据视觉和指令自动操作。
  4. 多语言支持:支持中英多语种,包括欧洲语言、日韩语、阿拉伯语、越南语等。

二、 模型性能

  • 72B 模型在大部分指标上达到最优,超越 GPT-4o 和 Claude3.5-Sonnet,刷新开源多模态模型最佳表现。
  • 7B 模型在文档理解和多语言文字图像理解方面处于 SOTA 水平。
  • 2B 模型支持移动端应用,在视频文档和通用问答方面表现优异。

三、 模型能力案例

  1. 细节识别理解:识别植物、地标、手写文字、多语言,例如:

    User: 转录图中内容,并识别图中每段内容的语言。(图片)
    Qwen2-VL: 1. 汉语,也称为“华语”。(...省略) 语言:中文
             2. 日本語は地方ごとに多様な方言があり、(...省略) 语言:日语
             (...省略)
    
  2. 视觉推理:解决数学、编程、信息提取等现实问题,例如:

    User: Solve the algorithmic problem in the web page. (网页截图)
    Qwen2-VL: To solve the “Snake in Matrix” problem, we need to implement a function (...省略,并给出Python代码)
    
  3. 视频理解与实时聊天:总结视频要点、回答问题、连贯对话,例如:

    User: 视频中的人在做什么? (视频)
    Qwen2-VL: 视频中的人正在使用吸尘器清理地板。
    User: 如果要进一步清洁地面的话,接下来该怎么做?
    Qwen2-VL: 如果要进一步清洁地面,可以使用拖把或湿布擦拭地面,以去除吸尘器无法清除的污渍和灰尘。
    (...省略,后续对话)
    
  4. Visual Agent 能力:函数调用和视觉交互,例如:

    # 使用API调用Qwen2-VL-72B识别图片
    def get_response():
        client = OpenAI(
            api_key=os.getenv("DASHSCOPE_API_KEY"),
            base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
        )
        completion = client.chat.completions.create(
            model="qwen-vl-max-0809",
            messages=[
                {
                    "role": "user",
                    "content": [
                        {"type": "text", "text": "What is this?"},
                        {
                            "type": "image_url",
                            "image_url": {
                                "url": "https://dashscope.oss-cn-beijing.aliyuncs.com/images/dog_and_girl.jpeg"
                            },
                        },
                        # ...
                    ],
                }
            ],
            # ...
        )
        # ...
    
    • 函数调用:实时检索航班、天气、包裹等信息。
    • 视觉交互:操作手机、玩游戏、控制机器人等。

四、 模型架构

  • 支持原生动态分辨率,处理任意分辨率图像。
  • 多模态旋转位置嵌入(M-ROPE),捕捉文本、图像、视频的位置信息。

五、 玩转 Qwen2-VL

  • 使用官方 API 体验 Qwen2-VL-72B。
  • 开源 2B 和 7B 模型可在 Hugging Face 和 ModelScope 上获取。

六、 未来展望

  • 打造更强的视觉语言模型。
  • 研究结合更多模态,实现真正意义的统一模型。

来源:

https://qwenlm.github.io/zh/blog/qwen2-vl/


x-cmd 用户实际应用案例:

  • Github-QwenLM/Qwen2-VL

    # 使用浏览器打开 QwenLM/Qwen2-VL 的 GitHub 仓库
    x gh browse --repo QwenLM/Qwen2-VL
    
  • Hugging Face-Qwen2-VL

    # 设置在全局环境中使用 huggingface-cli
    x env use huggingface
    
    # 从 Qwen Hub 中下载 Qwen2-VL-2B-Instruct 模型
    huggingface-cli download Qwen/Qwen2-VL-2B-Instruct
    
    # 扫描缓存目录查看已下载的模型信息
    huggingface-cli scan-cache
    

在这里插入图片描述

进一步探索:

  • mod/gh
  • pkg/huggingface

Elasticsearch 再次拥抱开源!

Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,同时是可扩展的数据存储和矢量数据库,能够应对日益增多的各种用例。近日,该项目宣布再次开源。

核心要点:

  • Elasticsearch 和 Kibana 将再次以开源软件的形式提供!
  • 开发公司 Elastic 将在未来几周内为 Elasticsearch 添加 AGPL 许可证选项,与现有的 ELv2 和 SSPL 许可证并存。
  • 此举旨在消除用户对 Elasticsearch 开源性的任何疑虑,并为开源世界提供更多选择。

背景:

  • 三年前,由于 AWS 推出与其功能相似的服务,导致市场混乱,Elastic 修改了 Elasticsearch 的许可证,不再将其视为完全开源。
  • 这一决定虽然有效地解决了市场混乱问题,但也导致 Elasticsearch 出现了一个名为 OpenSearch 的分支。

回归开源:

  • 三年后,市场环境已发生变化,Elastic 与 AWS 的合作关系也更加稳固。
  • Elastic 认为现在是时候回归开源了,并选择 AGPL 作为新的许可证选项。
  • AGPL 是 OSI 批准的许可证,MongoDB 和 Grafana 等项目都在使用。

对用户的意义:

  • 现有的 Elasticsearch 用户不会受到任何影响,可以继续使用现有的许可证。
  • 新用户可以选择 AGPL 许可证,享受更自由的开源体验。

Elastic 对未来的展望:

  • Elastic 对 Elasticsearch 的未来充满信心,并将在开源领域继续投入。
  • Elastic 希望与 OSI 合作,为开源世界提供更多选择。

一些常见问题的解答:

  • 修改许可证是否意味着 Elastic 此前的决定是错误的? Elastic 认为,三年前的决定是正确的,它有效地解决了当时的市场混乱问题。而现在的决定则是基于当前市场环境做出的,是为了更好地服务用户 。
  • AGPL 是否是真正的开源许可证? AGPL 是 OSI 批准的许可证,被广泛认为是真正的开源许可证。
  • Elastic 修改许可证是否因为公司经营状况不佳? Elastic 对公司未来的发展充满信心,修改许可证是为了更好地服务用户,与公司经营状况无关。

Elasticsearch 再次拥抱开源是一个令人振奋的消息,它将为用户提供更多选择,并为开源世界做出贡献。

来源:

https://www.elastic.co/cn/blog/elasticsearch-is-open-source-again

更多内容请查阅 : blog-240903


关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2100641.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Oracle 常用函数大全

文章目录 一、空校验1. NVL 空校验2. COALESCE 空校验 二、排序1. ORDER BY 排序2. ORDER BY DECODE 指定值排序 三、排名1. RANK 排名2. DENSE RANK 密集排名 四、限制条数1. ROWNUM 限制2. FETCH 限制 五、字符串处理1. TO_CHAR 字符串转换2. || 字符串拼接3. CONCAT 字符串拼…

9.2C++

思维导图

咸鱼代写代码的都是什么人?真的能有收入么?

大家好,我是程序员鱼皮。看到一个帖子,是一位博主分享自己读研期间在咸鱼上靠帮别人代写代码接单的经历。由于内容过于真实,看完之后竟让我有些红温了。 我估计也有很多学编程的同学想自己接单帮别人代写代码,那代写代码真的能有收…

聚水潭ERP集成用友U8(用友U8主供应链)

源系统成集云目标系统 用友U8介绍 用友U8是一套企业级的解决方案,可满足不同的制造、商务模式下,不同运营模式下的企业经营管理。它全面集成了财务、生产制造及供应链的成熟应用,并延伸客户管理至客户关系管理(CRM)&…

支付宝开放平台-开发者社区——AI 日报「9 月 3 日」

1 逛完世界机器人大会,投资人说再也不想投人形机器人了 腾讯科技丨阅读原文 在2024 年世界机器人大会上,尽管人形机器人成为焦点,但一位长期关注该领域的投资人表示不再考虑投资。原因是目前人形机器人在工业和家用场景中表现不够突出&…

Error when attempting to add data source to Azure OpenAI api

题意:尝试向 Azure OpenAI API 添加数据源时出现错误 问题背景: My code is working for a call to Azure OpenAI when I dont have a datasource added. However, when I do add my datasource with the following parameters I get an error: 当我没…

AIGC时代从新手到高手:B端竞品分析实战案例与技巧分享

文章目录 1)B端产品的信息获取困难2)B端产品标准化程度低3)需要具备业务知识1)竞品画布就像一个菜谱,帮助新手快速上手2)竞品画布相当于竞品分析报告的MVP(最小可用产品)&#xff0c…

新手如何下载微信视频号里面的短视频?推荐7种方法!

根据大数据分析我们发现还有不少用户不知道如何使用微信视频号下载视频?对此也发现不少小伙伴对内容阅读有所差异,对此专门为大家整理了图文以及视频相关教程,希望对大家有所帮助。 短视频下载 短视频下载一般包括市面上大部分的短视频内容为…

【BES2500x系列 -- RTX5操作系统】Battery模块 -- 创建电池检测定时器 --(十五)

💌 所属专栏:【BES2500x系列】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! &#x1f49…

【Linux】进程状态(RSDT 阻塞 僵尸 孤儿)

目录 进程状态 进程状态的查看 R和S 运行状态 T/t 暂停状态 kill命令 D (disk sleep)状态、 Z 状态(僵尸状态) 孤儿状态 运行状态 阻塞状态 进程状态 一个进程通常有三种状态 ◉ 就绪状态(Ready&#xff0…

Qt 去掉QDialog对话框的问号

QT 对话框的问号是什么? QDialog默认的window flag中包含了Qt::WindowContextHelpButtonHint,这个flag意思是在窗口上提供“上下文帮助”按钮 使用方式/调用方式 void QWidget::setWhatsThis(const QString &)比如: ui->lineEdit_1->setWh…

用亚马逊AI代码开发助手Amazon Q Developer开发应用(上篇)

快用人工智能帮程序员写代码!今天小李哥就来介绍亚马逊推出的国际前沿人工智能AI代码开发助手Amazon Q Developer。目前该代码助手在Hugging Face代码生成权威测试集SWE-bench中排名第一,可以根据我们的需求生成整个代码项目,并可以帮助我们解…

C++入门基础,看这篇就足够了!

🌈个人主页:Yui_ 🌈Linux专栏:Linux 🌈C语言笔记专栏:C语言笔记 🌈数据结构专栏:数据结构 🌈C专栏:C 文章目录 0.前言1. C的关键字2.命名空间2.1 命名空间的定…

vue 中计算属性可以接收参数

代码中的value就是接收的参数 计算属性要接收参数要写在返回的时候 computed: {isButtonDisabled() {return (value) > {const num parseInt(value);return isNaN(num) || num < 0}},},//计算属性aaa(){return (value) >{写逻辑return 返回值}} 使用 <el-butto…

【数学建模】国赛论文写作技巧教学——模型假设与变量说明

一、模型假设 1、内容要求 模型假设是建立数学模型中非常关键的一步&#xff0c;这会关系到模型的成败和优劣。所以&#xff0c;应该细致地分析实际问题&#xff0c;从大量的变量中筛选出最能表现问题本质的变量&#xff0c;并简化它们的关系。由于假设一般不是实际问题直接提…

2024Hvv漏洞汇总(128个POC)

2024Hvv漏洞整理&#xff08;128个POC&#xff09; ​&#xff08;网上漏洞零零散散&#xff09;下面是收集到的且有POC的漏洞整理合集&#xff0c;鄙人分了三种格式供各位提取&#xff0c;下面贴上目录与图片&#xff0c;由于字数有点大&#xff0c;各位请移步网盘自行提取。…

MySQL 基础命令

目录 一、MySQL简介 1.MySQL 的主要特点包括 2.MySQL 的主要用途包括&#xff1a; 二、MySQL 基础命令 1. 基本操作 1.1 进入 1.2 选择数据库 1.3 修改密码 1.4 所有命令后面都要加 “;” 2. 创建 2.1 创建数据库 2.2 创建数据表 2.3 常见字段 3. 修改/更新 3.1…

[数据集][目标检测]街道乱放广告牌检测数据集VOC+YOLO格式114张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;114 标注数量(xml文件个数)&#xff1a;114 标注数量(txt文件个数)&#xff1a;114 标注类别…

关于LLC知识15

右手螺旋定则&#xff1a;四指指向电流的方向&#xff0c;拇指的方向就是磁通方向 变压器副边会产生一个和原磁通方向相反的磁通来阻碍它变大 这样原边绕组的电感量会变小&#xff1a;U/Ldi/dt对应的电流会变大 电感量越大&#xff0c;抑制电流能量越强 原边开路时候&#x…

【贪心算法】区间类算法题(整数替换、俄罗斯套娃、重构字符串等、C++)

文章目录 1. 前言2. 算法题1.整数替换2.俄罗斯套娃信封问题3.可被三整除的最大和4.距离相等的条形码5.重构字符串 1. 前言 贪心算法&#xff08;Greedy Algorithm&#xff09;是一种在每一步选择中都采取当前状态下最优决策的算法。贪心算法通常用来解决最优化问题&#xff0c…