目录
- Qwen2-VL: 更清晰地看世界
- Elasticsearch 再次拥抱开源!
Qwen2-VL: 更清晰地看世界
历经一年研发,阿里云推出新一代视觉语言模型 Qwen2-VL,支持多语言、长视频理解、视觉推理及智能体交互,性能超越 GPT-4o 等模型,并开源 2B 和 7B 模型。
一、 Qwen2-VL 的突破
- 视觉理解更强大:支持不同分辨率、长宽比图片,在多项基准测试中取得全球领先,例如文档理解方面优势明显。
- 长视频理解:可理解20分钟以上长视频,应用于问答、对话、内容创作。
- 视觉智能体:集成到手机、机器人等设备,根据视觉和指令自动操作。
- 多语言支持:支持中英多语种,包括欧洲语言、日韩语、阿拉伯语、越南语等。
二、 模型性能
- 72B 模型在大部分指标上达到最优,超越 GPT-4o 和 Claude3.5-Sonnet,刷新开源多模态模型最佳表现。
- 7B 模型在文档理解和多语言文字图像理解方面处于 SOTA 水平。
- 2B 模型支持移动端应用,在视频文档和通用问答方面表现优异。
三、 模型能力案例
-
细节识别理解:识别植物、地标、手写文字、多语言,例如:
User: 转录图中内容,并识别图中每段内容的语言。(图片) Qwen2-VL: 1. 汉语,也称为“华语”。(...省略) 语言:中文 2. 日本語は地方ごとに多様な方言があり、(...省略) 语言:日语 (...省略)
-
视觉推理:解决数学、编程、信息提取等现实问题,例如:
User: Solve the algorithmic problem in the web page. (网页截图) Qwen2-VL: To solve the “Snake in Matrix” problem, we need to implement a function (...省略,并给出Python代码)
-
视频理解与实时聊天:总结视频要点、回答问题、连贯对话,例如:
User: 视频中的人在做什么? (视频) Qwen2-VL: 视频中的人正在使用吸尘器清理地板。 User: 如果要进一步清洁地面的话,接下来该怎么做? Qwen2-VL: 如果要进一步清洁地面,可以使用拖把或湿布擦拭地面,以去除吸尘器无法清除的污渍和灰尘。 (...省略,后续对话)
-
Visual Agent 能力:函数调用和视觉交互,例如:
# 使用API调用Qwen2-VL-72B识别图片 def get_response(): client = OpenAI( api_key=os.getenv("DASHSCOPE_API_KEY"), base_url="https://dashscope.aliyuncs.com/compatible-mode/v1", ) completion = client.chat.completions.create( model="qwen-vl-max-0809", messages=[ { "role": "user", "content": [ {"type": "text", "text": "What is this?"}, { "type": "image_url", "image_url": { "url": "https://dashscope.oss-cn-beijing.aliyuncs.com/images/dog_and_girl.jpeg" }, }, # ... ], } ], # ... ) # ...
- 函数调用:实时检索航班、天气、包裹等信息。
- 视觉交互:操作手机、玩游戏、控制机器人等。
四、 模型架构
- 支持原生动态分辨率,处理任意分辨率图像。
- 多模态旋转位置嵌入(M-ROPE),捕捉文本、图像、视频的位置信息。
五、 玩转 Qwen2-VL
- 使用官方 API 体验 Qwen2-VL-72B。
- 开源 2B 和 7B 模型可在 Hugging Face 和 ModelScope 上获取。
六、 未来展望
- 打造更强的视觉语言模型。
- 研究结合更多模态,实现真正意义的统一模型。
来源:
https://qwenlm.github.io/zh/blog/qwen2-vl/
x-cmd 用户实际应用案例:
-
Github-QwenLM/Qwen2-VL
# 使用浏览器打开 QwenLM/Qwen2-VL 的 GitHub 仓库 x gh browse --repo QwenLM/Qwen2-VL
-
Hugging Face-Qwen2-VL
# 设置在全局环境中使用 huggingface-cli x env use huggingface # 从 Qwen Hub 中下载 Qwen2-VL-2B-Instruct 模型 huggingface-cli download Qwen/Qwen2-VL-2B-Instruct # 扫描缓存目录查看已下载的模型信息 huggingface-cli scan-cache
进一步探索:
- mod/gh
- pkg/huggingface
Elasticsearch 再次拥抱开源!
Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,同时是可扩展的数据存储和矢量数据库,能够应对日益增多的各种用例。近日,该项目宣布再次开源。
核心要点:
- Elasticsearch 和 Kibana 将再次以开源软件的形式提供!
- 开发公司 Elastic 将在未来几周内为 Elasticsearch 添加 AGPL 许可证选项,与现有的 ELv2 和 SSPL 许可证并存。
- 此举旨在消除用户对 Elasticsearch 开源性的任何疑虑,并为开源世界提供更多选择。
背景:
- 三年前,由于 AWS 推出与其功能相似的服务,导致市场混乱,Elastic 修改了 Elasticsearch 的许可证,不再将其视为完全开源。
- 这一决定虽然有效地解决了市场混乱问题,但也导致 Elasticsearch 出现了一个名为 OpenSearch 的分支。
回归开源:
- 三年后,市场环境已发生变化,Elastic 与 AWS 的合作关系也更加稳固。
- Elastic 认为现在是时候回归开源了,并选择 AGPL 作为新的许可证选项。
- AGPL 是 OSI 批准的许可证,MongoDB 和 Grafana 等项目都在使用。
对用户的意义:
- 现有的 Elasticsearch 用户不会受到任何影响,可以继续使用现有的许可证。
- 新用户可以选择 AGPL 许可证,享受更自由的开源体验。
Elastic 对未来的展望:
- Elastic 对 Elasticsearch 的未来充满信心,并将在开源领域继续投入。
- Elastic 希望与 OSI 合作,为开源世界提供更多选择。
一些常见问题的解答:
- 修改许可证是否意味着 Elastic 此前的决定是错误的? Elastic 认为,三年前的决定是正确的,它有效地解决了当时的市场混乱问题。而现在的决定则是基于当前市场环境做出的,是为了更好地服务用户 。
- AGPL 是否是真正的开源许可证? AGPL 是 OSI 批准的许可证,被广泛认为是真正的开源许可证。
- Elastic 修改许可证是否因为公司经营状况不佳? Elastic 对公司未来的发展充满信心,修改许可证是为了更好地服务用户,与公司经营状况无关。
Elasticsearch 再次拥抱开源是一个令人振奋的消息,它将为用户提供更多选择,并为开源世界做出贡献。
来源:
https://www.elastic.co/cn/blog/elasticsearch-is-open-source-again
更多内容请查阅 : blog-240903
关注微信官方公众号 : oh my x
获取开源软件和 x-cmd 最新用法