AquilaChat2-34B 主观评测接近GPT3.5水平,最新版本Base和Chat权重已开源!

news2024/11/17 13:30:26

5e622d978fbf25eb714b50d2ee6367fa.png

两周前,智源研究院发布了最强开源中英双语大模型AquilaChat2-34B 并在 22项评测基准中综合能力领先,广受好评。为了方便开发者在低资源上运行 34B 模型,智源团队发布了 Int4量化版本,AquilaChat2-34B 模型用7B量级模型相近的GPU资源消耗,提供了超越Llama2-70B模型的性能。

今日,Aquila2-34B、AquilaChat2-34B 开源最新权重 v1.2 版本,相较于10月12日开源的 v1.0

  • Base模型综合客观评测提升 6.9%,Aquila2-34B v1.2  在 MMLU、TruthfulQA、CSL、TNEWS、OCNLI、BUSTM 等考试、理解及推理评测数据集上的评测结果分别增加 12%、14%、11%、12%、28%、18%。

  • Chat模型在主观评测的8个二级能力维度上,均接近或超过 GPT3.5 水平。

悟道·天鹰 Aquila2 开源仓库:

https://github.com/FlagAI-Open/Aquila2

3c2266e912d40ac70fd0204f8c6cbd51.png图:Base 模型评测结果(均采用HELM评测方式)

如下图所示,AquilaChat2-34B 最新版本,在“国家安全”、“权利保护”、“伦理道德”维度,相对 GPT3.5-turbo 有明显优势,更符合国内的生成式模型的安全要求;在“简单理解”、“知识运用”“推理能力”、“特殊生成”维度也接近或超过 GPT-3.5-turbo 水平。

主观能力评测采用 FlagEval 大语言模型评测能力框架[1],包含3个一级能力:

  • 基础语言能力:二级能力包括简单理解、知识运用、推理能力;

  • 高级语言能力:二级能力包括特殊生成、语境理解;

  • 安全与价值观:二级能力包括国家安全、权利保护、伦理道德。

[1] https://flageval.baai.ac.cn/#/rule

be907cdd0eeaea964bb60e67836e04db.jpeg

图:主观评测总分及一级能力对比

77f559d0f5353356b3110d5eb1651876.jpeg

图:主观评测二级能力分析

ac04cf18542d34974807e36bf71605b4.gif

图:主观评测-二级能力分析雷达图

此外,支持16K上下文窗口的长文本模型 AquilaChat2-34B-16K 也发布了最新权重,相较于上一版本在长文本理解综合能力上有明显提升,接近GPT-3.5-turbo-16K。

53eeb3c959f13597f09e3bed532cb8ac.png

图:长文本理解任务评测

快速上手 Aquila2 系列模型

👏🏻👏🏻👏🏻

悟道天鹰Aquila2-34B系列模型已开源并支持商用许可

欢迎社区开发者下载,并反馈使用体验!

使用方式一(推荐):通过 FlagAI 加载 Aquila2 系列模型

https://github.com/FlagAI-Open/Aquila2

使用方式二:通过 FlagOpen 模型仓库单独下载权重

https://model.baai.ac.cn/

使用方式三:通过 Hugging Face 加载 Aquila2 系列模型

https://huggingface.co/BAAI

9d3a702cac77e506fc52dba730a6ddd5.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1140042.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

分享119个ASP.NET源码总有一个是你想要的

分享119个ASP.NET源码总有一个是你想要的 链接:https://pan.baidu.com/s/1Mp0RugMnIJbS8Hrja4sCOQ?pwd8888 提取码:8888 项目名称 asp.net core 微服务 项目 ASP.NET Core 项目日志解决方案 Serilog Log4net ASP.NET Core分布式项目实战 asp.n…

GMT中标注特殊字符:平方,%,±号,希腊字母

在gmt中文社区的官网,我们可以得到以下的特殊字符表,通过在cmd命令窗口输入以下命令 gmt get PS_CHAR_ENCODING 查到你所安装的GMT的默认字符编码方式。如下图所示,本人是默认的ISOLation1 编码。 下面是一些具体的特殊字符的代码与标注效果…

使用网络摄像头进行眼睛注视估计 Mediapipe Gaze track

让我们看看下面的情况,你坐在图书馆里,你刚刚看到最漂亮的女人坐在图书馆的另一边。哎呀,她发现你在盯着她看。她估计你的目光在盯着她,而你通过理解她的目光指向你,注意到被她抓个正着。 眼睛凝视:一个人的眼睛聚焦的点 就像我们惊人的大脑毫不费力地完成许多任务一样,…

stable-diffusion-ui 下载和安装

简介 Stable Diffusion Web UI是一款基于Stable Diffusion基础应用的交互程序,它利用gradio模块搭建而成。这个模块除了具有txt2img、img2img等基本功能外,还包含许多模型融合改进、图片质量修复等附加升级。所有这些功能都可以通过易于使用的Web应用程…

漏洞复现-SeaCMS_v10.1_远程命令执行(CNVD-2020-22721)

SeaCMS_v10.1_远程命令执行(CNVD-2020-22721) 漏洞信息 seacms_v10.1有效cnvd-2020-22721命令执行漏洞 描述 海洋CMS一套程序自适应电脑、手机、平板、APP多个终端入口。 SeaCMS v10.1存在命令执行漏洞,在w1aqhp/admin_ip.php下第五行使用set参数,对…

不黑箱,不抽卡,分分钟带你拿捏SD中的色彩控制 | 京东云技术团队

导言 颜色控制一直是AIGC的难点,prompt会污染、img2img太随机… 今天带来利用controlnet,实现对画面颜色的有效控制。都说AIGC是抽卡,但对把它作为工具而非玩具的设计师,必须掌握如何控制它,让我们一起开始可控AI生成…

系列三、Spring Bean

一、什么是Spring bean * 一句话,被Spring容器管理的bean就是Spring bean。 二、Java bean和Spring bean对象之间的区别 Java bean的实例化对象是自己创建出来的,Spring的bean是IOC容器创建出来的。 三、配置bean有哪几种方式 * 答:有四…

ssh连接失败,提示ssh: connect to host port 22: Connection refused

情况描述 如图,ssh连接失败,连接显示器输入sudo netstat -tuln | grep 22命令查看占用22端口的服务,无任何输出,说明也不是默认端口22被占用的问题。 无法启动,提示如下查看 SSH 服务是否正在运行, syste…

ChatGLM2-6B模型尝鲜

一、前言 ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了如下新特性: 更强大的性能:基于 ChatGLM 初代模型的开发经验&#…

如何在忘记手机密码或图案时重置 Android 手机?

忘记手机密码或图案是 Android 用户一生中不得不面对的最令人沮丧的事情之一。恢复 Android 设备的唯一方法是在 Android 设备上恢复出厂设置。但许多用户不使用此方法,因为此过程会擦除您设备上可用的所有个人数据。 但是,有一种方法可以在不丢失任何数…

串口转HID键鼠功能芯片CH9329应用指南

概述 CH9329是一款串口转USB HID设备功能芯片,根据不同的工作模式,HID设备可以识别为:USB键盘设备、USB鼠标设备或者自定义HID类设备。接收串口数据,并自动根据串口工作模式进行数据解析,解析完成后按照HID类设备规范…

使用DBSyncer实现增量Mysql到Mysql的数据同步_DBSyncer1.2.4版本---数据同步之DBSyncer工作笔记006

之前都是用来postgresql到mysql的同步,需要配置postgresql的复制槽,对于mysq来说,需要配置: mysql启用binlog: https://gitee.com/ghi/dbsyncer/wikis/%E6%93%8D%E4%BD%9C%E6%89%8B%E5%86%8C/%E6%97%A5%E5%BF%97%E9%85%8D%E7%BD%AE%EF%BC%88%E6%95%B0%E6%8D%AE%E6%BA%90%EF%B…

基于springboot实现网上书城平台管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现网上书城平台管理系统演示 摘要 在Internet高速发展的今天,我们生活的各个领域都涉及到计算机的应用,其中包括网上书城管理系统的网络应用,在国外网上书城管理系统已经是很普遍的方式,不过国内的书城管理系统可…

GT-Works3 软件和 三菱GX-works2 GXworks3 程序设计软件的联机仿真

下面这个链接的视频教程可以使用与GT-Works3 软件和 GX-works2 GXworks3 程序设计软件的联机仿真。 简单的仿真起来非常方便。 链接: 三菱GX-Developer与三菱GT-Designer3使用及联机仿真 仿真画面:

上门预约上门洗衣洗鞋店管理软件;

洗衣洗鞋店干洗店管理软件。闪站侠洗衣软件。是一款优秀的洗衣管理系统。支持拍照功能。支持各种会员管理。支持小票和报表打印。功能强大。操作简单。上手容易。有多个案例,可以来体验!

移动端ViT新利器!苹果提出稀疏专家混合模型Mobile V-MoEs

文章链接:https://arxiv.org/abs/2309.04354 最近,专家混合模型MoE受到了学术界和工业界的广泛关注,其能够对任意输入来激活模型参数中的一小部分来将模型大小与推理效率分离,从而实现模型的轻量化设计。目前MoE已经在自然语言处理…

vivo自研AI大模型即将问世,智能手机行业加速迈向AI时代

当前,以大模型为代表的人工智能技术已发展为新一轮科技革命和产业变革的重要驱动力量,被视作推动经济社会发展的关键增长极。 AI大模型潮起,千行百业走向百舸争流的AI创新应用期,前沿信息技术向手机、PC、车机等消费级终端加速渗…

基于Java的电影院订票管理系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding) 代码参考数据库参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作者&am…

麒麟KYLINOS通过命令行配置kysec的防火墙

原文链接:麒麟KYLINOS通过命令行配置kysec的防火墙 hello,大家好啊,今天给大家带来一篇使用命令行配置kysec的防火墙的文章,通过本篇文章的学习,大家可以了解到图形化界面中的防火墙信息是如何生成的,为后期…

修改谷歌浏览器标签页名字

1. 背景 在开发过程中,有时我们会对同一个网站打开很多的浏览器标签页,比如 百度首页 页面,用来同时保存多个开发窗口,多个标签页内有不同的内容,但是多个标签页的名称是根据网站自动提取的,完全一样&…