自从 ChatGPT 火了以后,国内的 AI 大模型也是越来越多,各家都有不同的侧重点,其中,咱们国家队的代表就是阿里的通义千问了。就在今天,通义千问推出了第二代开源模型系列Qwen2,下面跟大家重点介绍一下这个新模型到底有多牛逼?
1
Qwen2简介
6月7日,通义千问推出第二代开源模型系列Qwen2,首波开源5款模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。
Qwen2所有尺寸模型都使用了GQA(分组查询注意力)机制,以便让用户体验到GQA带来的推理加速和显存占用降低的优势。在中英文之外,模型训练数据中增加了27种语言相关的高质量数据,提升了模型的多语言能力。Qwen2还增大了上下文长度支持,Qwen2-72B-Instruct能够完美处理128k上下文长度内的信息抽取任务。
Qwen2系列模型拥有强大的多语言、长文本处理、代码、数学、逻辑推理等能力,在MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench等国际权威测评中,新鲜出炉的Qwen2-72B一举斩获十几项世界冠军,超过美国的Llama3和欧洲的Mixtral。
2
Qwen2模型详解
1、Qwen2性能如何?
相比2月推出的Qwen1.5,Qwen2实现了整体性能的代际飞跃。在权威模型测评榜单OpenCompass中,开源的Qwen1.5-110B已领先于文心4.0等一众中国闭源模型。刚刚开源的Qwen2-72B,整体性能相比Qwen1.5-110B又取得了大幅提升!
图说:Qwen2-72B在十多个权威测评中获得冠军,超过美国的Llama3-70B模型)
这个Qwen2新模型刚上线,就获得了很多海外的开发者的正向反馈:
1、医学术语更准确
2、翻译更准确
3、编程和推理能力更强
2、如何体验Qwen2模型能力?
我们要怎么第一时间体验Qwen2新模型的能力呢?我们需要先登录魔搭 CompassArena 大模型竞技场,登录地址如下:
https://modelscope.cn/studios/opencompass/CompassArena/summary
登录后,我们选择【双模型对战】看抽卡能不能抽到Qwen2,需要多测试几轮,才会抽中。
如果一直抽不中,我们也可以直接选择【双模型对战(自选)】模式,给Qwen2 Pick对手,这里有很多市面上的模型,我们直接启动对战~
我们通常对比两个模型的能力更强,主要对比他的逻辑推理能力,下面我问一个问题,让Qwen2模型和其他模型做比较,看看哪个更聪明?
问题:煮1个鸡蛋需要5分钟,煎一块饼的一面需要3分钟,饼需要翻面两次才能熟。煮锅和煎锅可以同时开火,煎锅一次最多只能放两块饼,那么我想要煮3个鸡蛋和2块饼,一共需要几分钟?
通过上面对比,我们发现Qwen2这个模型回答是正确的,总共需要6分钟,而且逻辑能力很强,条理也非常清楚 。从这里可以看出来,虽然国内有很多AI模型,但是我们必须要选择一个更聪明、出错率低的模型非常重要,不然它在那里胡说八道,你还听得很有道理,就非常尴尬了。
通义千问官网地址:
https://tongyi.aliyun.com/qianwen/
觉得内容还不错的话,给我点个“在看”呗