又有一个超性价比的国产大模型出现了!这里是智匠AI,MiniMax刚刚对他们的主力模型abab6.5s,进行了大幅降价,输入和输出成本都达到了1元/百万tokens。我们今天就来进行评测这款abab6.5s。
abab6.5s在文科任务、内容理解、文字生成及信息提取方面展现出显著优势,同时在上下文长度和token处理速度上也表现出色
- 性能测试
我们基于以下三项主要任务对三个模型进行测试:
- 原生指令遵从能力(测试是否适合用来驱动智能体和工作流)
- 长上下文数据的理解和推理
- 用代码实现有创造力的前端效果(需求理解及创造能力)
通过以上我们大概可以总结以下几点,
- MiniMax abab6.5s各项基础能力均衡,没有明显短板。
- 254K的长上下文,以及极快的token处理速度是他的明显优势。
- 在推理层面,遵循指令能力稳定,可稳定有效输出json格式。但复杂问题推理效果一般。差于gpt4o-mini与deepseek coder。
- 角色扮演,沟通话术,文案生成,信息抓取能力较佳。作为一款1元/百万tokens的高级大模型,在文科任务变现更加优秀,适合如聊天机器人等应用。deepseek coder虽然性价比和推理能力极强,但并不适合拟人化沟通场景。