GLM大模型的机器翻译能力测试

news2024/9/24 13:21:45

背景介绍

最近想对GLM-4今年发布的几个大模型 glm-4-0520,glm-4-air以及glm-4-flash简单评测一下它们的机器翻译能力,由于这几个大模型的容量和训练数据都有区别,所以它们的翻译能力也是不同的。我们这里就分别选择一些有趣的,有挑战性的,专业性的数据来分别让glm-4-0520,glm-4-air以及glm-4-flash还有百度翻译分别给出它们的翻译结果。最后我们把每个模型或者翻译软件对应的原始语句以及翻译后的结果送到Cluade-3.5-Sonnet这个SOTA的大模型中,让它分别为每个模型的翻译结果进行打分,每个机器翻译例子都是10分的满分。最后我们汇总上面三方面的数据中各个模型和专业的翻译软件的得分,来把握GLM4的几款模型的机器翻译的能力。

本次体验平台为智谱AI的Mass平台,地址为:https://open.bigmodel.cn/ 注册即可在体验中心免费体验上面提到的几款glm-4系列模型。

本次用到的GLM4系列模型简介&价格对比

本次体验的 glm-4-0520,glm-4-air以及glm-4-flash 都是智谱AI提供的闭源大模型,在体验中心随手选择一个大模型之后我们就可以在价格页面看到所有的大模型定价和简介:

我们要体验的这三款模型分别主打性能最强,最高性价比和极速低价。特别地,对于glm-4-flash 模型来说,100w输入tokens只需要0.1元,惊人的便宜。我们就以这三款对性能和价格各有侧重的模型在机器翻译的任务上进行一次评测。

数据获取规则&&打分规则

我们尽可能的去防止数据泄漏,选择数据时尽量选择有版权的比如影视数据以及很新的一些文本数据,比如来自很新的axriv上的论文,较新的考试试卷等。

我们把每个模型或者翻译软件对应的原始语句以及翻译后的结果送到Cluade-3.5-Sonnet这个SOTA的大模型中,让它分别为每个模型的翻译结果进行打分,每个机器翻译例子都是10分的满分

Prompt

对于所有的模型均直接让它翻译即可,例如下面的例子:

  • 请把“唉,我是少爷的身子,跑堂的命啊。”翻译成英语。
  • 请把“My way or the highway.”翻译成中文。

此外,在打分阶段普遍采用下面的prompt:

但对于困难数据中的古文,我们采用下面的prompt,即对古文的原始意思进行标注,以帮助Cluade-3.5-Sonnet更准确的打分。

此外,每做完一次大的翻译课题里面的一个子问题,对Cluade-3.5-Sonnet的对话缓存进行清理。

有趣的翻译数据

这里选取3句《武林外传》的经典台词由中文翻译成英文。选择3句《老友记》的经典台词翻译成英文。再选择3句《哆啦A梦》的日文经典台词,要求翻译为中文。

3句《武林外传》的经典台词

选取如下3句:

  • 唉,我是少爷的身子,跑堂的命啊。

  • 帮我照顾好我7舅姥爷!

  • 确定一定以及肯定。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3句《老友记》的经典台词

  • My way or the highway.

  • I would like to propose a toast.

  • Too bad we must return them.

3句《哆啦A梦》的日文经典台词

  • 毎日の小さな努力のつみ重ねが、歴史を作っていくんだよ!!

  • 未来なんて ちょっとしたはずみで どんどん変わるから

  • 道をえらぶということは、かならずしも歩きやすい安全な道をえらぶってことじゃないんだぞ

当前得分汇总

模型/api有趣的翻译数据总得分
glm-4-052077
glm-4-air73
glm-4-flash71
百度翻译54

在有趣的翻译数据中,glm-4系列模型的得分均能超过百度翻译的得分,其中glm-4-0520的得分是最高的,glm-4-flash的得分则是三款模型中得分最低的,这也符合模型本身的定位。

困难的翻译数据

比较难翻译的词

  • 内卷

  • 东施效颦

  • 江湖

《滕王阁序》中的三个名句

这里不仅仅设计到文本翻译,还设计到对古文的理解,可以一起考察大模型的推理能力。

  • 酌贪泉而觉爽,处涸辙以犹欢。

  • 老当益壮,宁移白首之心?穷且益坚,不坠青云之志。

glm-4-flash翻译这个句子时还出现了大段复读机现象,表现很差,统计得分的时候我们将6分手动降低为3分。

  • 关山难越,谁悲失路之人;萍水相逢,尽是他乡之客。

Cluade-3.5-Sonnet出三个英译中困难题目

我使用Cluade-3.5-Sonnet获取了3句阅读起来很困难的英语语句,要求把这些句子翻译成中文。

  • The researcher, having meticulously analyzed the data collected over a decade-long study, concluded that the phenomenon, hitherto thought to be anomalous, was in fact a natural consequence of the complex interplay between various environmental factors.


  • The ship that my sister said that the owner of the company claimed that the inspector had certified as seaworthy sank in the Pacific.

  • Despite the fact that the intricate web of international trade agreements had ostensibly been designed to foster global economic cooperation, it paradoxically exacerbated existing inequalities between developed and developing nations.


当前得分汇总

模型/api有趣的翻译数据总得分困难的翻译数据总得分
glm-4-05207781
glm-4-air7373
glm-4-flash7171
百度翻译5457

在困难的数据中,glm-4系列模型仍然体现出了越贵的模型能力越强的特点,且这三款模型的翻译能力都比百度翻译的结果更强。

专业的翻译数据

分别选取很新的一篇arxiv论文上关于大模型的3个英文句子翻译成中文;选取2024高考英语试卷阅读理解中的的3个句子翻译成英文;再选取2024高考语文阅读理解中的5个句子翻译成英文。

新的axriv论文

  • Efficient use of GPU memory is essential for high throughput LLM inference.

  • We evaluate three models Yi-6B, Llama-3-8B and Yi-34B, using a single NVIDIA A100 GPU for Yi-6B, and two NVLink-connected A100 GPUs for Llama- 3-8B and Yi-34B (see Table 5).

  • Implementing an additional memory manager can add performance issues in the CPU runtime of the serving system. We refer to a few real-world examples and our own observations on vLLM to corroborate this argument

2024高考英语试卷阅读理解抽取3个句子

  • In the race to document the species on Earth before they go extinct, researchers and citizen scientists have collected billions of records.

  • Though they are useful for detecting shifts in the number and variety of species in an area, a new Stanford study has found that this type of record is not perfect.

  • Using a global dataset of 1.9 billion records of plants, insects, birds, and animals, Daru and his team tested how well these data represent actual global biodiversity patterns.

2024高考语文试卷阅读理解抽取3个句子

  • 白露过后,乌乡的风里就已丰满了寒意。

glm4-4-flash的输出开头多了一些奇怪的符号,扣3分。

  • 我提着满满一大铁桶羊木炭,把它们倾倒在大路边洞道的木凳里——这是房东阿姨安排给我的任务。

  • "天寒落露了,大伙儿小心着凉。"她说。

当前得分汇总

模型/api有趣的翻译数据总得分困难的翻译数据总得分专业的翻译数据总得分
glm-4-0520778181
glm-4-air737379
glm-4-flash717175
百度翻译545768

机器翻译性能和价格的分析&总结

这里基于GLM-4每种模型和专业翻译软件在有趣的,困难的,专业的三个方面的得分总结每种模型/百度翻译的机器翻译能力。最后我综合价格,对有机器翻译需求的用户做一个最佳建使用建议。

模型/api有趣的翻译数据总得分困难的翻译数据总得分专业的翻译数据总得分价格(百万tokens多少元人民币)
glm-4-0520778181100
glm-4-air7373791
glm-4-flash7171750.1
百度翻译545768-

把每个模型/api的总得分折算成glm-4-0520得分的百分制比例

模型/api所有数据的总得分折算glm-4-0520得分的百分制比例价格(百万tokens多少元人民币)
glm-4-0520100%100
glm-4-air94.14%1
glm-4-flash90.79%0.1
百度翻译75%-

综合性建议:

  • 对于预算充足、追求最高翻译质量的用户:建议使用GLM-4-0520。它在所有类型的翻译中都表现最佳,特别适合处理困难和专业的翻译任务。
  • 对于寻求性价比的用户:GLM-4-air是一个很好的选择。它在翻译质量和价格之间取得了很好的平衡,特别适合需要大量专业翻译的用户。
  • 对于预算有限但仍需要相对较好翻译质量的用户:GLM-4-flash是一个不错的选择。虽然翻译质量略低于其他GLM-4模型,但其极低的价格使其成为小型项目或个人用户的理想选择。
  • 对于只需要基本翻译功能且想免费使用的用户:百度翻译可以作为一个选择。

此外,使用glm-4系列大模型进行机器翻译的优点是它们可以作为api被你的代码调用,批量处理更多需求。此外,如果使用glm-4的批处理api,则价格还可以降低一倍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1993327.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Qt使用lupdate工具生成.ts文件

Qt提供了lupdate工具,用于从源代码中提取需要翻译的字符串【1】,并生成或更新.ts文件 注解【1】:使用tr()函数(或者QCoreApplication::translate()等其他相关的翻译函数)来标记所有需要翻译的文本。例如: …

MySQL4多表查询 内连接

多表查询 数据准备 CREATE DATABASE db4; USE db4; -- 创建部门表 create table if not exists dept(deptno varchar(20) primary key , -- 部门号name varchar(20) -- 部门名字 );-- 创建员工表 create table if not exists emp(eid varchar(20) primary key , -- 员工编号…

【蝉联】摩斯再次获得“中国隐私计算市场份额第一”

蝉联第一 8月2日,全球领先的IT市场研究和咨询公司IDC发布了《中国隐私计算平台厂商市场份额,2023》报告。蚂蚁集团凭借商用隐私计算平台摩斯(MORSE),以 35.3%的市场份额蝉联第一。 2023年,中国隐私计算平台…

CSP 2023 普及组第一轮 - CSP/S 2023初试题 基础部分解析

第 1 题 在 C 中,下面哪个关键字用于声明一个变量, 其值不能被修改?(B) A. unsigned B. const C. static D. mutable 【const声明的变量不可修改】 第 2 题 八进制数 12345670(8) 和 07654321(8) 的和为(D) A. 222222…

智能工单派单:助力家政、售后服务、维修安装等行业高效管理

在家政、售后服务、维修安装等行业,任务的派单、管理和客户服务一直是关键环节。自从我们公司使用了搭贝低代码平台的工单派单应用,这些流程变得更加流畅和高效,显著提升了整体运营效率。 1. 提高工作效率 📈 通过搭贝平台&#…

力扣面试经典算法150题:多数元素

多数元素 今天的题目是力扣面试经典150题中的数组的简单题: 多数元素 题目链接:https://leetcode.cn/problems/majority-element/description/?envTypestudy-plan-v2&envIdtop-interview-150 题目描述 给定一个大小为 n 的数组 nums,其中包含 n 个…

ESP32开发板单向点对点ESP-NOW无线通信

ESP32开发板单向点对点ESP-NOW无线通信 简介读取ESP32接收方Receiver的MAC地址ESP32发送方Sender程序ESP32接收方Receiver程序ESP-NOW通信验证总结 简介 本例程通过两个ESP32开发板实现单向点对点ESP-NOW无线通信,一个ESP32开发板作为Sender发送方,另一…

CSP-J复赛 模拟题6 解析

此题为水题不讲解 根据无解析写代码1&#xff1a; #include <bits/stdc.h> using namespace std; string s; int main(){getline(cin,s);int lens.length();for(int i0;i<len;i){if(s[i]>A && s[i]<Z){s[i]32;}else if(s[i]>a && s[i]<z…

python自动化笔记:配置文件.ini及yml文件

目录 一、.ini配置文件1.1、ini编写格式1.2、读取.ini配置文件的数据1.3、编辑&#xff1a;写入和删除&#xff08;了解即可&#xff09; 二、yaml文件2.1、yaml编写语法规则2.2、yaml三种数据结构2.3、yaml文件的读取和写入 一、.ini配置文件 后缀名.ini 用于存储项目全局配置…

【单片机开发软件】使用VSCode开发STM32环境搭建

&#x1f48c; 所属专栏&#xff1a;【单片机开发软件技巧】 &#x1f600; 作  者&#xff1a; 于晓超 &#x1f680; 个人简介&#xff1a;嵌入式工程师&#xff0c;专注嵌入式领域基础和实战分享 &#xff0c;欢迎咨询&#xff01; &#x1f496; 欢迎大家&#xff1…

随笔-见字如面

不出意外&#xff0c;7月的工时干成了部门第一&#xff0c;36个人天。 昨天洗头的时候&#xff0c;揉了两下头发&#xff0c;看了一眼&#xff0c;手里全是碎发&#xff0c;吓了一跳&#xff0c;赶紧冲掉了&#xff0c;这内力又精进了。最近加班有些疲惫了&#xff0c;总是感觉…

MySQL笔记(十):MySQL管理

一、用户管理 #用户管理 -- 原因&#xff1a;当我们做项目开发时&#xff0c;可以根据不同的开发人员&#xff0c;赋给她相应的mysql操作权限。 -- 所以&#xff0c;mysql数据库管理人员&#xff08;root&#xff09;&#xff0c;根据需要创建不同的用户&#xff0c;赋给相应的…

SparkSQL中的JSON内置函数全解析

SparkSQL中的JSON函数快速入门 目录 SparkSQL中的JSON函数快速入门为什么需要JSON函数?SparkSQL JSON函数概览get_json_object: JSON字段提取利器json_tuple: 多字段提取神器from_json: JSON转结构化数据的桥梁to_json: 结构化数据转JSON的便捷工具schema_of_json: JSON Schem…

加密创投周期进化论(上篇):再造新世界

回到过去&#xff0c;选择决定命运。 作者&#xff1a;Wenser&#xff1b;编辑&#xff1a;郝方舟 出品 | Odaily星球日报&#xff08;ID&#xff1a;o-daily&#xff09; 2017 年 12 月&#xff0c;以太坊联创 Vitalik 在加密货币行业市值触及 5000 亿美元时&#xff0c;发出了…

C语言程序设计-[8] while语句循环结构

1、while语句循环结构定义 while语句循环结构的一般形式、流程图和执行过程如下&#xff1a; 注1&#xff1a;与前面一样&#xff0c;表达式可以是任意的&#xff0c;只要有值就行&#xff0c;遵循非0即真的原则。 注2&#xff1a;一个循环结构由四个要素构成&#xff1a;循环…

【漏洞复现】某赛通电子文档安全管理系统 NavigationAjax SQL注入漏洞

0x01 产品简介 某赛通电子文档安全管理系统&#xff08;简称&#xff1a;CDG&#xff09;是一款电子文档安全加密软件&#xff0c;该系统利用驱动层透明加密技术&#xff0c;通过对电子文档的加密保护&#xff0c;防止内部员工泄密和外部人员非法窃取企业核心重要数据资产&…

【机器学习】Caltech-101的基本概念和使用方法以及Caltech-101和ImageNet的联系和区别

引言 Caltech-101数据集是一个广泛用于对象识别任务的数据库&#xff0c;它包含了大约9,000张图像&#xff0c;这些图像来自101个不同的对象类别。每个类别包含的图像数量大约在40到800张之间&#xff0c;大多数类别大约有50张图像。图像的分辨率大致为300200像素 文章目录 引言…

sleuth+zipkin分布式链路追踪

概述 结构图 常见的链路追踪 cat zipkin pinpoint skywalking sleuth Sleuth介绍 Trace Span Annotation 使用Sleuth 添加依赖 <!--sleuth--><dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starte…

DSL domain specific language of Kola

How we design Kola - ApiHugKola background, Kola a consumer driver tester frameworkhttps://apihug.com/zhCN-docs/kola/003_dsl_contract Concept 在 Kola 定位中 Kola 是什么, 是致力于提供一个让相关各方都能够理解共同创造的测试框架和工具。 同时 Kola 是建立于业界…

AcWing双链表

0索引记录头结点&#xff0c;1索引是尾节点&#xff0c;idx从2开始记录 L和R是前面的索引和后面索引的数组&#xff0c;e是存储的元素的数组&#xff0c;k1的原因&#xff1a;k是表示第k个插入的元素&#xff0c; k ∈ [ 1 , inf ⁡ ] k\in [1,\inf] k∈[1,inf].但是 i d x ∈ …