Llama 3“智商”测试:英文提示表现亮眼,中文不完美但差强人意!

news2024/11/24 0:50:10

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

一些结论

  1. 语言支持:Llama 3支持中文,但并不完美。官方提到预训练数据集中有超过5%的非英语数据,覆盖超过30种语言,但主要语料库是英文的。Meta计划未来优化多语言支持。

  2. 使用区域:Llama 3是一个开源模型。Meta AI平台提供了Llama 3的直接使用方式,服务区域包括美国和其他13个国家。

  3. 测试结果:在英文提示下,Llama 3表现亮眼。但在中文提示下,表现不稳定,有时会出现幻觉。

关于Llama 3的FAQ

Llama 3支持中文吗?

先说结论支持,但又不是完美支持那种。

Meta官方并没有明确说明Llama 3模型所支持的语言类别,但在官方博文中确实也提到了用于预训练的数据集中,有超过5%的数据是非英语数据,包括了30种语言。实测Llama 3是能够理解中文的提示词的,但在中文输出方面,略有不足,毕竟预训练语料库大多是英文的。

To prepare for upcoming multilingual use cases, over 5% of the Llama 3 pretraining dataset consists of high-quality non-English data that covers over 30 languages. However, we do not expect the same level of performance in these languages as in English.

并且,Meta也表示接下来会着手优化多模态、多语言支持、更长的上下文窗口等方面。

Over the coming months, we’ll release multiple models with new capabilities including multimodality, the ability to converse in multiple languages, a much longer context window, and stronger overall capabilities.

Llama 2支持中文吗?

在上一代的Llama 2相关论文里,Meta就明确表示了和上述Llama 3描述类似的结论。Llama 2的训练数据主要为英语,但也包含了其他27种语言。从下面的表格里可以看过,中文语料(zh)占比0.13%。

冷知识zh是ISO 639-1标准中对中文的两字母缩写代码。在这个标准中,大多数语言都有各自的两字母代码,zh实际上是 "Zhōngwén" 的缩写。

Language Identification. While our pretraining data is mostly English, it also includes text from a small number of other languages. Table 10 shows the distribution of languages in our corpus, subsetted to those found in more than 0.005% of the documents. Our analysis uses the fastText (Bojanowski et al., 2016) language identification tool and a threshold of 0.5 for the language detection. A training corpus with a majority in English means that the model may not be suitable for use in other languages.

Llama 3可以在哪些区域使用?

首先,Llama 3是一个开源模型,这意味着所有的个人用户/开发者/研究人员都可以直接下载Llama 3所有的代码及相关资料。但运行这样的LLM模型所需要的硬件资源要求很高,对于个人用户来说是一个挑战。为此,Meta也将Llama 3接入了Meta AI,地址是https://www.meta.ai/,用户可以直接使用Llama 3进行对话,甚至无需登录。同时,我们也可以在Facebook, Instagram, WhatsApp, Messenger这些应用里直接使用Meta AI。

Meta AI服务区域包括以下国家。

We’re rolling out Meta AI in English in more than a dozen countries outside of the US. Now, people will have access to Meta AI in Australia, Canada, Ghana, Jamaica, Malawi, New Zealand, Nigeria, Pakistan, Singapore, South Africa, Uganda, Zambia and Zimbabwe — and we’re just getting started.

Meta AI提供服务的区域:美国、澳大利亚、加拿大、加纳、牙买加、马拉维、新西兰、尼日利亚、巴基斯坦、新加坡、南非、乌干达、赞比亚和津巴布韦

Llama 3模型“智商”测试

小试牛刀

首先来测试一道经典题目,之前测试中,GPT-4、Claude 3、讯飞星火和通义千问均通过了这个测试,而谷歌Gemini Pro,Gemini Ultra,文心一言以及Kimi Chat回答错误,未通过测试。详情可以看我之前的这篇文章:Claude 3有点东西!这个看似简单的问题只有GPT-4和Claude 3回答正确!通义千问和讯飞星火表现同样亮眼!。

英文题目:If there are 1000 books in a room and I read 2, how many books are still in the room? Answer succinctly

中文题目:如果一个房间里有1000本书,我读了2本,房间里还有多少本书?请简洁回答。

英文提示词提问

中文提示词提问

结论

在英文提示词下,回答完全正确,逻辑也清晰;但中文提示词下明显出现了幻觉,并且Meta AI会提醒:I am still improving my command of non-English languages, and I may make errors while attempting them. I will be most useful to you if I can assist you in English.

进阶挑战

英文题目:You have three switches on the ground floor, each of which controls one of three light bulbs upstairs, but you don't know which switch corresponds to which bulb. You can only go upstairs once. How should you operate the switches and then go upstairs one time to determine which switch corresponds to each bulb?

中文题目:你有三个开关在楼下,它们各自控制楼上的三个灯泡,但你不知道哪个开关对应哪个灯泡。你只能上楼一次。你该如何操作开关并上楼一次,以确定每个开关对应哪个灯泡?

题目分析

这是一个经典的逻辑推理题,对于LLM模型来说有一定的难度,因为不仅需要处理纯逻辑运算,还需要关联到物理世界中的常识——灯泡使用后会发热这一事实。要确定楼下三个开关各自控制的楼上三个灯泡,可以采用以下方法:首先,开启第一个开关一段时间,使相应的灯泡变热后关闭;然后立即打开第二个开关,并上楼检查。此时,温热的灯泡表示是由第一个开关控制的,正在亮着的灯泡由第二个开关控制,而冷的灯泡则是由第三个开关控制。这样一次上楼即可通过触感辨认每个开关对应的灯泡。

英文提示词提问

A classic puzzle! Here's the solution:

Step 1: Operate the switches

Turn switch 1 to ON for 5 minutes.

Turn switch 1 to OFF.

Turn switch 2 to ON.

Turn switch 3 to ON for 5 seconds.

Turn switch 3 to OFF.

Step 2: Go upstairs

Observe the bulbs:

One bulb will be HOT (but off). This corresponds to switch 1.

One bulb will be ON. This corresponds to switch 2.

One bulb will be OFF, but WARM. This corresponds to switch 3.

By following these steps, you'll be able to determine which switch corresponds to each bulb in just one trip upstairs!

中文提示词提问

A classic puzzle! Here's the solution:

Step 1: Initial Setup

Turn switch 1 to ON for 5 minutes.

Turn switch 1 to OFF.

Turn switch 2 to ON.

Step 2: Go Upstairs

Observe the bulbs:

One will be HOT (recently off).

One will be ON.

One will be OFF (and cold).

Step 3: Deduce the Switch-Bulb Mapping

The HOT bulb corresponds to switch 1.

The ON bulb corresponds to switch 2.

The OFF (and cold) bulb corresponds to switch 3.

Explanation

By initially turning switch 1 to ON for 5 minutes, we ensure that the corresponding bulb is hot even after it's turned off.

By then turning switch 2 to ON, we create a distinction between the two remaining bulbs.

When we go upstairs, we can identify the HOT bulb as corresponding to switch 1, the ON bulb as corresponding to switch 2, and the remaining OFF (and cold) bulb as corresponding to switch 3.

结论

英文提示和中文提示下,Llama 3均通过测试。但通过多次实验,我发现在中文提示下,Llama 3的表现比较不稳定,有时会出现幻觉,有时又能够回答正确。


精选推荐

  1. 完全免费白嫖GPT4的三个方法,都给你整理好了!

  2. AI领域的国产之光,ChatGPT的免费平替:Kimi Chat!

  3. Kimi Chat,不仅仅是聊天!深度剖析Kimi Chat 5大使用场景!

  4. 我用AI工具5分钟制作一个动画微电影!这个AI现在免费!

  5. 当全网都在疯转OpenAI的Sora时,我们普通人能做哪些准备?——关于Sora,你需要了解这些!

  6. 文心一言4.0 VS ChatGPT4.0哪家强?!每月60块的文心一言4.0值得开吗?

  7. ChatGPT和文心一言哪个更好用?一道题告诉你答案!

  8. 字节推出了“扣子”,国内版的Coze,但是我不推荐你用!

  9. 白嫖GPT4,Dalle3和GPT4V - 字节开发的Coze初体验!附教程及提示词Prompt

  10. 2024年了你还在用百度翻译?手把手教会你使用AI翻译!一键翻译网页和PDF文件!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1611729.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++从入门到精通——C++动态内存管理

C动态内存管理 前言一、C/C内存分布分类1分类2题目选择题sizeof 和 strlen 区别示例sizeofstrlen 二、C语言中动态内存管理方式malloc/calloc/realloc/free示例例题malloc/calloc/realloc的区别malloc的实现原理 三、C内存管理方式new/delete操作内置类型new和delete操作自定义…

zabbix自定义监控、自动发现和注册以及代理设置

前言 监控项的定制和新设备的注册往往需要大量手动操作,这会导致维护成本的增加和监控效率的降低。本文将介绍如何利用 Zabbix 的自定义功能,实现监控项的动态发布和新设备的自动注册以及代理设置、从而简化运维工作并实现更高效的监控管理。 Zabbix 监…

LearnOpenGL(二)之三角形

一、重要概念 顶点数组对象:Vertex Array Object,VAO顶点缓冲对象:Vertex Buffer Object,VBO元素缓冲对象:Element Buffer Object,EBO 或 索引缓冲对象 Index Buffer Object,IBO 以数组的形式…

【简单介绍下R-Tree】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

单链表的实现(单链表的增删查改)

在顺序表中实现数据的增删的操作时,都要把操作位置之后的数据全部移动一遍,操作效率低下。其次是容量固定(静态顺序表),虽然在动态顺序表中容量可变,但也会造成空间上的浪费。 单链表就完美解决了上述缺点…

.net8系列-02图文并茂手把手教你编写增删改查接口

前情提要 接上篇文章,我们的应用已经创建完毕了,接下来我们编写几个自己的接口 快速开始 新增Controller 复制一份WeatherForecastController.cs,改名为CommonInfoController 设置Class名 将CommonInfoController中的复制过来的class名改成新名 …

对称二叉树 - LeetCode 热题 39

大家好!我是曾续缘🤎 今天是《LeetCode 热题 100》系列 发车第 39 天 二叉树第 4 题 ❤️点赞 👍 收藏 ⭐再看,养成习惯 对称二叉树 给你一个二叉树的根节点 root , 检查它是否轴对称。 示例 1: 输入&#…

vue3图片展示实战

首先得有一个vue3项目 教程: vue3项目搭建 我测试存在两种方式可以将本地图片进行展示到页面 public文件夹下可以直接导入src下的asset文件夹下得图片需要在 script 标签内声明再导入网页图片不可导入,应该是存在一种限制 1,创建文件demo1I…

ICLR 2024 | FTS-Diffusion: 用于合成具有不规则和尺度不变模式的金融时间序列的生成框架

ICLR 2024 | FTS-Diffusion: 用于合成具有不规则和尺度不变模式的金融时间序列的生成框架 原创 QuantML QuantML 2024-04-17 09:53 上海 Content 本文提出了一个名为FTS-Diffusion的新颖生成框架,用于模拟金融时间序列中的不规则和尺度不变模式。这些模式由于其独…

桌面软件使用到的开源库

想了解一下桌面软件开发中可能使用到的dll库 联想锁屏 libcef-常用概念-框架特点-CSDN博客 libcurl库使用详情、libcurl库的制作-CSDN博客 使用Cef和Qt做一个跨平台的多标签多窗口浏览器_cef3 多个标签-CSDN博客 cef 依赖的文件 libcef - Bigben - 博客园 (cnblogs.com) Q…

Cadence virtuoso 原理图创建边框

给原理图创建如下图的边框Creating a Sheet Border and Title edit-sheet size添加画布 选择画布尺寸,border size里面的A/B/C/D对应不同的画布尺寸。 添加好画布后,在edit-sheet tilte里面可以选择输入相关信息,如电路名称,日期&…

STM32 F103C8T6经验笔记15:国产芯片下载受限问题

今日使用DAP仿真器下载时的小问题: Not a genuine sT Device! Abort connection 错误:不是真正的ST设备!中止连接。 问题解释: 这是因为下载时软件给你检测出这不是他们的正版芯片了,然后我查看了一下之前的购买记…

项目管理-项目范围管理

目录 一、概述 二、范围计划的编制 2.1 项目中包含的范围 2.1.1 产品范围 2.1.2 工作范围 2.1.3 总结 2.2 范围计划编制的成果 2.2.1 范围管理计划 2.2.1.1 概述 2.2.1.2 内容 三、创建工作分解结构 3.1 概述 3.2 WBS目的和用途 3.3 WBS分层结构 3.3.1 分层结构图…

python爬虫-----深入了解 requests 库下篇(第二十五天)

🎈🎈作者主页: 喔的嘛呀🎈🎈 🎈🎈所属专栏:python爬虫学习🎈🎈 ✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天…

[卷积神经网络]YoloV8

一、YoloV8 1.网络详解 ①backbone部分:第一次卷积的卷积核缩小(由3变为6);CSP模块的预处理卷积从3次变为2次;借鉴了YoloV7的多分支堆叠结构(Multi_Concat_Block)。 所小第一次卷积的卷积核尺寸会损失部分感受野&#…

1.7jdk安装rpm的安装ssh加固

jk安装 [rootlocalhost ~]# java -version openjdk version "1.8.0_161"[rootlocalhost ~]# rpm -qa | grep java tzdata-java-2018c-1.el7.noarch python-javapackages-3.4.1-11.el7.noarch java-1.7.0-openjdk-1.7.0.171-2.6.13.2.el7.x86_64 java-1.8.0-openjdk-1…

会议文字记录工具【钉钉闪记】

当开会时,需要文字记录会议内容,但是打字又慢,可以使用钉钉闪记。 钉钉工作台直接搜索-钉钉闪记

【Pytorch】PytorchCPU版或GPU报错异常处理(10X~4090D)

Pytorch为CPU版或GPU使用报错异常处理 文章目录 Pytorch为CPU版或GPU使用报错异常处理0.检查阶段1. 在conda虚拟环境中安装了torch2.卸载cpuonly3.从tsinghua清华源安装不完善误为cpu版本4.用tsinghua清华源安装成cpu错误版本5.conda中torch/vision/cudatoolkit版本与本机cuda版…

openai whisper 语音转文字尝鲜

最近大模型很火,也试试搭一下,这个是openai 开源的whisper,用来语音转文字。 安装 按照此文档安装,个人习惯先使用第一个pip命令安装,然后再用第二个安装剩下的依赖(主要是tiktoken) https:/…

paho-mqtt 库揭秘

文章目录 **paho-mqtt 库揭秘**第一部分:背景介绍第二部分:paho-mqtt 是什么?第三部分:如何安装这个库?第四部分:库函数使用方法第五部分:场景应用第六部分:常见Bug及解决方案第七部…