中文竞技场大测评

news2024/9/21 16:27:34

中文竞技场大测评

  • 活动入口
  • 大模型评测
    • 写作创作相关
    • 代码相关
    • 知识常识
    • 中文游戏
    • 人类价值观
    • 模型自动对话
  • 体验感受

活动入口

这次的中文竞技场大模型评测活动,内容很有趣,包含了写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域这6个领域的测评,涵盖的面很广,内容也很丰富,那么下面就开始我们的体验之旅吧。顺便说一下,这次的体验不需要复杂的操作步骤,你只需要输入你想知道的问题即可,测评上手无压力。

大模型评测

在开始大模型评测之前,首先提供一下大模型评测地址:https://modelscope.cn/studios/LLMZOO/Chinese-Arena/summary?spm=a2c6h.12873639.article-detail.8.bfa743e4hHORL3 页面如图
在这里插入图片描述
下面开始正式测评中文竞技场大模型问题回复效果。

写作创作相关

这里我首先体验一下写作相关,因为自己平时也会写写博文,因此写作这方面体验一下写作效果如何。
第一个问题:七夕
在这里插入图片描述
第二个问题:缅北电诈
在这里插入图片描述
第三个问题:日本倾倒核废水
在这里插入图片描述
以上三个问题都处于写作创作相关领域下,相比而言,模型A(Model A: ziya-llama-13b-v1)的生成效果更好;而模型B(Model B: belle-llama-13b-2m-v1)对于写作创作领域的理解可能有差异,理论上对于不同的话题进行写作创作,不应需要和第一个话题关联。相关联的话那就是聊天一样的上下文,而不是写作创作相关领域了。

代码相关

作为Java开发者,对于代码相关的问题还是有挺多想问的,那么下面火速开始问答吧
第一个问题:生成一个学员对象
在这里插入图片描述
第二个问题:是一段代码

public static void main(String[] args) {

        String a = "22:00";

        String b = "07:00";

        a = a.substring(0,a.indexOf(":"));

        b = b.substring(0,b.indexOf(":"));

        System.out.println(Integer.parseInt(a));

        System.out.println(Integer.parseInt(b));

        System.out.println(Integer.parseInt(b) < Integer.parseInt(a));

    }

在这里插入图片描述
第三个问题:Java实现冒泡算法
在这里插入图片描述
对于以上三个问题都处于代码相关领域下,相比而言,模型A(Model A: baichuan-13b-chat-v1)的生成效果没有模型B好,模型B(Model B: chatglm-6b-v2)对于一些基础的代码描述,可以直接生成相关的内容,另外模型A在第二个问题的执行过程中错误解析了代码中的内容,而模型B不但正确打印了代码执行结果,还详细分析了代码操作意义,更切合需要一些。

知识常识

对于知识常识能聊的方面就比较多,可以有很多想问的
第一个问题:为什么要工作
在这里插入图片描述
第二个问题:手机有什么用
在这里插入图片描述
第三个问题:为什么会下雨
在这里插入图片描述
第四个问题:什么是职场PUA
在这里插入图片描述
在知识常识领域上,模型A(Model A: baichuan-13b-chat-v1)和模型B(Model B: ChatPLUG-100Poison)对于知识常识问题的回答基本都在可理解范围,回答的都可以,内容虽不是完全相同,但是是从不同角度回答同一个问题,很不错。

中文游戏

下面开始体验中文游戏领域的大模型,看一下是否能达到预期
第一个问题:什么是 鱿鱼游戏
在这里插入图片描述
第二个问题:答非所问 两个模型的回复效果都不太好,可能是问题提问的不够详细
第三个问题:什么是 答非所问
在这里插入图片描述
第四个问题:和尚打伞-无法无天
在这里插入图片描述
在中文游戏领域,模型A(Model A: baichuan-13b-chat-v1)和模型B(Model B: moss-moon-003-sft-v1)对于部分问题不能返回想要的结果,另外对于一些尚未训练到的谚语,领个模型都报错了,每次error都会把页面卡死,我尝试了多次第四个问题都是这样的结果。

人类价值观

对于人类价值观领域的问题,直接上问题吧
第一个问题:什么是 好人不长久,坏人活千年
在这里插入图片描述
第二个问题:为什么说 傻人有傻福
在这里插入图片描述
第三个问题:什么是 长江破浪会有时,直挂云帆济沧海
在这里插入图片描述
第四个问题:为什么要做一个善良的人,而不是一个坏人
在这里插入图片描述
在人类价值观领域模型上,模型A(Model A: ChatPLUG-100Poison)的回答效果更准确一下,特别是第三个问题,模型B(Model B: ChatPLUG-initial)回答的对于原文的出处竟然都弄错了,因此来说模型A的效果更好一些。
最后一个NLP专业领域这个日常接触的不是很多,也测试了一些内容,这里就不再多写了,大家有兴趣的可以自行去体验哈。

模型自动对话

这里我体验了一下 火车站台 的自动对话,对话效果不是太好
在这里插入图片描述
餐馆场景的自动对话还是比较准确的
在这里插入图片描述
超市场景的自动对话也还可以
在这里插入图片描述

体验感受

对于这次的中文竞技场大模型评测中所提到的写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域这6个领域的体验,整体上效果还是不错的,通过模型A与模型B生成内容的比对,以及一些固定场景下自动对话的生成,为后续将大模型的训练成果运用与日常生活中提供素材,可以说不同场景下的对话内容的训练以及自动对话的生成,可以提供很多场景下的AI为顾客服务,单说模型提供的场景中
在这里插入图片描述
就很多方面了。不过目前各个场景的训练数据量不太多,希望后续可以有更多的场景支持以及可以针对不同的顾客问题提供精准的回答等方面来完善模型自动对话功能。
本次测评到这里也就结束了,整体的体验感受很不错,模型训练话成果也比较显著,赞一个。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1965800.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

记录Maven打包Java web项目时提示webxml attribute is required

经各种搜索后发现每次打包web文件夹的映射&#xff0c;莫名其妙被改为webapp&#xff08;不知道是idea还是Maven的锅&#xff09; 直接把web文件夹改成webapp好了&#xff0c;&#xff0c;还是不要自定义web文件夹的名称了。真的栓Q ​​​​​​☞☜

程序员面试中的“八股文”:助力还是阻力?

目录 前言1. “八股文”的定义与起源1.1 “八股文”的历史背景1.2 “八股文”在程序员面试中的应用 2. “八股文”的优点与作用2.1 标准化评估工具2.2 强化基础知识2.3 短时间内展示能力 3. “八股文”的局限与争议3.1 忽视实际操作能力3.2 过度依赖背题能力3.3 压制创新思维 4…

声学气膜馆:优化听觉体验的创新之选—轻空间

随着现代建筑技术的不断进步&#xff0c;气膜建筑因其轻便、灵活、快速搭建等优势&#xff0c;在体育、娱乐、教育等多个领域得到广泛应用。然而&#xff0c;传统气膜馆在声学性能上的缺陷&#xff0c;特别是噪音问题&#xff0c;一直是使用过程中需要克服的挑战。为解决这一问…

【课程系列07】某乎AI大模型全栈工程师-第7期

网盘链接 链接&#xff1a;百度网盘 请输入提取码 --来自百度网盘超级会员v6的分享 课程目标 学习完毕咱们可以收获什么种能力&#xff1a; 1、传统前端 后端 数据分析 产品 绘图 算法工程等工作&#xff0c;一个人都可以实现&#xff0c;实现超级个体的能力 2、可以解决…

Bug 解决 | 无法正常登录或获取不到用户信息

目录 1、跨域问题 2、后端代码问题 3、前端代码问题 我相信登录这个功能是很多人做项目时候遇到第一个槛&#xff01; 看起来好像很简单的登录功能&#xff0c;实际上还是有点坑的&#xff0c;比如明明账号密码都填写正确了&#xff0c;为什么登录后请求接口又说我没登录&a…

【微信小程序】java后端生成小程序链接跳转小程序

文章介绍&#xff1a;通过后端提供链接二维码&#xff0c;微信扫二维码请求后端&#xff0c;后端生成需要跳转的小程序链接 需要请求2个微信接口 1.获取微信access_token(我用了是我自己的httpUtil工具&#xff0c;细节就不提了&#xff0c;这个获取微信access_token是微信大…

【数据结构算法经典题目刨析(c语言)】环形链表的约瑟夫问题

&#x1f493; 博客主页&#xff1a;C-SDN花园GGbond ⏩ 文章专栏&#xff1a;数据结构经典题目刨析(c语言) 一.前言&#xff1a; 前言——著名的Josephus问题 据说著名犹太 Josephus有过以下的故事&#xff1a;在罗⻢⼈占领乔塔帕特后&#xff0c;39个犹太⼈与Josephus及他…

C#初级——List 容器

容器 在C#中&#xff0c;容器通常指的是用于存储和组织数据的集合类。 本文介绍的容器是动态数组&#xff1a;List<T> 内部使用数组来存储元素&#xff0c;当添加元素超出当前数组容量时&#xff0c;会自动调整大小&#xff08;扩容&#xff09;。 list容器 List<&g…

【ARM】ArmDS中Coretex-M处理器GPIO时钟使能代码分析

1、 文档目标 了解ArmDS中Coretex-M处理器GPIO时钟使能代码&#xff0c;掌握GPIO时钟使能的流程及其依据。 2、 问题场景 在应用Coretex-M处理器进行项目开发时&#xff0c;GPIO的使用&#xff0c;是任何一个开发人员必须掌握的内容。 3、软硬件环境 1&#xff09;、软件版本…

vue项目Nginx部署启动

1.vue打包 &#xff08;1&#xff09;package.json增加打包命令 "scripts": {"dev": "webpack-dev-server --inline --progress --config build/webpack.dev.conf.js --host 10.16.14.110","start": "npm run dev","un…

11部门公布第二批国家数字乡村试点地区名单

近日&#xff0c;中央网信办、农业农村部、国家发展改革委、工业和信息化部、民政部、生态环境部、商务部、文化和旅游部、中国人民银行、市场监管总局、国家数据局联合印发通知&#xff0c;公布第二批国家数字乡村试点地区名单&#xff08;附后&#xff09;&#xff0c;并对组…

深入分析 Android ContentProvider (十)

文章目录 深入分析 Android ContentProvider (十)ContentProvider 的高级使用及最佳实践&#xff08;续&#xff09;1. ContentProvider 与异步加载使用 CursorLoader 进行异步数据加载 2. 动态权限请求动态请求权限示例 3. ContentProvider 的缓存优化使用 LruCache 实现内存缓…

优化 GitHub 体验的浏览器插件「GitHub 热点速览」

上周&#xff0c;GitHub 有个“安全问题”——CFOR&#xff08;Cross Fork Object Reference&#xff09;冲上了热搜&#xff0c;该问题的表现是&#xff1a; 远程仓库的提交内容任何人可以访问&#xff0c;即使已被删除。只需要拿到 commit ID源/Fork 的项目地址&#xff0c;任…

猫头虎分享AI写真系统架构分析

摘要 AI写真系统 是目前最受欢迎的技术之一&#xff0c;本文将详细介绍该系统的架构和实现&#xff0c;包括 前端框架Uni-app、后端框架Saas、AI Agent后端框架dify和langchain&#xff0c;以及通义千问 GPT-4 MJ DALL-E 3的应用。无论是技术小白还是大佬&#xff0c;都能从…

docker安装人大金仓最新数据库

1.下载docker版本人大金仓数据库 1.1 点击人大金仓网址&#xff0c;下载镜像包 1.2 上传镜像包并导入镜像 在这里插入代码片 #上传后导入镜像2.启动人大金仓数据库容器 docker run -tid \ --privileged \ --name kingbase \ -v /opt/kingbase/data:/home/kingbase/userdata…

2024思维导图软件大赏:哪些工具让知识管理更轻松

如果你是上班族&#xff0c;有时候会议需要头脑风暴&#xff0c;收到的信息总是杂乱无章令人头疼。这时候使用幕布思维导图这样的工具就如同智慧的灯塔&#xff0c;他会帮我们指引准确的方向。 1.福昕思维导图 链接直达&#xff1a;https://www.pdf365.cn/naotu/ 这个思维导…

LLC数字控制TMS320F28034,2-根据原理图配置GPIO控制引脚

LLC数字控制TMS320F28034&#xff0c;2-根据原理图配置GPIO控制引脚 LLC数字控制TMS320F28034&#xff0c;2-根据原理图配置GPIO控制引脚1 TMS320F280341.1 GPIO概述1.2 GPIO寄存器说明1.3 GPIO寄存器使用注意事项 2 项目原理图介绍2.1 GPIO使用介绍2.2 功能引脚使用说明 3 软件…

5、注册字符类设备

字符设备 cdev结构体 Linux中使用cdev结构体描述一个字符设备。结构体定义在include/linux/cdev.h 文件中&#xff0c; struct cdev{struct kobject kobj;struct module *owner; //所属模块const struct file_operations *ops; //文件操作结构体struct list_head lis…

Spring Cloud 集成 Nacos、openfeign 错误解决

前言&#xff1a; 在集成 Nacos 和 openfeign 的时候&#xff0c;过程出现了一点小曲折&#xff0c;这里简单分享一下&#xff0c;希望可以帮助到有需要的朋友。 Spring boot 版本如下&#xff1a; <version>2.4.5</version>Spring Alibaba 版本如下&#xff1a…

【狂神】多线程(含内部类、Lambda)

整体参考 一、线程 1、多任务&#xff1a; 现实中太多这样同时做多件事情的例子了&#xff0c;看起来是多个任务都在做&#xff0c;其实本质上我们的大脑在同一时间依旧只做了一件事情。 2、多线程&#xff1a; 原来是一条路&#xff0c;慢慢因为车太多了&#xff0c;道路…