一个提问高下立见?国产AI大模型冲上扣子广场PK

news2024/12/24 23:59:08

以“国产GPTs”出名的扣子,做出了GPT没有的功能。

6月12日,字节跳动旗下的AI应用开发平台“扣子”(Coze国内版)悄悄上线了新功能“模型广场”。

图片

扣子是AI应用开发平台,无论用户是否有编程基础,都可以在扣子上快速搭建基于大模型的各种聊天机器人(AI Bot),并一键发布到飞书、微信等各个社交平台。

而新上线的模型广场,可以让两个大语言模型实时PK,一决胜负,帮助用户挑选出最适合自己的大语言模型。

据了解,扣子目前已经接入了包括豆包、通义千问、MiniMax、Moonshot、百川智能、智谱等多个国内大语言模型。换言之,这是国内多家知名大模型厂商与字节的强强联动。

图片

哪款大模型最适合自己的AI应用?创作者们在打造AI Bot时该选哪个模型?自定义主题Bot的魅力在哪?“头号AI玩家”第一时间上手进行了一番实测。

图片

超低门槛搭建Bot,让大模型匿名PK

国内大模型到底哪家更厉害,遇到问题时该选择哪个AI解决,扣子模型广场提供的就是快速测试的方法。

具体来说,模型广场采用了指定Bot对战、随机Bot对战以及纯模型对战模式,任一模式下,系统都会先匹配两款匿名大模型,随后用户进行提问,模型实时生成答案进行PK。

根据模型的回答质量,我们可以投票选出表现较好的模型,孰强孰弱一目了然。

图片

任意模型完成回答后,用户可以参与投票

先从最基础的模型能力评测入手,如果我需要搭建一个“友好语气转换器(阴阳版)”,哪个大语言模型的回复既礼貌但不冒犯?

现在直接让模型“打一架”,就可以评估大模型在面对细分需求时的表现差异。

图片

我们在扣子模型广场点击“纯模型对战”,进入对决页面,两款匿名模型已经在后台准备就绪了。

随后,我输入了需要创建的AI Bot角色设定,并一键发送给两个身份未知的大语言模型,内容如下:

“你是一个能将各种情绪状态演绎得淋漓尽致,令人又爱又恨的阴阳怪气大师,可以通过极其生动且夸张的方式展现出丰富多样的不同网络聊天语气,给用户带来独特的、充满明嘲暗讽的体验…”

图片

两款匿名大模型实时响应提问,其中,最先给出回答的大模型B只花了4.9秒。

任意一个模型回答完后,就可以基于内容质量、回复时间等要素,来判断哪个模型表现更好。

实际测试中,综合响应时长以及内容“阴阳怪气”的程度,我把这一票投给了大模型A。投票完成后,模型广场会显示刚才参与竞赛的两位模型选手,比如被我选中获胜的模型A实际上是豆包。点击展开,还能获得更多模型参数。

图片

投票完成页面

当然,也可以选择重开一轮。比如由于我还想了解其他模型会如何“阴阳怪气”,就点了“重开一轮”,很快,系统重新匹配了两个新模型进行对战。

图片

通过多轮评估对比,我们发现在“友好语气转换器”这一机器人创建需求中,豆包和Moonshot给出的结果不相上下,豆包回答简单毒舌,Moonshot配合表情之后,把“暗讽”拿捏到位。

那么,考虑到我希望聊天机器人在对话时带上emoji,所以会更青睐活泼一点的Moonshot。

需要说明的是,这里的投票完全是依据个人主观喜好,所以与其说哪家模型更强,不如说哪家更适合。

目前,市面上也有较权威的评测,像LMSYS的模型竞技场,也是让全球用户可以自由评测大模型的能力,选出优胜模型。扣子的模型广场也有相同的功能。

对于开发者来说,如何选择更优的底层模型打造AI Bot是十分值得关心的问题。毕竟在大模型行业,基础模型的能力几乎决定着AI Bot能多大程度发挥作用。

但很多人在创建AI Bot时,其实无法看懂复杂的榜单数据,甚至不夸张地说,国产AI大模型各个当过第一。现在,“纯模型”之间可以进行对战,以文本生成的硬实力PK,这样的优势在于方便小白用户自行选择模型。

除此之外,**也可以在模型竞技场中选择感兴趣的Bot开启模型对战。**和GPTs商店类似,入围模型广场的AI Bot是官方精选推荐的。

比如,我选择了“奇遇旅行家”Bot来制定一个出行计划,同样能将“我要从上海出发到阿勒泰,请帮我找到便宜的机票,并制定一份出行规划”这个问题,一键发给两个模型。

不到15秒的时间,匿名模型先后给出了两个完全不同的方案,对于出行需要Plan B的我来说,的确大大缩短了规划时间。

图片

换言之,对于普通用户而言,同一个问题可以同时投喂给两个大语言模型,短时间内可以获得更多回复,一定程度上可以提高获取信息的效率。此外,也可以在一个平台掌握各大模型的最新能力,扣子实现了模型Bot的聚合。

图片

验证模型再叠技能,AI还能怎么玩

需要说明的是,模型广场评估的只是大模型本身在文本生成等方面的能力,不受编排、工作流等配置的影响和限制。

所以,如果想要打造出一个能力出众的Bot,还需要进一步给AI附加一些额外能力。

比如,让Genmoji Bot调用表情包插件,或是创作完整的工作流,和大语言模型结合完成更多复杂功能。

图片

在扣子Bot商店,有不少网友通过AI Bot实现自己的创意。AI最大的魅力,大概就在于你压根没想到这些东西能这么用。

图片

6月12日,扣子还和Intel联合推出了“Coze AI Factory”主题Bot征集活动,包括图文创作、实用工具、互动创意等不同赛道。

图片

图片

https://www.coze.cn/docs/guides/coze_ai_factory

网友们靠调用插件、增加工作流,调教了形形色色的角色,整了不少花活,比如“单人剧本杀”“本命粽子”“Emoji翻译器”等等。

这些有意思的Bot也会吸引更多开发者上手一试,从中寻找创建灵感。

比如可以在Bot商店选择感兴趣的Bot,查看相应的提示词,甚至在个人空间里复刻一个相似的,替换成更心仪的大语言模型。

我们体验下来也发现,如此一来,零基础就可以开发一款契合自己的AI Bot。借助模型广场,还能在创建AI Bot时选择更偏好的大模型。这样一来,人人都可以灵活地配置生成不同的Bot,还能低成本实现突如其来的创意。

图片

字节AI新王牌,想做大模型风向标?

随着大模型技术不断发展,国内大厂几乎都瞄准了构建AI原生应用平台,类GPTs的产品远不止扣子。此前百度上线了文心一言智能体平台,阿里云布局推出百炼大模型平台。前不久,腾讯一站式智能体制作平台“元器”也公开灰度测试。

不少观点认为,具有专业能力的智能体,能够撬动大模型商业化。但如何在其中脱颖而出,做出差异化竞争是大模型厂商们共同面对的问题。

目前看来,挖掘大模型技术上的潜力,汇聚开发者甚至非开发者,扣子靠模型竞技场已经迈出了第一步。

模型竞技场,意味着字节联动阿里、百川智能和月之暗面等,让用户能够快速基于多种大模型创建应用。扣子的底层也不再局限于自研的豆包大模型,逐渐走向开放,吸引更多开发者。

图片

图片来源:扣子微信公众平台

对于大厂来说,开发者生态就像是“蓄水池”,繁荣的生态和稳固的底层技术向来相辅相成,规模化的开发者聚合效应能进一步提升大模型能力。

继此前推出9个豆包大模型全家桶,打响大模型价格战后,字节正在围绕AI寻找应用落地场景,以触达更多用户。

以扣子、豆包等为基础,字节似乎正尝试搭建起一个能够吸引开发者与用户、覆盖各领域的AI应用生态,进一步对B端业务发起攻势。

火山引擎总裁谭待此前接受采访时表示,应用生态的构建不是一天两天就能形成的,反而是一堆人的群体智慧。扣子必须要构建低代码生态,能够让很多人用低门槛做更多事情,才能形成AI时代的创新。

这或许也在暗示,扣子选择上线模型广场的原因,是鼓励更多大模型进行合作,收集真实的应用场景数据,为优化模型提供参考。

正如很多业内人士提到的,AI的价值应该体现在它如何帮助人们解决问题、提高效率上,而不仅仅是技术层面的“最强”。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1832084.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenTiny CCF开源创新大赛赛事指南,助力你赢取10W赛事奖金

第七届CCF开源创新大赛在国家自然科学基金委信息科学部的指导下,由中国计算机学会(CCF)主办,长沙理工大学、CCF 开源发展委员会联合承办。大赛面向国家“十四五”开源生态发展战略布局,聚焦“卡脖子”软件领域以及人工…

clickhouse学习笔记(四)库、表、分区相关DDL操作

目录 一、数据库操作 1、创建数据库 2、查询及选择数据库 3、删除数据库 二、数据表操作 1、创建表 2、删除表 3、基本操作 ①追加新字段 ②修改字段类型或默认值 ③修改字段注释 ④删除已有字段 ⑤移动数据表(重命名) ⑥清空表 三、默认值…

【leetcode刷题】面试经典150题 , 27. 移除元素

leetcode刷题 面试经典150 27. 移除元素 难度:简单 文章目录 一、题目内容二、自己实现代码2.1 方法一:直接硬找2.1.1 实现思路2.1.2 实现代码2.1.3 结果分析 2.2 方法二:排序整体删除再补充2.1.1 实现思路2.1.2 实现代码2.1.3 结果分析 三、…

day12--150. 逆波兰表达式求值+239. 滑动窗口最大值+ 347. 前 K 个高频元素

一、150. 逆波兰表达式求值 题目链接:https://leetcode.cn/problems/evaluate-reverse-polish-notation/description/ 文章讲解:https://programmercarl.com/0150.%E9%80%86%E6%B3%A2%E5%85%B0%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%B1%82%E5%80%BC.html 视频…

QT 的文件

QT 和C、linux 一样,也有自带的文件系统. 它的操作和C、c差不多,不过也需要我们来了解一下。 输入输出设备类 QObject 有一个子类,名为 QIODevice 类,如其名字,该类是管理所有输入输出设备的类。 比如文件、网络套…

Java获取本机IP地址的方法(内网、公网)

起因是公司一个springboot项目启动类打印了本机IP地址加端口号,方便访问项目页面,但是发现打印出来的不是“无线局域网”的ip而是“以太网适配器”ip,如下图所示 这样就导致后续本地起项目连接xxl-job注册节点的时候因为不在同个局域网下ping…

Arcgis投影问题

今天下载数据,右键查看属性,发现只有地理坐标系,在arcgis里面进行展示有点丑 怎么变成下面的? 步骤1:加载数据 打开ArcGIS Pro或ArcMap。在目录窗口中,右键点击“文件夹连接”或“文件夹”选项&#xff0c…

苹果的后来者居上策略:靠隐私保护打脸微软

01.苹果与微软相比更注重用户隐私 我一直是Windows的忠实用户,但微软疯狂地将人工智能融入一切,让我开始觉得应该咬咬牙换成Mac。 自小我几乎只用Windows电脑,所以我对MacOS一直不太适应。虽然Windows 11有其缺点,但总的来说&am…

设计四大基本原则的全面解析

每每问起设计四大基本原则,无论是蜚荣全球的业内大咖还是初出茅庐的张三李四,都会不约而同地告诉你一个答案:亲密性、对齐、重复、对比。 自罗宾威廉姆斯于《写给大家看的设计书》中提出后,四大基本原则涵盖了品牌、电商、包装、…

【数据结构初阶】--- 堆

文章目录 一、什么是堆?树二叉树完全二叉树堆的分类堆的实现方法 二、堆的操作堆的定义初始化插入数据(包含向上调整详细讲解)向上调整删除堆顶元素(包含向下调整详细讲解)向下调整返回堆顶元素判断堆是否为空销毁 三、…

时间同步概念及常见的时间同步协议NTP PTP

一、前言 前面几篇文章介绍了Linux中的各种各样的时间、时钟源以及时间维护的方式,其中在timekeeper等数据结构中,我们当时略过了NTP相关的字段,为了补充这一段内容,从本篇开始会介绍时间同步的基本概念、及常见的时间同步协议&am…

2024年春季学期《算法分析与设计》练习15

问题 A: 简单递归求和 题目描述 使用递归编写一个程序求如下表达式前n项的计算结果&#xff1a; (n<100) 1 - 3 5 - 7 9 - 11 ...... 输入n&#xff0c;输出表达式的计算结果。 输入 多组输入&#xff0c;每组输入一个n&#xff0c;n<100。 输出 输出表达式的计…

定时器介绍之8253芯片

目录 定时器简介 8253功能介绍 组成 工作原理 相关引脚 启动方法 计数方式 实现 读取计数值 定时器简介 8253功能介绍 内部结构 相关引脚 计数器组成 工作原理 启动方法 计数方式 初始化&#xff1a;写入控制字——>写入计数初值 实现 计数长度选择&#xff1a…

Python 全栈系列254 异步服务与并发调用

说明 发现对于异步(IO)还是太陌生了&#xff0c;熟悉一下。 内容 今天搞了一整天&#xff0c;感觉有一个long story to tell&#xff0c;但是不知道从何说起&#xff0c;哈哈。 异步(协程)需要保证链路上的所有环节都是异步(协程)的&#xff0c;任何一个环节没这么做都会导致…

CSS文本超限后使用省略号代替

方案一&#xff1a; 只显示一行&#xff0c;超限后使用省略号代替 .detail {overflow: hidden;text-overflow: ellipsis;white-space: nowrap; }方案二&#xff1a; 显示多行&#xff0c;到最后一行还没有显示完&#xff0c;则最后一行多出来的部分使用省略号代替。 .detai…

如何通过Appium连接真机调试

1、打开appium&#xff0c;点击启动appium服务器&#xff08;如图1&#xff09; 2、appium启动成功后&#xff0c;点击放大镜启动检查会话&#xff08;如图2&#xff09; 3、填写真机设备信息和APP的package、activity,点击启动会话&#xff08;如图3&#xff09; 4、打开运行A…

C#——字典diction详情

字典 字典: 包含一个key(键)和这个key所以对应的value&#xff08;值&#xff09;&#xff0c;字典是是无序的&#xff0c;key是唯一的&#xff0c;可以根据key获取值。 定义字典: new Diction<key的类型&#xff0c;value的类型>() 方法 添加 var dic new Dictionar…

头歌资源库(8)分发饼干

一、 问题描述 二、算法思想 我们可以使用贪心算法来解决这个问题。首先&#xff0c;我们将孩子们的胃口值和饼干的尺寸进行排序&#xff0c;从小到大。然后&#xff0c;我们从最小的胃口值和最小的饼干尺寸开始匹配。 我们使用两个指针i和j&#xff0c;分别指向孩子们的胃口…

电商客服的得力助手:快捷回复软件

随着技术的进步&#xff0c;传统的人工打字已经逐渐不能满足快节奏的电商服务需求。如今&#xff0c;市面上涌现出众多快捷回复辅助软件&#xff0c;它们以高效率的特点&#xff0c;成为电商客服人员的必备工具。 作为一名拥有五年经验的电商客服&#xff0c;我深刻体会到了这类…

“暗蚊”黑产团伙通过国内下载站传播Mac远控木马攻击活动分析

黑客&网络安全如何 1 概述 近期&#xff0c;安天CERT发现一组利用非官方软件下载站进行投毒和攻击下游用户案例&#xff0c;并深入分析了攻击者在网管运维工具上捆绑植入macOS平台远控木马&#xff0c;利用国内非官方下载站发布&#xff0c;以此取得政企机构内部…