讯飞星火升级 3.0:整体超越 ChatGPT,2024 年将实现对标 GPT-4

news2024/11/15 17:25:50

距离上一个大版本仅两个月过去,科大讯飞在 1024 对外正式推出讯飞星火认知大模型 3.0 版本。

今年 5 月,讯飞星火认知大模型刚刚面世时,科大讯飞董事长刘庆峰曾立下 Flag:10 月 24 日,星火认知大模型的能力要全面对标 ChatGPT。

图片

在今天的发布会上,刘庆峰对外正式宣告,星火 V3.0 已经实现全方位超越 ChatGPT,在中文上实现全面超越,在英文上实现对标。

图片

相较于上一个版本,讯飞星火 3.0 版本在文本生成、语言理解,知识问答、逻辑推理、数学能力、代码能力、多模态能力等七大核心能力上继续升级,并且推出了个性化功能。

多项能力的提升,推动了更多应用场景的落地,落地价值开始彰显。在此次发布会上,讯飞对外介绍了智能编程助手 iFlyCode2.0、星火科研助手、启发互动式英语 AI 答疑辅学、青少年 AI 心理咨询、AI 健康助手等一系列细分场景应用,并对外发布了金融、汽车、运营商、工业、住建、物业、法律等十二个行业模型。

刘庆峰称,通过与华为在算力上共同合作,讯飞在半年内实现了星火大模型训练和推理效率翻番。讯飞联合华为共同发布 “飞星一号” 大模型算力平台,并启动对标 GPT-4 的更大参数规模的星火大模型训练,2024 年上半年将实现对标 GPT-4。

七大维度全面升级,整体超越 ChatGPT

从大模型本身的技术升级来看,这次讯飞星火 V3.0 在其七大核心能力上都有不同程度的提升。

图片

其中,代码能力、数学能力、主动对话、小样本学习、多模态指令跟随、个性化等能力是此次提升的重点和亮点。

先从代码能力上看,星火 3.0 版本进一步提高了代码的项目级理解能力,大模型能够理解和执行更复杂的代码生成要求,适用场景增多,降本增效效果更加明显。

发布会上,刘庆峰展示了一个简单的 Python 生成 Prompt,要求大模型 “用 Python 代码画出一个大大的心形,然后里面大大小小的五颜六色的很多星星逐步呈现出来。”新版本大模型在代码能力上的项目理解能力被强化,不再只能执行单一的任务要求。

在全新的星火大模型对话页面,Python 能力也被单独归纳成为一个小组件,可供用户在单独环境下使用。

图片

由于发布会上介绍,升级过后的星火大模型在 Python 代码生成能力上已经超越了 ChatGPT,但距离 GPT-4 还有一定差距。

机器之心第一时间体验了讯飞星火 V3.0,接下来我们选取一个 Python 问题 ——“编写一个 Python 程序,实现一个简单的聊天机器人,能够回答用户的问题”,分别让 ChatGPT 以及星火 3.0 进行生成,最后用 GPT-4 对这两者的答案进行检验和点评。

讯飞星火 V3.0 的回答速度很快,几乎没有停顿时间:

# Python高级工程师解法
# 依赖库:chatterbot

from chatterbot import ChatBot
from chatterbot.trainers import ChatterBotCorpusTrainer

chatbot = ChatBot('Chatbot')
trainer = ChatterBotCorpusTrainer(chatbot)

# 使用英文语料库训练它
trainer.train("chatterbot.corpus.english")

# 获取用户输入
user_input = input("User: ")

# 获取机器人的回答
bot_response = chatbot.get_response(user_input)

print("Chatbot: ", bot_response)

根据 GPT-4 对此段代码验证和点评,这段代码并没有错误,并且足够简洁地完成了 Prompt 提出的问题。

图片

接下来,同一个问题,我们比对一下 ChatGPT 的回答:


import random

# 定义聊天机器人的回答
responses = {
    "你好": "你好!有什么我可以帮助你的吗?",
    "你叫什么名字": "我是ChatGPT,一个聊天机器人。",
    "你喜欢什么食物": "我不吃东西,因为我是一个程序。",
    "再见": "再见,如果有任何问题,随时来找我!",
    "默认回答": "抱歉,我不太明白你的问题。请再问一次。",
}

# 定义聊天机器人的主要函数
def chat():
    print("你好!我是一个聊天机器人。请输入你的问题或者说 '再见' 来结束对话。")
    while True:
        user_input = input("用户: ")
        response = get_response(user_input)
        print("聊天机器人: " + response)

        if user_input == "再见":
            break

# 根据用户输入获取回答
def get_response(user_input):
    user_input = user_input.lower()
    for key in responses:
        if key in user_input:
            return responses[key]
    return responses["默认回答"]

# 运行聊天机器人程序
if __name__ == "__main__":
    chat()

GPT-4 对上述代码的点评显示,GPT3.5 所构建的代码同样是一个足够简洁且能够实现预设功能的代码,但是它可能存在 “面对复杂或意图不清的问题时不够准确” 的问题。

图片

将两段代码进行综合对比,GPT-4 罗列了两者各自的优缺点,在能基本完成任务的前提下,两个大模型所生成的回答各有优缺点。星火 V3.0 生成的代码拥有更高的可扩展性,在更复杂的开发场景和项目制工作中,星火 V3.0 在代码生成上会更具优势。

图片

除了代码能力,数学能力的升级也是本次讯飞星火 V3.0 的重点,大模型能够自动提炼数学规律。由于教育是科大讯飞一直以来的重点落地场景,讯飞在教育领域积累了大量数据,此次所升级的能力也将用于讯飞 AI 学习机之中。在测试中,小学、初中、高中不同难度的数学题,星火大模型 V3.0 都能够流畅回答,并且准确率为 100%。

图片

同样的问题,ChatGPT 与星火的答案基本一致,不过解题步骤上略有繁杂。在第一个问题上,ChatGPT 在答案上多做了一步常识性筛选,将香蕉数量进行了取整。

图片

图片

而 GPT-4 则在这三道题中表现失常。其中,第二题求解等差数列首项和公差,GPT-4 得出了错误答案 a=2、d=2。机器之心将第二道题目单独取出提问,多次提问 GPT-4,均得到错误答案。

图片

在多模态方面,星火 V3.0 在指令跟随与细节表达等能力上进一步提升,大模型能够理解更新颖、细节的 Prompt,并且表现地更加丰富。

图片

在多模态能力提升的加持下,没有绘画和创作基础的普通人,也可以通过和讯飞星火大模型 V3.0 的人机互动,发挥自己的奇思妙想,进行 “儿童绘本制作”。

只需要打开 “有声绘本创作助手”,随意输入你的想法,比如一只兔子想去太空冒险,然后持续跟模型对话,模型会自动扩写故事线并且根据故事进行绘画。即使在多轮对话下,故事和图片内的主要人 / 物都会自动延续所设定的 IP 特色。创作结束后,就可以导出绘本故事到本地。

图片

除了上文提到的 ““python 大脑”、“绘本制作”,在全新的讯飞星火大模型对话界面,被包装好的模版化 “助手” 已经十分丰富,还有 “法律咨询”、“文本扩写” 等等。

“直到现在,我们发现大家对大模型仍然有两个期待,一个是大模型不仅要能回答问题,还要能够就是主动提出问题,主动交互。另一个,大模型不仅要有权威知识的信息,还要有能反映个性的能力”,刘庆峰提出,大模型正在从通用进化到个性。

在发布会现场,科大讯飞研究院院长刘聪要求大模型用 “孔夫子” 的人设,来为自己写作一篇特色演讲稿,AI 也可以有了人设。

图片

更进一步,还可以上传关于自己的语料,如既往工作演讲资料,来训练一个更符合自己风格的 AI,让大模型以自己的方式来为自己写演讲稿。

图片

如果想要更加有个人风格一些,还可以继续上传一些生活沟通记录,比如和家人的聊天记录,让大模型更懂自己的说话方式。在现场,刘聪使用自己的个人助手,给女儿写了一封有个人风格的沟通信,信里陈述的方式就是刘聪本人的说话方式。

图片

除了可以自己训练,讯飞星火大模型 V3.0 新增的 “友伴” 功能,已经训练了一些经典影视剧和文学作品中的人设,我们可以在广场中,选择他们并跟他们聊天。

图片

图片

当然,在平台中内置了自定义人设功能,我们可以自己设定自己想要的 AI 人设,根据性格模拟、情绪理解、表达风格生成自己喜欢的对话对象。“这不只是聊天,还可以释放灵感、教育孩子、解放情绪”,刘庆峰说。

机器之心在讯飞星火 App 尝试创建一个自己喜欢的 AI 人设。输入姓名后,可以设定它的头像、声音、随机为它增加身份描述。它的人设是一个天真无邪有着小朋友声音的小学生,它是一个火星居民,正在准备开始它的太空旅行。

图片

还可以精调它的性格,调整外向性、抗压性、友好度等,为它打造一个你喜欢的性格特征。

图片

最后 ,就可以顺利开启对话了。和可爱小朋友“Aliceeee”的对话过程中,“Aliceeee”自己的人设意识相对连贯,能够按照人设对问题做出反应,我们可以跟“Aliceeee”一起开太空旅行的脑洞,进行天马行空但有“Aliceeee”逻辑的想象。

图片

此外,受益于讯飞星火大模型生态的发展,在如今的大模型对话页面,在涉及到简历生成、流程图制作、PPT 制作、文档问答等特定场景,平台可以支持打开相关插件,获得更加专业的生成服务。

以 PPT 制作为例,我打开了 PPT 制作插件,然后在对话框中输入 “请帮我制作一份介绍讯飞星火 V3.0” 的 PPT,系统识别要求后开始调用 PPT 制作插件,大约在 3 秒后,一份 PPT 文件就显示制作好了,并可供下载,生成质量能够达到基本的使用需要。

图片

图片

 连续发布多款落地应用,将在 2024 年实现对标 GPT-4

经过过去一年的加速发展,目前国内领先厂商的自研大模型水平已基本达到 GPT3.5,下一阶段应用落地成为大模型的重点。金融、法律、教育、营销等常见的行业大模型已经在部分具体场景中发展成熟,开始产生实际价值。此次发布会上,讯飞在教育、医疗科研、代码领域发布了多款新产品。

正式发布医疗大模型,讯飞晓医 APP 为每个家庭提供健康助手

此次发布会上,讯飞正式对外发布医疗领域大模型以及搭载了医疗大模型的 “讯飞晓医” APP,集成了症状自查、报告解读、医疗信息快速查询、健康档案管理等功能。比如,当用户不知道怎么准确表达自己的病情,不知道买药该注意什么禁忌,想要快速比对自己不同时期的体检报告时,可以直接询问讯飞晓医。

和其他场景不一样,医疗场景的大模型对结果的容错率更低,出错带来的风险性更高。讯飞星火医疗大模型通过上线实际使用数据抽查 12 万例并通过国家科技信息资源综合利用与公共服务中心(STI)第三方测试数据显示,讯飞星火医疗大模型在医疗海量知识问答、医疗复杂语言理解、医疗专业文本生成、医疗诊断治疗推荐的问题回答率全面超越 GPT-4。

发布 AI 心理伙伴 “小星”,帮助青少年舒缓心理困扰

AI 心理咨询师 “小星” 是科大讯飞基于星火认知大模型推出的一款帮助青少年舒缓心理困扰的多模态心理产品,它能够通过视频、语音、文字等多模态方式与青少年展开类人自由对话,理解青少年的情绪情感,表达接纳与共情,促进青少年自我觉察,并提供个性化行动建议。

“小星” 具备多模态情感识别、共情表达、寻因式提问、个性化心理指导四大核心能力,具有极其丰富的心理学知识 ——10 亿 + 条心理类数据、40 万 + 篇期刊文献、100 万 + 通脱敏心理对话案例、550 万 + 个心理评估数据。

智能编程助手 iFlyCode 升级 2.0 版本,代码能力超越 ChatGPT

持续提升的代码能力在产品上的落地效果已经十分明显。刘庆峰表示,自讯飞星火发布以来,代码能力持续升级,星火 3.0 已基本全面超越 ChatGPT,正在追赶 GPT-4。

搭载讯飞星火 V3.0 的智能编程助手 iFlvCode2。0 正式发布后,发现产品在编程的设计阶段提效 50%、开发阶段提效 37%、测试阶段提效 44%,大幅提升软件从业人员效率。

以智慧课堂的从 Windows 到 Linux 跨平台移植为例,项目代码超过 20 万行,在智能编程助手 iFlyCode 的帮助下,开发时间从传统方式在的 3 个月,缩短到了一个月。

iFlyCode 发布以来,已在京东云、软通动力等 107 家机构实现深度对接应用。今年 11 月份,几乎全国所有软件名城都会和科大讯飞开展相关合作。

发布会上,讯飞联合华为还共同发布了 “飞星一号” 大模型算力平台,此前,讯飞和华为 “联合特战队” 半年内实现星火大模型训练和推理效率均翻番。

“大模型时代的大幕才刚刚揭开,改变世界的伟大征程才刚刚开始。” 刘庆峰透露,对标 GPT-4 的更大参数规模的星火大模型正式启动训练,2024 年将实现对标 GPT-4。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1134400.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

『第三章』雨燕栖息地:Swift 开发环境

在本篇博文中,您将学到如下内容: 1. Swift 开发平台2. Swift 集成开发环境 Xcode?3. 原型试验场:Playground4. 另一种尝试:iPad 上的 Swift Playgrounds5. Swift 交互实验室:Swift REPL总结 咫尺春三月,寻常百姓家。为…

单源最短路径 -- Dijkstra

Dijkstra算法就适用于解决带权重的有向图上的单源最短路径问题 -- 同时算法要求图中所有边的权重非负(这个很重要) 针对一个带权有向图G , 将所有节点分为两组S和Q , S是已经确定的最短路径的节点集合,在初始时为空&…

重构之美:Java Swing中 如何对指定行文本进行CSS样式渲染,三种实现思路分享

文章目录 需求分析Document 应用彩蛋 需求分析 在Swing中,如果期望实现对JTextArea 或者 TextPane等文本区域实现单行渲染改怎么做?如上图所示 总的来说有两种实现方案 文本行数可控,那么构造一组JLabel集合按表单顺序添加,这样可…

视频相关学习笔记

YUV 和rgb一样是一种表示色彩的格式,Y表示亮度,UV表示色度(U是蓝色投影,V是红色投影),只有Y就是黑白的,所以这个格式的视频图片可以兼容黑白电视,所以彩色电视使用的都是YUV 存储方…

查找算法-斐波那契查找法(Fibonacci Search)

目录 查找算法-斐波那契查找法(Fibonacci Search) 1、说明 2、算法分析 3、C代码 查找算法-斐波那契查找法(Fibonacci Search) 1、说明 斐波那契查找法又称为斐氏查找法,此查找法和二分法一样都是以分割范围来进…

第12章 PyTorch图像分割代码框架-1

从本章开始,本书将会进行深度学习图像分割的实战阶段。PyTorch作为目前最为流行的一款深度学习计算框架,在计算机视觉和图像分割任务中已经广泛使用。本章将介绍基于PyTorch的深度学习图像分割代码框架,在总体框架的基础上,基于PA…

kuaishou web端did注册激活 学习记录

快手web端 did 注册激活的流程大概如下: 1.访问web端的接口,主动触发滑块,拿到滑块信息 2.然后滑块验证did 获取captchaToken 3.携带captchaToken访问接口 4.最后校验web端的did 是否激活 最后激活以后的效果如下: 经过测试&…

微服务-服务拆分

文章目录 服务拆分及注意事项服务拆分案例案例代码分析 服务拆分及注意事项 每个服务有独立的数据库,订单模块需要查询用户信息时,通过调用用户模块的接口,自身的数据库并没有用户信息。 服务拆分案例 案例结构 案例有2个微服务,…

【跟小嘉学 Rust 编程】三十三、Rust的Web开发框架之一: Actix-Web的基础

系列文章目录 【跟小嘉学 Rust 编程】一、Rust 编程基础 【跟小嘉学 Rust 编程】二、Rust 包管理工具使用 【跟小嘉学 Rust 编程】三、Rust 的基本程序概念 【跟小嘉学 Rust 编程】四、理解 Rust 的所有权概念 【跟小嘉学 Rust 编程】五、使用结构体关联结构化数据 【跟小嘉学…

基于Kubesphere容器云平台物联网云平台Devops实践

基于Kubesphere容器云平台物联网云平台Devops实践 项目背景 ​ 公司是做工业物联网相关业务的,现业务是云平台,技术栈 后端为 Springboot2.7JDK11 ,前端为 Vue3Ts,需要搭建自动化运维平台以实现业务代码自动部署上线,…

【C++笔记】如何用检查TCP或UDP端口是否被占用

一、检查步骤 使用socket函数创建socket_fd套接字。使用sockaddr_in结构体配置协议和端口号。使用bind函数尝试与端口进行绑定,成功返回0表示未被占用,失败返回-1表示已被占用。 二、步骤详解 2.1 socket函数 socket 函数是用于创建套接字的函数&…

【MySql】9- 实践篇(七)

文章目录 1. 一主多从的主备切换1.1 基于位点的主备切换1.2 GTID1.3 基于 GTID 的主备切换1.4 GTID 和在线 DDL 2. 读写分离问题2.1 强制走主库方案2.2 Sleep 方案2.3 判断主备无延迟方案2.4 配合 semi-sync方案2.5 等主库位点方案2.6 GTID 方案 3. 如何判断数据库是否出问题了…

Django 实战开发(一)项目搭建

1.项目搭建 用pycharm 编辑器可以直接 New 一个 Django 项目 2.新建应用 python manage.py startapp demo项目结构如下: 3.编写第一个Django 视图函数 /demo/views: from django.http import HttpResponse def welcome(request):return HttpResponse("welcome to dja…

品牌媒介工作流程是什么,媒体投放目标怎么做?

品牌媒介其实说简单也很简单,说难也很难,简单在于其实事情流程简洁,难呢,在于很多东西如果不亲身体验是无法领悟到精髓的。今天为大家分享下品牌媒介工作流程是什么,媒体投放目标怎么做? 我们怎么才能在媒体…

JWT的封装、[Authorize]的使用

JWT的封装 需要安装两个包。 包1:System.IdentityModel.Tokens.Jwt Install-Package System.IdentityModel.Tokens.Jwt 包2:Microsoft.AspNetCore.Authentication.JwtBearer Install-Package Microsoft.AspNetCore.Authentication.JwtBearer 我们创建一…

【Unity】3D跑酷游戏

展示 finish_all * 方块跑酷 1.教程链接 翻墙:https://www.youtube.com/watch?v9ZEu_I-ido4&listPLPV2KyIb3jR53Jce9hP7G5xC4O9AgnOuL&index3 2.基础制作 最终成果 2.1 基本场景 1.创建Cube作为跑道 1)记得把位置Reset; 2&#…

C#使用mysql-connector-net驱动连接mariadb报错

给树莓派用最新的官方OS重刷了一下,并且用apt install mariadb-server装上“mysql”作为我的测试服务器。然后神奇的事情发生了,之前用得好好的程序突然就报错了,经过排查,发现在连接数据库的Open阶段就报错了。写了个最单纯的Con…

CSDN学院 < 华为战略方法论进阶课 > 正式上线!

目录 你将收获 适用人群 课程内容 内容目录 CSDN学院 作者简介 你将收获 提升职场技能提升战略规划的能力实现多元化发展综合能力进阶 适用人群 主要适合公司中高层、创业者、产品经理、咨询顾问,以及致力于改变现状的学员。 课程内容 本期课程主要介绍华为…

【发展史】鼠标的发展史

最早可以追溯到1952年,皇家加拿大海军将5针保龄球放在能够侦测球面转动的硬件上,这个硬件再将信息转化成光标在屏幕上移动,用作军事计算机输入。这是我们能够追溯到的最早的依靠手部运动进行光标移动的输入设备。但当时这个东西不叫鼠标&…

Ps:套索工具

Ps 的套索工具有三种,主要通过手动绘制的方式创建选区。 套索工具 Lasso Tool 又称“自由套索工具”,可绘制任意形状的选区,灵活快速但不够精确,是仅需粗略选区时(比如,生成式填充等)最常用的工…