一款面向程序员群体的AI问答产品火了!主打专业、正确率保障,消灭AI回答不可靠的问题

news2024/9/9 5:59:07

一直以来,无论是GPT、Claude还有国内的AI对话产品,都一直被诟病“AI回答不可靠”,尤其是在程序员这类对AI回答的可靠性要求极高的场景(毕竟AI给代码里埋个bug,背锅的还是程序员)。

而且当AI给的代码不可靠的时候,程序员发现跑不通或效果不对的时候,这时候再通过后续的prompt工程、追问等,大概率还是不行,对话次数多了之后AI甚至会发生遗忘,反而浪费了程序员的编程时间。

最近,一款名为AskManyAI的产品注意到了程序员群体的这个痛点,并且成功找到了一个简单、优雅的解决方法——

当单个AI对你提问的问题理解不到位、回答错误的时候,不要做prompt工程,也不要试图纠正它,而是选择直接抛弃它,直接换AI!

没错,AskManyAI的研发团队在日常的使用中做了详细的统计,发现无论是GPT-4还是Claude3.5,对于AI编程类的对准确性要求高的复杂问题上,其日常回答的正确率、可靠性都只能做到70%~80%。

这意味着,你提10个问题,有2、3个问题就得不到正确的回答,浪费程序员的时间。

但AskManyAI研发团队发现,由于各个AI在训练时存在较大的差异,导致他们的能力短板长板各自有所不同,形成了明显的互补效应。这意味着,当一个AI对某个问题回答错误的时候,这个问题很可能另一个AI能回答正确。但具体是哪个AI能回答对,这无法预测。

于是,AskManyAI想到,如果提问的时候一次性同时问GPT-4o、GPT-4、Claude-3.5、Claude-3 Opus的话,是不是回答的正确率能得到直线飙升?

带着这个疑问,AskManyAI研发团队在经过长达一个月的“人肉测试”后,惊喜的发现通过对主流6个AI模型的同时提问,在程序员编程、debug场景的问题满足率/回答正确性上直线飙升了接近20个百分点,错误率从单个AI的20%~30%下降到了不足5%

这就是AskManyAI产品研发的初衷。

笔者果断去尝试了一把,如图所示,笔者出了一道非常复杂的编程需求题目:
要对一个非常复杂的数据结构的mongoDB记录进行一系列非常复杂的操作、变形,最终得到一个三级嵌套的复杂数据结构的json字典。

这个需求,笔者光写就写了500字。

笔者先是将这个问题同时抛给了Claude-3.5、GPT-4o、GPT-4和Claude-3 Opus。然后发现——

笔者忘记在问题中加一个限定条件了,咳咳。。。

(你们别打我

所以我又同时告诉所有的4个AI,我再加一个补充条件。。。

这次,所有的AI根据我的补充条件,写了他们的代码。

我认真审查后发现,果然!!

只有Claude-3.5的回答靠谱!

GPT系列的模型没有正确的理解我的需求,写出的代码不对。而Claude-3 Opus写的虽然对,但是代码很不优雅。

于是我选择了采纳Claude-3.5的回答,然后继续追加需求

果然,Claude-3.5对我的新需求理解也到位,给到了正确的代码。

你们可以通过左边的目录,清晰的看到我的对话过程。

第一次提问,提问给了4个AI——GPT-4o、GPT-4、Claude3.5、Claude3Opus。

第二次提问,补充条件,给了全部4个AI。

第三次,发现只有Claude3.5回答正确,于是采纳它,深入的修改需求、增加新需求等。

至此,我的一个复杂的编程需求完美得到了解决。

若没有AskManyAI,我一定还深陷在调教GPT-4的痛苦中。。。

最后附传送门:

https://askmanyai.chat

一句话总结吧,未来AI产品一定会向着不断细分前进。

而在程序员群体来说,AskManyAI我愿称之为2024年度最惊喜的实用性产品。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1918631.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Androd 12 (MTK)修改屏幕物理分辨率Physical Size

1.需求说明 Android目前显示分辨率为480*800,立项表中像素为720*1280。请修改屏幕分辨率到指定大小。 2.思路分析 如果从手机修改对应的分辨率,必须自上而下的进行修改分为两个层面进行修改。 1.驱动底层 2.软件上层 3.结局方法与相关说明 查看当…

Vue打包文件dist放在SpringBoot项目下运行(正确实现全过程)(下)

在上一篇中,实现了Vue打包文件dist放在SpringBoot项目下运行。 Vue打包文件dist放在SpringBoot项目下运行(正确实现全过程)(上) 问题 路由刷新会产生404的问题。 原因 vue开发的应用,采用的是SPA单页…

c语言的简易教法—— 函数递归

文章目录 一、什么是递归?1.1递归的思想1.2递归的限制条件 二、递归案例2.1 案例1:求n的阶层2.1.1分析2.1.2 递归函数(Fact)的代码实现2.1.3 测试:main函数实现2.1.4 运行结果和画图推演2.1.5 扩展:迭代方法…

纹波电流与ESR:解析电容器重要参数与应用挑战

电解电容纹波电流与ESR(Equivalent Series Resistance)是电容器的重要参数,用来描述电容器对交流信号的响应能力和能量损耗。电解电容纹波电流是指电容器在工作时承受的交流信号电流,而ESR则是电容器内部等效电阻,影响…

2024年PMP报考需要什么条件?怎么报名?

PMP报名条件要求不高,只要满足下面两个条件: 1、35个PDU (需要有 PMI 授权的机构颁发) 2、项目经验 学士学位需要 4500 个小时的项目管理经验,3年工作经验; 非学士学位需要 7500 个小时的 项目管理经验&…

机器视觉:(1) 初识Roboflow(使用详解一)获取数据集(最新)

一:访问地址 [1] Roboflow官网:官网地址 [2]YOLOv8 项目地址github源码地址 [3]YOLOv8 官方教程官网教程地址 二:获取数据集步骤 1.访问官网地址:进入首页面,点击登录 2.注册过程省略了,按步骤走就可以…

Qt:18.状态栏(状态栏介绍、代码方式创建状态栏、在状态栏显示临时信息、在状态栏创建控件)

目录 1.状态栏介绍: 2.代码方式创建状态栏: 3. 在状态栏显示临时信息: 4.在状态栏创建控件: 1.状态栏介绍: Qt 状态栏是 QMainWindow 窗口的一部分,通常用于显示临时信息,如应用程序的状态、…

myeclipse开发ssm框架项目图书管理系统 mysql数据库web计算机毕业设计项目

摘 要 随着计算机的广泛应用,其逐步成为现代化的标志。图书馆的信息量也会越来越大,因此需要对图书信息、借书信息、还书信息等进行管理,及时了解各个环节中信息的变更,要对因此而产生的单据进行及时的处理,为了提高高…

【YashanDB知识库】YashanDB 开机自启

【问题分类】 YashanDB 开机自启 【关键字】 开机自启,依赖包 【问题描述】 数据库所在服务器重启后只拉起monit、yasom、yasom进程,缺少yasdb进程: 【问题原因分析】 数据库安装的时候未启动守护进程 【解决 / 规避方法】 进入数据库之前…

分别通过LS和RML进行模型参数辨识matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 4.1 最小二乘法(LS)参数辨识 4.2 递归最大似然估计(RML)参数辨识 5.完整程序 1.程序功能描述 分别通过LS和RML进行模型参数辨识matlab仿真,仿真输出参数辨识的误差&#xff0c…

【Linux】Linux背景历史

Linux背景历史 Linux背景Linux是什么?计算机的发展unix发展史Linux发展史开源Linux官网以及版本更替Linux企业应用现状 Linux环境的安装 Linux背景 Linux是什么? Linux(Linux Is Not UniX),一般指GNU/Linux,是一种免费使用和自由…

边缘计算网关:一种高效安全的工业物联网解决方案-天拓四方

在工业物联网(IIoT)领域,数据处理和实时响应的需求日益增长,尤其是在智能制造、远程监控和预测性维护等场景中。边缘计算网关作为一种前端数据处理和决策设备,正逐渐成为满足这些需求的理想解决方案。 在一个大型制造…

前端JS特效第30波:jquery图片列表按顺序分类排列图片组效果

jquery图片列表按顺序分类排列图片组效果&#xff0c;先来看看效果&#xff1a; 部分核心的代码如下&#xff1a; <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> &…

智慧景区综合解决方案PPT(53页)

智慧景区综合解决方案摘要 建设背景 智慧景区综合解决方案在文旅融合、政策支撑和行业背景三大背景下提出。文旅融合强调文化和旅游的结合&#xff0c;政策支撑如《“十三五”全国旅游信息化规划》和《江苏省文化和旅游厅2019年工作要点》为智慧旅游提供指导&#xff0c;行业背…

C++相关概念和易错语法(18)(array、模板)

1.array &#xff08;1&#xff09;普通数组的劣势 当我们直接越界修改值时&#xff0c;一般会在编译时就被拦截 但是越界访问&#xff0c;只要访问距离不算特别大&#xff0c;那么也可以越界访问 当我们不直接越界修改或访问&#xff0c;间接去访问和修改能越界非常远 这里的…

AWS认证考试流程:从准备到通过

AWS认证是IT行业中备受推崇的专业资格认证之一&#xff0c;它不仅可以验证您的AWS技能&#xff0c;还能提升您的职业竞争力。本文将为您详细介绍AWS认证考试的完整流程&#xff0c;从初步准备到最终通过认证。 选择适合的认证级别 AWS提供多个级别的认证&#xff0c;包括&…

Java中的LinkedList(链表)(如果想知道Java中有关LinkedList的知识点,那么只看这一篇就足够了!)

前言&#xff1a;在Java编程语言中&#xff0c;Java集合框架提供了一组丰富的数据结构&#xff0c;以满足各种应用需求。其中&#xff0c;LinkedList作为一种常用的数据结构&#xff0c;具有独特的优势和广泛的应用场景。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨✨想要了解更多内…

MesooRF:经典蓝牙模块与低功耗蓝牙模块如何区分?

从蓝牙4.0开始&#xff0c;有两种蓝牙芯片模块&#xff1a;经典蓝牙模块(BT)和低能耗(BLE)蓝牙模块。 经典蓝牙是在之前的蓝牙1.0&#xff0c;1.2&#xff0c;EDR 2.0&#xff0c;EDR 2.1&#xff0c;EDR 3.0的基础上发展完善的&#xff0c;而低功耗蓝牙是在Nokia的Wibree标准上…

客户关系管理怎么做?这4个工具一定要会用!

在商海浮沉中&#xff0c;每一位企业家和销售经理都深知&#xff0c;客户是企业生存与发展的基石。但如何有效管理这些宝贵的资源&#xff0c;让每一次互动都成为加深关系、促进成交的契机&#xff0c;却是一门艺术加科学的结合体。今天&#xff0c;咱们就来聊聊客户关系管理&a…

79. UE5 RPG 创建技能冷却和消耗

在这一篇里面&#xff0c;我们接着优化技能&#xff0c;现在角色添加的主动技能能够同步到ui上面。我们在这一篇文章里面&#xff0c;完善技能的消耗&#xff08;释放技能减少蓝量&#xff09;和冷却机制。 我们可以看到&#xff0c;在技能类默认值这里&#xff0c;可以设置它的…