GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

news2024/12/24 8:32:56

目录

1 CriticGPT

01 综合性(Comprehensiveness):

02 幻觉问题(Hallucinates a problem):

2 其他 CriticGPT 案例


随着人工智能(AI)技术不断进步,AI在编程领域的应用取得了显著的成果。

通过使用自然语言处理(NLP)和机器学习(ML)技术,AI可以自动生成代码、检测错误并优化性能。

一个例子是OpenAI的Codex模型,它可以根据自然语言描述生成相应的代码片段,极大地提高了编程效率。



没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

CriticGPT

最近,OpenAI发布了一个名为CriticGPT的新模型,它是基于GPT-4训练的。CriticGPT专门用于审查由ChatGPT编写的代码,并捕捉其中的错误。

来看一下官网提供的例子,用户提交的需求是:

编写一个 Python 函数,该函数接受一个表示文件路径的字符串,并返回该文件的文件对象。禁止访问目录 "/safedir" 之外的文件。

GPT 给出了如下代码。

CriticGPT 提出了改进建议:

检查文件绝对路径是否在目录内时,使用 startswith() 存在安全风险。这是因为用户可以通过使用符号链接或类似命名的目录来利用漏洞。
 

为了增加安全性,建议使用 os.path.commonpath([absolute_file_path, absolute_safe_dir]) 或其他更健壮的路径包含方法来进行检查。

CriticGPT 能够帮助人类训练者在基于人类反馈的强化学习(RLHF)期间发现错误,并且使用 CriticGPT 的帮助,人类训练师在审查效果上比没有获得帮助的人强 60%。

下图展示了三种不同方法在编写批评性评论(critiques)时的表现比较:

  • Human(人类)
     
  • CriticGPT
     
  • Human + CriticGPT(人类 + CriticGPT)

01 综合性(Comprehensiveness):

用百分比表示批评意见的全面性。图表显示,与单独工作相比,当人类训练师使用 CriticGPT 时,他们提供了更全面的批评意见。

02 幻觉问题(Hallucinates a problem):

表示错误地识别问题的百分比,这个指标越低越好。图表显示,人类训练师在使用 CriticGPT 时,产生的幻觉错误比模型单独工作时更少。

OpenAI 正计划将类似 CriticGPT 的模型集成到其 RLHF 标记管道中,以提供更明确的 AI 帮助。

然而,目前 CriticGPT 还存在一些限制,例如它主要是通过 ChatGPT 进行短答案训练的,未来需要开发能够帮助理解冗长且复杂任务的方法。

此外,CriticGPT 偶尔会产生幻觉,导致训练师标记错误,而且在现实世界中的错误可能分散在答案的多个部分中,需要模型指出这些分散的错误。

对于极为复杂的任务或回应,即使是受到模型辅助的专家也可能无法正确评估。

2 其他 CriticGPT 案例

下图展示了如何编写一个安全的 Python 函数来返回指定路径的文件对象,同时确保文件在指定的安全目录内。

CriticGPT 提出了多项批评与改进建议,包括路径检查方法的安全性、文件打开模式的选择,以及错误处理的安全性。

如下是一段包含加密和解密函数的Python代码示例:

def encrypt(message, key):
    # 加密逻辑
    pass

def decrypt(ciphertext, key):
    # 解密逻辑
    pass

对于这段代码,CriticGPT提供了以下建议:

  • CriticGPT指出了代码中潜在的安全问题和逻辑错误,并强调了在加密和解密过程中验证消息完整性和真实性的重要性。

  • CriticGPT还提到了代码中处理错误的不足,特别是在处理字符串编码和解码时。

图表中指出“至少有一个此类评论来自于CriticGPT是一个幻觉错误”,即说明CriticGPT有时可能提供不准确或不相关的评论。


 如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!官网有更详细介绍:WildCard

推荐阅读:

超越GPT-4o!新王Claude 3.5 Sonnet来啦!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1887649.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

hive中cast()函数

CAST函数用于将某种数据类型的表达式显式转换为另一种数据类型。CAST()函数的参数是一个表达式,它包括用AS关键字分隔的源值和目标数据类型。 语法:CAST (expression AS data_type) expression:任何有效的SQServer表达式。 AS:用…

ATFX汇市:欧元区CPI与失业率数据同时发布,欧元或迎剧烈波动

ATFX汇市:CPI数据是中央银行决策货币政策的主要依据,失业率数据是中央银行判断劳动力市场健康状况的核心指标。欧元区的CPI和失业率数据将在今日17:00同时发布,在欧央行6月6日降息一次的背景下,两项数据将显著影响国际市场对欧央行…

2024 年江西省研究生数学建模竞赛题目 A题交通信号灯管理---完整文章分享(仅供学习)

问题: 交通信号灯是指挥车辆通行的重要标志,由红灯、绿灯、黄灯组成。红灯停、绿灯行,而黄灯则起到警示作用。交通信号灯分为机动车信号灯、非机动车信号灯、人行横道信号 灯、方向指示灯等。一般情况下,十字路口有东西向和南北向…

HR人才测评,如何考察想象力?

什么是想象力? 想象力是指,人们通过在已有物质的基础上,通过大脑想象、加工、创造出新事物的能力,举一个非常简单的例子,在提到鸟这种生活的时候,大家会联想到各种各样不同鸟的品种。 在企业招聘中常常应…

3.1 数据结构-线性表

上午10-12分的选择题,下午15分的大题 大纲 线性结构 顺序存储和链式存储区别 单链表的插入和删除 真题 线性结构 - 栈和队列 真题 串

实现WebSocket聊天室功能

实现WebSocket聊天室功能 什么是WebSocket?WebSocket的工作原理服务器端实现客户端实现 在现代Web开发中,实时通信已经变得越来越重要。传统的HTTP协议由于其无状态和单向通信的特点,无法很好地满足实时通信的需求。而WebSocket协议则应运而生…

【java计算机毕设】仓库管理系统 MySQL springboot vue3 Maven 项目源码代码

目录 1项目功能 2项目介绍 3项目地址 1项目功能 【java计算机毕设】仓库管理系统MySQL springboot vue3 Maven小组项目设计源代码 2项目介绍 系统功能: vue3仓库管理系统,主要功能包含:个人信息管理,仓库管理,员工…

【你也能从零基础学会网站开发】理解DBMS数据库管理系统架构,从用户到数据到底经历了什么

🚀 个人主页 极客小俊 ✍🏻 作者简介:程序猿、设计师、技术分享 🐋 希望大家多多支持, 我们一起学习和进步! 🏅 欢迎评论 ❤️点赞💬评论 📂收藏 📂加关注 其实前面我们也…

300关卡成语释义典故题库ACCESS\EXCEL数据库

成语典故指关于成语产生、形成、流传的故事传说。成语有很大一部分是从古代相承沿用下来的,它既代表了一个故事典故,又是一种现成的话,很多又有比喻引申意义而被广泛引用。 今天又获得了一个成语游戏的数据,即根据成语典故或者释…

CID引流电商:助力传统电商突破重围实现持续增长

摘要:面临流量成本攀升和市场份额被挤压的挑战,传统电商急需突破重围。CID引流电商通过跨平台引流和精准定位,助力商家实现持续增长,丰富营销手段,创新商业模式。CID引流电商为传统电商的长远发展注入新动力。 在电商…

TFD那智机器人仿真离线程序文本转换为现场机器人程序

TFD式样那智机器人离线程序通过Process Simulation、DELMIA等仿真软件为载体给机器人出离线,下载下来的文本程序,现场机器人一般是无法导入及识别出来的。那么就需要TFD on Desk TFD控制器来进行转换,才能导入现场机器人读取程序。 导入的文…

Lesson 45 The boss‘s letter

Lesson 45 The boss’s letter 词汇 can 能够 n. 罐,听 用法:1. 情态动词:can 动词原形    例句:我能跑。       I can run.    2. a can of … 一罐……    例句:我要一罐可乐。       I wan…

全平台7合一自定义小程序源码系统功能强大 前后端分离 带完整的安装代码包以及搭建教程

系统概述 这款全平台 7 合一自定义小程序源码系统是专为满足各种业务需求而设计的。它整合了多种功能,能够在不同平台上运行,为用户提供了全方位的体验。无论你是企业主、开发者还是创业者,这款系统都能为你提供强大的支持。 代码示例 系统…

手写一个类似@RequestParam的注解(用来接收请求体的参数)

一、本文解决的痛点 按照大众认为的开发规范,一般post类型的请求参数应该传在请求body里面。但是我们有些post接口只需要传入一个字段,我们接受这种参数就得像下面这样单独创建一个类,类中再添加要传入的基本类型字段,配合Reques…

在卷积神经网络(CNN)中为什么可以使用多个较小的卷积核替代一个较大的卷积核,以达到相同的感受野

在卷积神经网络(CNN)中为什么可以使用多个较小的卷积核替代一个较大的卷积核,以达到相同的感受野 flyfish 在卷积神经网络(CNN)中,可以使用多个较小的卷积核替代一个较大的卷积核,以达到相同的…

git命令含有中文,终端输出中文乱码的问题

目录 1、[当前代码页] 的936 (ANSI/OEM - 简体中文 GBK) 是导致中文乱码的原因 2、这样会导致什么问题呢? (1) 问题一: 【属性】选项的【字体】无法识别自定义文字样式,【默认值】选项可选自定义字体样式,却无法覆盖【属性】选项 (2) 问题…

还用老气的Excel做报表?试试这款“免费”可视化工具,快速制作3D智慧社区!

随着科技的飞速发展,智慧社区已经成为现代城市管理的重要组成部分。作为这一领域的核心工具,3D智慧社区可视化大屏凭借其先进的技术和强大的功能,正在逐步改变我们的生活方式。今天给大家分享一个 基于山海鲸可视化开发的3D可视化大屏的案例—…

【Flutter】列表流畅性优化

前言 在日常APP的开发中,列表是使用频率最高的,这里讲述在Flutter中优化列表的滑动速度与流畅度,以来提高用户的体验。 方案 1、使用ListView.builder代替ListView ListView.builder在创建列表的时候要比ListView更高效,因为L…

Python题解Leetcode Hot100之二叉树

1. 二叉树的中序遍历 题目描述 给定一个二叉树,返回它的中序遍历。解题思路 使用递归的方法对左子树进行中序遍历,然后访问根节点,最后对右子树进行中序遍历。也可以使用栈来模拟递归的过程,迭代地进行中序遍历。代码class Solut…

机器人控制系列教程之Delta机器人运动学分析(1)

并联机构运动学 对于并联机构的位置正解、位置逆解和对应于位置解的速度、加速度进行分析是并联机构运动学分析主要内容。与串联机构不同,一般并联机构的位置逆解相对要简单,而位置正解则求解比较复杂些。并联机构的位置正解的求解过程中,大…