实用版ChatBing论文阅读助手教程+新测评

news2024/11/15 19:45:30

实用版ChatBing论文阅读助手新测评

AI进化(更新)的速度太快了!距离我上次的【Chat嘴硬!基于NewBing的论文调研评测报告】,才四天,它已经进化到快能用的地步了!

这次是我刷B站看到热门推荐,有一个up主,分享了一个教程:新版Bing——科研人的终极解决方案

他介绍了新版的edge dev版本浏览器,可以分栏阅读你的pdf文件。

他视频做了演示,我这篇帖子,做一个详细的教程,以及测评,把上次网页版的Chat嘴硬的问题拿过来再问一次。

另外,我要检测一下,它到底是读取了pdf网页的全文内容,还是只读取了标题,然后去网络上搜索,重新生成。

教程:

  1. newbing排队,点击www.bing.com/new,加入waitlist,把它推荐的那两个优先操作做了,否则时间再长都不行!
  2. 如果你已经排上队了,会给发一个邮件提醒你。听说最近排队周期变长了,之前是四天左右。
  3. 下载dev版本的edge浏览器!网址是:https://www.microsoftedgeinsider.com/zh-cn/download?ch
  4. 安装后,登录你排上队的邮箱

可以网页版本聊天,但这次我们测试的是侧边栏的功能。
5. 用Edge dev浏览器打开本地PDF格式的论文,会看到右上角有一个bing的案件,点开,会看到下面的图片:在这里插入图片描述

  1. 接下来就可以让chatbing来帮你总结文章了。

重现测评:

  1. 根据这篇文章的内容,帮我回答下面的问题:Q1论文试图解决什么问题?Q2这是否是一个新的问题?Q3这篇文章要验证一个什么科学假设?Q4有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?Q5论文中提到的解决方案之关键是什么?
  2. 根据这篇文章的内容,再帮我总结一下下面的问题:Q6论文中的实验是如何设计的?Q7用于定量评估的数据集是什么?代码有没有开源?Q8论文中的实验及结果有没有很好地支持需要验证的科学假设?Q9这篇论文到底有什么贡献?Q10下一步呢?有什么工作可以继续深入?

这两段文字输入进去,它并不能回答:
在这里插入图片描述
我将问题翻译成英文就可以了。

在这里插入图片描述

然后出现了诡异的问答场景:
在这里插入图片描述

我怀疑这次版本更新对中文数据的处理大大削弱了。

下面的提问,我换了一种prompt方式:

用中文回答下面几个问题:“Q5论文中提到的解决方案之关键是什么? Q6论文中的实验是如何设计的?
Q7用于定量评估的数据集是什么?代码有没有开源? Q8论文中的实验及结果有没有很好地支持需要验证的科学假设? Q9这篇论文到底有什么贡献?
Q10下一步呢?有什么工作可以继续深入?”

这次可以正常的回复了:

根据网页和搜索结果,我尝试用中文回答下面几个问题:

Q5论文中提到的解决方案之关键是什么?
A5论文中提到的解决方案之关键是情景自我模仿学习(ESIL),它是一种新颖的自我模仿算法,它结合了轨迹选择模块和自适应损失函数,可以加速强化学习。与原始的自我模仿学习算法不同,它利用了整个情景(无论成功与否)并根据**事后经验重放(HER)**将它们转化为“专家”轨迹。–没什么问题

Q6论文中的实验是如何设计的? A6论文中的实验是基于OpenAI
Fetch环境中的四个机器人操纵任务设计的。这些任务都是目标条件的,并且只提供稀疏奖励。论文将ESIL与PPO结合,并与其他几种基线算法进行比较,包括PPO、SIL+PPO、HER+DDPG、GAIL等。论文还测试了不同的轨迹选择方法对ESIL性能的影响。–没什么问题

Q7用于定量评估的数据集是什么?代码有没有开源? A7用于定量评估的数据集就是OpenAI
Fetch环境中提供的四个任务:FetchReach-v1、FetchPush-v1、FetchSlide-v1和FetchPickAndPlace-v1。这些任务都有一个目标位置和一个抓取物体,机器人需要通过移动物体来达到目标位置。论文在第五节给出了详细的实验设置和评估指标。代码已经开源在这里:https://github.com/TianhongDai/esil-hindsight. --除了Reach任务没有抓取物体之外,其他的比较正常,尤其是链接。

Q8论文中的实验及结果有没有很好地支持需要验证的科学假设?
A8论文中的实验及结果有很好地支持需要验证的科学假设。科学假设是ESIL可以解决连续控制问题,并且在稀疏奖励环境下优于其他算法。从图3和表2可以看出,ESIL在所有四个任务上都达到了最高或接近最高的成功率,并且收敛速度也很快。此外,从图4可以看出,轨迹选择模块对ESIL性能有显著影响,而自适应损失函数也有一定作用。---------其他的没什么问题,我特意去看了图4,轨迹选择模块确实重要。但是图4只是展示了自适应损失函数的变化趋势,没有讨论作用,所以这段表述有待商榷。

Q9这篇论文到底有什么贡献? A9这篇论文主要有以下三个贡献:

提出了一种新颖的情景自我模仿学习(ESIL)算法,它可以利用整个情景进行事后经验重放,并结合轨迹选择模块和自适应损失函数加速强化学习。
实证地回答了[20]提出的一个开放问题:是否可以将SIL应用于连续控制问题,并且在稀疏奖励环境下有效。-----introduction里面的内容,属于重新表述
在四个复杂度不同但具有挑战性和代表性的机器人操纵任务上取得了最佳或接近最佳性能。
Q10下一步呢?有什么工作可以继续深入?
A10根据第六节给出

A10后面没有输出了,这段回答比较长,断掉了。

这段表述还是比较理想的,我把上次的问题重新再问一下:
在这里插入图片描述
这次回答正常了,但偶尔还会出现它把你的中文,翻译成英文的情况,非常诡异。

再次分析这段回答的正确性:

Q1: 论文试图解决的问题是如何用自我模仿学习(SIL)来加速强化学习(RL),并解决连续控制任务中稀疏奖励的挑战。
没问题,但信息量低
Q2: 这不是一个全新的问题,但是现有的自我模仿学习算法在处理连续控制环境和稀疏奖励时表现不佳,因此论文提出了一种新的自我模仿学习算法:情节自我模仿学习(ESIL)。
没问题,但信息量低
Q3:
这篇文章要验证的科学假设是情节自我模仿学习可以利用整个情节中的后见之明(HER)来改进自我模仿学习,并通过引入一个轨迹选择模块来过滤不相关或不良的样本,从而提高在目标导向、稀疏奖励和连续控制任务中的性能。
没问题,信息量稍微高点。

再测试一下论文细节:
在这里插入图片描述

直接提问,会报错,因为新版本,连续对话能力也被削弱了~~~

在这里插入图片描述
看来有点问题,没有结合文章内容回答,我继续尝试用英文直接提问:

在这里插入图片描述

看来也有问题,不知道是不是我提问的方式不对。

探讨是根据pdf内容,还是重新进行网页搜索:

实验设置,我将这个pdf只保留第一页,其他的用别的文章的内容替换掉,我想看看,它会按照谁的来。
第一页是上面那篇文章,第二页到之后都是DHER算法:
在这里插入图片描述

我尝试了几次,获得了下面的截图:
在这里插入图片描述

有点诡异,所以它是有读取PDF的功能,但是提问会经常出问题,也许是用多了,现在直接不给我回复了~~~

放弃测评~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/355245.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

美团 PK 抖音,内容与商业化之间的较量谁能赢?

□ 最近事件:根据Tech星球报道,近期美团升级短视频、直播等内容建设;并且宣称调整战略,发力短视频和直播 1、美团外卖APP商家信息流中,会出现约30秒的短视频内容,视频偏向于种草,主要是向消费者…

明美新能在创业板IPO过会:计划募资4.5亿元,2022年营收约39亿元

2月17日,深圳证券交易所披露的信息显示,广州明美新能源股份有限公司(下称“明美新能”)获得上市委会议审议通过。本次冲刺上市,明美新能计划募资4.50亿元,德邦证券为其保荐机构。 据介绍,明美新…

响应式编程(Reactive Programming)介绍

什么是响应式编程? 在互联网上有着一大堆糟糕的解释与定义。Wikipedia 一如既往的空泛与理论化。Stackoverflow 的权威答案明显不适合初学者。Reactive Manifesto 看起来是你展示给你公司的项目经理或者老板们看的东西。微软的 Rx terminology"Rx Observables LINQ S…

WebGPU学习(1)---在WebGPU上绘制三角形

在本文中,我们将使用 WebGPU 绘制一个简单的三角形。示例地址 初始化 WebGPU WebGPU 初始化的流程比 WebGL 要更复杂。 在 WebGL 中,我们只需从 Canvas 元素获取 WebGL 渲染上下文,如 getContext(“webgl” 或者 “webgl2”)。 const gl …

浙江工业大学关于2023年MBA考试初试成绩查询及复试阶段说明

根据往年的情况,2023浙江工业大学MBA考试初试成绩可能将于2月21日公布,为了广大考生可以及时查询到自己的分数,杭州达立易考教育为大家汇总了信息。 1、初试成绩查询:考生可登录中国研究生招生信息网“全国硕士研究生招生考…

Redis学习【9】之Redis RDB持久化

文章目录一 AOF(Append Only File) 持久化二 AOF 基础配置2.1 AOF的开启2.2 文件名配置2.3 混合式持久化开启2.4 AOF 文件目录配置三 AOF 文件格式3.1 Redis 协议3.2 查看 AOF 文件3.3 清单文件3.4 Rewrite 机制3.4.1 rewrite简介3.4.2 rewrite 计算策略3.4.3 手动开启 rewrite…

极客时间左耳听风-高效学习

左耳听风——高效学习篇 P95 | 高效学习:端正学习态度 本人真实⬇️⬇️⬇️⬇️ “ 大部分人都认为自己爱学习,但是: 他们都是只有意识没有行动,他们是动力不足的人。 他们都不知道自己该学什么,他们缺乏方向和目标。…

基于RK3588的嵌入式linux系统开发(四)——uboot镜像下载(基于RKDevTool工具)

官方提供的SDK中包含RKDevTool工具(RKDevTool_Release_v2.92)和相应的驱动(DriverAssitant_v5.1.1)。本节主要介绍在windows操作系统环境下利用RKDevTool下载以上生成的uboot镜像和bootloader镜像。注意:本节使用的板卡…

什么是Type-c口?Type-c口有什么优势?

什么是Type-C接口 Type-C接口有哪些好处坏处 说起“Type-C”,相信大家都不会陌生,因为最近拿它大做文章的厂商着实不少,但要具体说清楚Type-C是什么,估计不少人只能说出“可以正反插”“USB的一种”之类的大概。其实,T…

JavaEE|网络编程基础与Socket套接字

文章目录一、为什么需要网络编程二、什么是网络编程三、网络编程中的基本概念1.发送端和接收端2.请求和响应3.客户端和服务端4.常见的客户端服务端模型四、Socket套接字概念及分类1.概念2.分类1)流套接字:使用传输层TCP协议2)数据报套接字&am…

LeetCode 430. 扁平化多级双向链表

原题链接 难度:middle\color{orange}{middle}middle 题目描述 你会得到一个双链表,其中包含的节点有一个下一个指针、一个前一个指针和一个额外的 子指针 。这个子指针可能指向一个单独的双向链表,也包含这些特殊的节点。这些子列表可以有一…

2023年前端面试知识点总结(JavaScript篇)

近期整理了一下高频的前端面试题,分享给大家一起来学习。如有问题,欢迎指正! 1. JavaScript有哪些数据类型 总共有8种数据类型,分别是Undefined、Null、Boolean、Number、String、Object、Symbol、BigInt Null 代表的含义是空对象…

蓝图通讯之事件分发器用法

在事件分发器点 加号添加一个分发器 image.png在蓝图开始运行就进行绑定这个事件, image.png他会创建一个以分发器开头_事件的东西. 而绑定类似,只是没有创建和连接 image.pngimage.png然后 我们设置一个键触发这个逻辑. image.png最后验证多次输入多次触发,类似编程中的事件订…

【博客626】不同类型的ARP报文作用以及ARP老化机制

不同类型的ARP报文作用以及ARP老化机制 1、ARP协议及报文 2、不同类型的ARP报文作用 3、ARP工作原理 4、ARP老化机制 5、Linux ARP老化机制 ARP状态机: 在上图中,我们看到只有arp缓存项的reachable状态对于外发包是可用的,对于stale状态的…

excel应用技巧:F功能键诸多应用汇总

F1~F12,个个都是Excel操作的好帮手。单单一个F4键就有多种用法,其中第4种等间距复制图形,真的很神奇呀。利用快捷键可以代替鼠标做一些工作,也可以实实在在提高我们日常的工作效率,今天就先来跟大家一起分享…

数据结构与算法—队列

队列 队列介绍 有序列表,可以用数组或者链表实现。遵循先进先出原则。 数组实现队列 public class ArrayQueue {public static void main(String[] args) {ArrayQueue queue new ArrayQueue(3);// 接收用户输入char key ;Scanner sc new Scanner(System.in);…

PyQt5 自定义富文本编辑器

介绍 一款使用PyQt5和网页端框架wangEditor集成的富文本编辑器 代码片段 PyQt5客户端 与网页端建立连接def create_connect(self):self.web_view QWebEngineView()self.bridge JSBridge(self.web_view.page())self.web_view.load(QUrl.fromLocalFile(self.editor_path))w…

现代卷积神经网络经典架构图

卷积神经网络(LeNet) LeNet 的简化版深层卷积神经网络(AlexNet) 从LeNet(左)到AlexNet(右)改进: dropOut层 - 不改变期望但是改变方差ReLU层 - 减缓梯度消失MaxPooling数…

2.18 设置language和中文输入法

文章目录一:设置language二:设置中文输入法一:设置language nvidia的开发板上默认只有English,需要点击如下管理: 接着进入如下界面: 此时图中的“汉语(中国)”应该是没有的&…

Kubernetes是个什么东东?

Kubernetes 是一个可移植、可扩展的开源平台,用于管理容器化的工作负载和服务,可促进声明式配置和自动化。 Kubernetes 拥有一个庞大且快速增长的生态,其服务、支持和工具的使用范围相当广泛。 Kubernetes 这个名字源于希腊语,意…