generate 和 summary 配合——解析 bingchat 逻辑

news2024/11/25 9:38:55

generate 和 summary 配合——解析 bingchat 逻辑

new bing

微软作为 openai 公司背后的大股东,多年投入一朝开花结果,当然要把 ChatGPT 技术融入到自己的核心产品中,提升整体生产力。微软的第一个措施,就是在必应搜索引擎 bing.com 中,嵌入 ChatGPT。

ChatGPT 一次训练花费甚巨,所以模型一直保留在 2021 年的数据训练结果上。但搜索引擎需要一直爬取最新的网页,提供最新的新闻、博客、文章和知识,所以,微软设计了一套传统 NLP 技术和 ChatGPT 技术融合协作的新一代搜索产品,并称为 New Bing。

New Bing 目前还处于公测阶段,必须排队申请试用。在浏览器地址栏中输入 https://www.bing.com/new 访问官网点击申请加入 waitlist,系统将提示您使用微软账号登录。曾经有微软账号的请尽量试用老账号登录而不是随手点击重新注册一个,这样有助于提升申请试用的排队优先级。过去的 MSN 账户、hotmail 邮箱、Windows 正版电脑等,都属于微软账号体系,可以使用。

申请获批后,再访问 bing.com 时,输入搜索问题,我们就会发现搜索页面和过去有所不同。比如我们搜索"人工智能可以做什么",必应会识别到"人工智能"是个专属名词,在页面右侧直接返回"人工智能"的知识图谱内容:

而我们搜索"日志分析可以做什么",必应找不到对应的知识图谱内容,就会在搜索结果的顶部,普通的网页结果和相关搜素提示之外,还新增 ChatGPT 问答区域。其中 ChatGPT 给出了自然语言式的回答,并列出自己主要参考的资料:

如果网页结果不太满意,想通过 ChatGPT 做进一步交流,可以点击 ChatGPT 区域的 message 对话框开始输入问题,也可以点击顶部菜单栏的 "chat" 或鼠标/触控板滚动下拉,进入全屏 Chat 状态,开始具体聊天过程:

new bing 原理解读

从 new bing 的 chat 页面上,我们可以看到必应团队如何把不同技术融合在一起,设计成新一代搜索产品。整个流程总结如下:

  1. 分词并提取搜索关键字——传统 NLP 技术实现。在上图示例中,我们明确看到必应尝试搜索"日志分析"关键字。
  2. 查询获取若干相关性最高的网页——传统搜索引擎技术实现
  3. 将网页内容,通过预设的 prompt 模板处理,提交给 ChatGPT 作为上下文——New Bing 的创新性设计
  4. 将你的原始问题提交给 ChatGPT——ChatGPT 的核心
  5. 给出回答和引用题注——New Bing 的创新性设计,在上图示例中,我们看到有些句子的末尾,会夹杂着上标 1 的引用计数。点击可以直接打开来源网页。
  6. 根据内容生成若干可选问题,以及是否满意的反馈——一个回答完成,会利用 ChatGPT 的文本生成能力,主动提出几个候选问题。同时附加一个满意不满意的选项,辅助人工反馈的收集,继续提升 ChatGPT 算法效果。

这种流程,在学术上,被称为知识整合提示(knowledge integration prompts),即把新内容和模型内已有旧知识进行整合输入。

既然第 2 步可以获取网页内容,用户也就可以在问答过程中,直接提供额外的 URL 地址,New Bing 识别到 URL 以后,也同样会获取该 URL 的网页内容,提交到 ChatGPT。指定内容,又比搜索引擎自行搜索,要更精准。比如上例中,列出的产品都不太满意,我们可以直接提供自己已知的产品官网,要求进行对比:

在每一步对话中,都可以重复这个过程,某种程度还可以加强 ReAct(Reason Action) 提示框架的效果。即上一次回答中如果给出了还不够明确的结果时,我们可以重复这些结果关键词,让 New Bing 再次 Action(针对性搜索),得到更精确结论。

注意:New Bing 控制一次会话最多只能进行 8 次提问,甚至在第 5 次时,前面的小绿点就开始变黄做警示。你可以点击 message 框左侧的扫帚图标,重新开始会话问答。

new bing 语气偏好设置

刚开始一个新的会话问答时,New Bing 会提示你设置本地会话的语气偏好,可以从平衡改为更有创意的,或是更严谨的。

假设我们设置为更有创意(creative)的偏好,New Bing 就会在你提问范围之外,做更多的响应。比如我们重复上一次的问答过程,看到 creative 下 New Bing 新增了一段内容,而且这段内容没有一处引用题注,是纯 ChatGPT 编写:

相反,设置为更严谨(precise)的偏好,New Bing 就会尽量简洁的回答问题,绝不做多余的扩展。以至于我们重复上一次的问答过程时,看到 precise 下 New Bing 给出的工具推荐到第二个就停下,无法直接应对我们的第三个问题,要重新搜索一次 Elastic Stack 关键字才能继续:

new bing 引用题注的风险

New Bing 引用题注的方式,一方面方便了我们快速查看最新和最直接的来源材料原始内容,一方面也让我们更加确信 ChatGPT 生成回答的准确性。但请注意:后者可能是一种错误信号!

如上图所示,New Bing 会在明显错误被用户明确指出的情况下,回答说自己是根据另一个引用出处总结的,如果两个出处有冲突,请你自行判断。事实上,无论引用出处 1 的龙榆生纪念网站,还是出处 2 的百度百科,实际内容都是正确的,没有 ChatGPT 这种错误用法。

因此,引用题注只是搜索引擎产品层的设计,并不影响 ChatGPT 文本生成算法的实质。请一定牢记这点。

New Bing 在公测过程中已经发挥了一定作用,微软还在逐步将 ChatGPT 技术加入更多的微软产品中,例如 Edge、Skype、Windows 11 操作系统的桌面任务条等等。相信 New Bing 功能的可用范围也会逐步扩大,最终全面可用。

new bing 引入不良搜索结果的风险

New Bing 通过即时查询获取搜索结果,并通过预设 prompt 传递给 ChatGPT 的方式,在有些情况下,可能反而误导 ChatGPT 自身的判断。对一些 ChatGPT 根据零散知识可以正常推断的结论,因为搜索引擎没有答案,New Bing 也无法正常回复。

比如我们想了解在 Linux 命令行中 wc -m 指令统计中文文本的字符数量,和 Word 软件中字数统计的字符数量有什么差别。问 ChatGPT 时,可以得到非常明确的回答:

但询问 New Bing 时,因为搜索引擎搜不到结果,反而导致 New Bing 也无法回答了:

edge dev

微软除了在 bing.com 搜索网站上引入 ChatGPT 以外,在自家另一款明星产品,Edge 浏览器中,也尝试引入 ChatGPT。目前仅限 Edge Dev 开发测试版本可用。

搜索 Edge Dev,或直接在浏览器地址栏中输入 https://www.microsoftedgeinsider.com/en-us/download/dev,打开 Edge Dev 官网,页面首屏正中间的位置就可以点击下载安装包。页面会根据您的电脑配置自动推荐对应操作系统的下载,比如 macOS、Linux(.deb)、Linux(.rpm)、Windows 10/11、Windows 8/8.1、Windows 7、iOS、Android 等。

下载并安装完成后,打开 Edge Dev,右上角会比普通 Edge 版本多一个 ChatGPT 图标,点击打开,网页右侧抽屉拉出,登录你的微软账号,就是 ChatGPT 对话区域了。如果你的 New Bing 试用申请还没通过,则依然无法使用。如果你还没申请使用,也可以在此时直接点击申请:

New Bing 功能登录可用后,可以看到该区域有三个不同选择:

  • 聊天:支持设定响应的语气,包括精确、平衡和有创造力。为了控制使用,Edge Dev 也限定一次会话最多提 6 个问题。达到限制后,点击对话输入框左侧的扫帚图标,开启新一轮会话。
  • 撰写:一个简易的文本编辑器,输入标题,就能根据 edge 预设的语气、格式、长度,生成你想要撰写的内容。
    • 语气:专业、休闲、热情、信息、古怪
    • 格式:段落、电子邮件、博客文章、创意
    • 长度:短、中度、长
  • 见解:相当于藏在抽屉中的 bing.com 热门搜索。可以根据新闻热点开始聊天。

我们这里还是说说聊天功能的特殊设计。Edge Dev 里的 ChatGPT 和网页服务不同,它默认自己拿当前打开的标签页网页内容作为聊天背景材料。因此,你可以免去复制粘贴的手工操作、免去字数超标的担心,直接基于当前页面开聊。

加上 Edge 浏览器一直以来对主流文档格式都有超强的阅读支持,用来读文章,简直犀利无比。

普通文章我们已经见得多了,这次尝试解读一下更专业的学术论文。下面以 2023 年最新发表的一篇智能运维论文 LogPPT 为例,实际上其他论文也完全一样。

我们都知道,写论文、读论文其实一般是有套路的,内容大体都分为:内容摘要、场景问题、创新点、具体方法、评估结果、总结展望。

考虑到 ChatGPT 的输出字数有限,让他一口气全部解读完不太合适。所以,就按这个步骤来问吧:

  1. Don't search the Internet, summarize this article according to what method, what technology is used, and what effect is achieved in this paper?
  2. Don't search the Internet, what are the advantages of their solution compared with the previous ones, and what problems did they solve that the previous methods could not solve?
  3. Don't search the Internet, please describe the main procedure of the method in detail in combination with the content of the Method section. Please use latex to display the key variables.
  4. Don't search the Internet, combined with the Experiments section, please summarize what task and performance the method achieves? Please list specific values according to this section.
  5. Don't search the Internet, please combine the Conclusion section to summarize what problems still exist in this method?

刚好五个问题,不超标。

注意每次提问前都要加上"Don't search the Internet",否则 edge 会和 new bing 一样,同时尝试将提问关键词在互联网进行搜索,把搜索结果也作为背景知识传给 ChatGPT。在只想阅读论文时,我们没必要掺入互联网内容。当然,另一些时候,可能论文中引用的知识描述不详细,可能引用一些外部知识又有助于理解,大家可以按情况自行决定。

如上图所示,ChatGPT 也会明确告知你,这段内容仅来自本页:"The response is from the web page context"。否则,ChatGPT 开头会说:"The response is from both the web page context and the web search results"。

上面这段特殊"咒语",目前 edge dev 只识别英文,甚至连大小写都要保持一致。因此,即使你想用中文交流,也要先加上这句英文:

从上图我们可以看到,甚至连返回通知的数据来源告示,其实也是 edge dev 额外加的,并不是真正的 ChatGPT 响应结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/566509.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

chatgpt赋能Python-python_span_抓取

介绍 随着互联网的不断发展,SEO(搜索引擎优化)已成为所有网站主人必须面对的问题。在SEO中,抓取是一个非常重要的环节,也是一个关键性的步骤,它直接影响到网站的排名。 在Python编程中,有很多…

Mac上安装多个版本的MySQL

文章目录 准备工作先确定自己机器是多少位的下载包 具体步骤1. 先安装低版本的MySQL2. 清理完后,再安装高版本的MySQL3. 将低版本的文件夹移回 /usr/local4. 切换版本5. 验证 扩展清理命令其他信息 准备工作 先确定自己机器是多少位的 uname -a输出X86_64&#xf…

【Error】Python3.7 No module named ‘_sqlite3‘ 解决方案

场景:docker容器运行keybert时出现错误 No module named ‘_sqlite3‘,是容器环境没有sqlite的库,如下图所示: 本机是能够正常导入sqlite3的,虚拟环境conda下也有该库。 python3.8版本的不可用于python3.7中&#xff0…

【LeetCode】169. 多数元素

169. 多数元素(简单) 方法一:sort排序,时间复杂度为O(nlogn) 思路 我自己的写法用了最简单的方法,首先使用 sort() 对数组元素按照从小到大进行排序,然后依次遍历每个元素,如果该元素的出现次…

CompletableFuture 异步编排如何使用?

概述: 在做提交订单功能时,我们需要处理的事务很多,如:修改库存、计算优惠促销信息、会员积分加减、线上支付、金额计算、生成产品订单、生成财务信息、删除购物车等等。如果这些功能全部串行化处理,会发费很长的时间…

【盘点】界面控件DevExpress WPF的几大应用程序主题

DevExpress WPF控件包含了50个应用程序主题和40个调色板,用户可以在发布应用程序是指定主题,或允许最终用户动态修改WPF应用程序的外观和样式,其中主题带有调色板,可以进一步个性化您的UI! PS:DevExpress …

oracle WAITED TOO LONG FOR A ROW CACHE ENQUEUE LOCK问题分析

服务概述 财务系统出现业务卡顿&#xff0c;数据库实例2遇到>>> WAITED TOO LONG FOR A ROW CACHE ENQUEUE LOCK! <<<错误导致业务HANG住。 对此HANG的原因进行分析&#xff1a; 故障发生时&#xff0c;未有主机监控数据&#xff0c;从可以获取的数据库A…

c++ 11标准模板(STL) std::map(三)

定义于头文件<map> template< class Key, class T, class Compare std::less<Key>, class Allocator std::allocator<std::pair<const Key, T> > > class map;(1)namespace pmr { template <class Key, class T, clas…

使用Linkage Mapper工进行物种分布建模的步骤详解(含实际案例分析)

✅创作者:陈书予 🎉个人主页:陈书予的个人主页 🍁陈书予的个人社区,欢迎你的加入: 陈书予的社区 🌟专栏地址: Linkage Mapper解密数字世界链接 文章目录 引言:一、介绍二、数据准备2.1 物种分布数据获取2.2 环境变量数据获取2.3 数据预处理

【拼多多API 开发系列】百亿补贴商品详情接口,代码封装

为了进行电商平台 PDD 的API开发&#xff0c;首先我们需要做下面几件事情。 1&#xff09;开发者注册一个账号 2&#xff09;然后为每个 PDD 应用注册一个应用程序键&#xff08;App Key) 。 3&#xff09;下载 PDD API的SDK并掌握基本的API基础知识和调用 4&#xff09;利用SD…

CSS布局:浮动与绝对定位的异同点

CSS布局&#xff1a;浮动与绝对定位的异同点_cherry_vincent的博客-CSDN博客 浮动 ( float ) 和绝对定位 ( position:absolute ) 相同点&#xff1a; &#xff08;1&#xff09;都是漂起来( 离开原来的位置 ) &#xff08;2&#xff09;并且都不占着原来的位置 &#xff08;3…

Flutter 笔记 | Flutter 布局组件

布局类组件都会包含一个或多个子组件&#xff0c;布局类组件都是直接或间接继承SingleChildRenderObjectWidget 和MultiChildRenderObjectWidget的Widget&#xff0c;它们一般都会有一个child或children属性用于接收子 Widget。 不同的布局类组件对子组件排列&#xff08;layo…

企业级WordPress开发 – 创建企业级网站的优秀提示

目录 “企业级”是什么意思&#xff1f; 使用WordPress创建企业级网站有什么好处&#xff1f; 使用 WordPress 进行企业开发的主要好处 WordPress 可扩展、灵活且价格合理 WordPress 提供响应式 Web 开发 WordPress 提供了巨大的可扩展性 不断更新使 WordPress 万无一…

JAVA-创建PDF文档

目录 一、前期准备 1、中文字体文件 2、maven依赖 二、创建PDF文档方法 三、通过可填充PDF模板将业务参数进行填充 1、 设置可填充的PDF表单 2、代码开干&#xff0c;代码填充可编辑PDF并另存文件 一、前期准备 1、中文字体文件 本演示使用的是iText 7版本&#xff0c…

Jeddak-DPSQL 首次开源!基于差分隐私的 SQL 代理保护能力

动手点关注 干货不迷路 ‍ ‍1. 背景 火山引擎对于用户敏感数据尤为重视&#xff0c;在火山引擎提供的数据分析产品中&#xff0c;广泛采用差分隐私技术对用户敏感信息进行保护。此类数据产品通常构建于 ClickHouse 等数据引擎之上&#xff0c;以 SQL 查询方式来执行计算逻辑&a…

【计算机网络复习】第六章 关系数据理论 1

关系模式的设计 按照一定的原则从数量众多而又相互关联的数据中&#xff0c;构造出一组既能较好地反映现实世界&#xff0c;而又有良好的操作性能的关系模式 ●冗余度高 ●修改困难 ●插入问题 ●删除问题 ★产生问题的原因 属性间约束关系&#xff08;即数据间的依赖关系&…

【JavaSE】Java基础语法(十):构造方法

文章目录 ⛄1. 构造方法的格式和执行时机⛄2. 构造方法的作用⛄3. 构造方法的特点⛄4. 构造方法的注意事项⛄5. 构造方法为什么不能被重写 在面向对象编程的思想中&#xff0c;构造方法&#xff08;Constructor&#xff09;是一个特殊的函数&#xff0c;用于创建和初始化类的对…

“数字”厨电成新宠?“传统”厨电如何凭实力年销破百亿?|厨房电器SMI社媒心智品牌榜

Social Power 核心解读 AI加持&#xff0c;数字厨电新物种持续走红 传统厨电发力社媒&#xff0c;“有范儿”实力吸睛 4月中下旬的“魔都”可谓热闹非凡&#xff0c;上海车展喧嚣未落&#xff0c;隔壁2023AWE&#xff08;中国家电及消费电子博览会&#xff09;的群雄逐鹿紧随…

Electron 小白介绍,你能看懂吗?

目录 前言一、Electron是什么1.官网介绍2.小白介绍 二、Electron开发了哪些应用三、Electron的优势在哪里1.优势2.带给我们什么优势 四、Electron如何学习1.前置知识2.学习建议 五、Electron的乐趣总结 前言 在最近的学习中&#xff0c;我接触了 Electron 这个前端框架&#x…

总结加载Shellcode的各种方式(更新中!)

1.内联汇编加载 使用内联汇编只能加载32位程序的ShellCode&#xff0c;因为64位程序不支持写内联汇编 #pragma comment(linker, "/section:.data,RWE") //将data段的内存设置成可读可写可执行 #include <Windows.h>//ShellCode部分 unsigned char buf[] &qu…