ChatGPT 速通手册——不同相似度算法的分值介绍

news2024/11/18 7:43:06

不同相似度算法的分值介绍

在信息大暴涨的今天,人类已经不可能出现通才、全才式的人物。利用 ChatGPT 来询问我们未知领域的知识是很好的习惯和用法。但对严肃知识的学习,一定要通过权威来源复核审校,保证自己所学知识的正确。否则,很有可能牛头不对马嘴,在行家面前贻笑大方。

本节以笔者一次自身经历为例,展示 ChatGPT 在统计学方面的"大愚若智"。希望大家在各种有严格定义、有唯一正确解读的场景下,多想想,多看看,不要过度相信 ChatGPT。

笔者在查阅 Elasticsearch 新功能变更说明时,发现一个名为 significant_terms 的聚合函数,新引入了几种不同的相关性指标供切换选择,但文档里给出的都是首字母缩写。分别是:JLH score、Mutual information、Chi-square、GND。

尽管对 Elasticsearch 有十年使用和维护经验,在 AI 领域也有一些常见认知,这几个缩写里还是有一半不认识。这时候,自然可以问 ChatGPT:

看起来很棒,ChatGPT 知道所有 4 种相关性指标,并给出了通俗简单的原理解释和适用场景。

不过要实际把功能应用在业务中,肯定还得知道这几种指标的更多细节,比如相关度的强弱如何判定?是单调递增的,还是有开闭区间的?我们还得再问问:

ChatGPT 也给出了回答,看起来好像没啥问题。那进一步再明确一点:对于有 0-1 区间的,是否有具体的强相关、弱相关、不相关阈值标准可以方便业务代码使用?

ChatGPT 依然给出了回答,对于 GND 指标,0-0.2 属于强相关,0.2-0.5 属于弱相关,0.5-1 属于不相关。

到此为止,问题似乎已经得到了答案,体验丝滑,结果完美。但是仔细一看,怎么前后两次,ChatGPT 对 GND 的取值含义说明是相反的?第一次说取值为 0 时最相关,第二次说取值为 0 时最不相关?看来我们还是要自己费点功夫,逐一搜索一下这几个相关度指标,注意可能需要用英文名称。结果出人意料,ChatGPT 给出 0-1 取值范围的两次说明,都是错误的!

首先,JLH score 的计算方法是:

(foregroundPercentage / backgroundPercentage)

  • (foregroundPercentage - backgroundPercentage)

其中 foregroundPercentage 表示待检验数据在指定小集合内的百分比,backgroundPercentage 则是其在全体集合内的百分比。所以我们一眼可以看出,只要 backgroundPercentage 的百分比够小,JLH score的取值肯定远远大于 1。ChatGPT 说的取值范围 0-1 是错的!

其次,GND 的维基百科中介绍,其实际取值范围是 0 到正无穷大,且越接近 0,相关度越高,当值为 1 时,已经可以认为很不相关了。但并没有找到任何强弱性的阈值说明。所以,ChatGPT 关于 GND 的取值范围回答是错误的,而关于强弱阈值的建议也是随意编造!

如果不加审核,直接按 ChatGPT 输出进行应用规划,给出的推荐结果,很可能就南辕北辙了,对业务运营影响巨大。可以说正好匹配上 cohere 三原则的第二条。因此,对这种敏感知识,我们还是要多加小心,不要轻信 ChatGPT。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/451685.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【安全学习笔记】信息收集-CDN相关的技术(CDN绕过)

CDN相关的技术(CDN绕过) CDN:内容分发网络,它是构建在现有网络基础之上的智能虚拟网络,依靠部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容…

104. 二叉树的最大深度【75】

难度等级:容易 上一篇算法: 101. 对称二叉树【74】 力扣此题地址: 104. 二叉树的最大深度 - 力扣(Leetcode) 1.题目:104. 二叉树的最大深度 给定一个二叉树,找出其最大深度。 二叉树的深度为根…

【并发编程】Java并发之关键字synchronized使用和原理

文章目录 前言一、synchronized的四种应用方式修饰一个代码块修饰一个方法修饰一个静态的方法修饰一个类 二、synchronized底层语义原理三、理解Java对象头与Monitor四、synchronized代码块底层原理五、synchronized方法底层原理六、Java虚拟机对synchronized的优化偏向锁轻量级…

Finetuner+:为企业实现大模型微调和私有化部署

如 ChatGPT、GPT4 这样的大型语言模型就像是你为公司请的一个牛人顾问,他在 OpenAI、Google 等大公司被预训练了不少的行业内专业知识,所以加入你的公司后,你只需要输入 Prompt 给他, 介绍一些业务上的背景知识,他就能…

清除Github提交历史commit

如果提交代码到Github仓库时,不小心把敏感信息(比如登陆账号和登陆密码)提交了上去,尽快处理。 git log 查看提交记录 git log定位你误操作的那一个版本 ‘be757abcb2b6c2b86b489384aeb4619d9b8c94c7’ 比如这个是你提交版本的…

2023全网汇总PMP备考攻略(附答题技巧)

一,多复习和学习新版考纲 01《PMBOK》看三遍 这边建议看三遍《PMBOK》,更有利于我们巩固知识,查缺补漏。 第一遍 第一遍是老师带着我们去看。这个时候一定要非常专心,千万不要上课走神或者玩手机。因为这一遍老师会告诉我们&a…

FreeRTOS源码获取以及解释各个文件作用

1.源码可以在官网:FreeRTOS官网:https://www.freertos.org/下载 2.FreeRTOS源码内容介绍 名称 描述 FreeRTOS FreeRTOS内核 FreeRTOS-Plus FreeRTOS组件 tools 工具 GitHub-FreeRTOS-Home FreeRTOS的GitHub仓库链接 Quick_Start_Guide 快速入门指南官方…

C/C++ Linux进程操作

目录 一、简介 二、创建进程 1. fork 2. wait 3. exit 三、多进程高并发设计 四、孤儿进程 五、僵尸进程 六、守护进程 七、总结 一、简介 进程是什么? 答:可以简单理解为,一个 .exe 的应用程序,就是运行在进程中的&a…

ChatGPT时代,我们可能站到了自然语言编程的大门口

ChatGPT大火,我现在有种感觉:我们可能站到了自然语言编程的门口,一脚下去,也许能把门踹开。 当然,也可能会踢到一块铁板。 回顾我们的编程之路,基本上就是一个编程门槛不断降低的历史。 最早的一批前辈们…

OSCP-Fail(rsync、fail2ban提权)

目录 扫描 rsync 提权 扫描 rsync 基于nmap,确信将进一步研究rsync。 为此,将使用netcat使用的rsync枚举。 使用netcat,我们可以列出rsync托管的当前共享。 我们看到“fox”和“fox home

万字长文带我弄懂JS基础!!!

js的学习笔记 文章目录 js的学习笔记JS基础篇js 的输出js的基本语法js语句js的注释js的变量js数据类型简介js对象简介js函数简介js的作用域js中的事件js字符串js运算符js条件语句js循环for/in循环 js的break和continuejs之typedefnullundefinedjs类型转换**constructor属性**St…

人类思维VS AI智能:谁是未来的胜者?

在“人工智能(AI)是否会取代人类”的问题上,谷歌的首席执行官埃德拉里博斯(Ed Larrabee)说:“我不认为 AI会取代人类。”而英国首相鲍里斯约翰逊则认为:“我们不能让 AI成为我们的敌人。”现在&…

MySQL解压版安装步骤

百度网盘有安装版、解压包安装包以及visual插件 链接:https://pan.baidu.com/s/1XXvWa40FYX5mtqofW_knIg 提取码:ky2q 下载地址:https://downloads.mysql.com/archives/community/ 解压压缩包,进入bin目录,地址栏输…

从C出发 26 --- 指针 : 一种特殊的变量

指针是变量, 是特殊的变量 在计算机内部逻辑上是一个一个存储单元,每个存储单元是一个字节 8 G /16 G 表示的是存储单元的数量 如果要确定某一个具体的存储单元,要怎么办? 可以编号,这里的 0 1 2 3 指的就是内存地…

如何利用TURF分析来对餐厅菜品进行组合搭配?

1.数据源说明 1.1 数据简单说明 本数据源采用的是某餐厅8月份的销售明细表。本文会主要用到一下字段值: order_id, 产品订单号dishes_name,菜品名称counts, 消费数量amounts,消费金额 1.2 数据截图 以下是数据源的截图 1.3…

【移动端网页布局】移动端网页布局基础概念 ⑤ ( 视网膜屏技术 | 二倍图概念 | 代码示例 )

文章目录 一、视网膜屏技术二、二倍图概念三、代码示例 一、视网膜屏技术 PC 端 和 早期的 移动端 网页中 , CSS 中配置的 1 像素 对应的就是物理屏幕中的 1 像素 ; Retina 视网膜屏幕 技术出现后 , 将多个物理像素压缩到一块屏幕中 , 可以达到更高的分辨率 , 画面显示效果更好…

【Linux】磁盘与文件系统

目录 一、磁盘的物理结构 二、磁盘逻辑抽象 三、文件系统 1、Super Block 2、Group Descriptor Table 3、inode Table 4、Data Blocks 5、inode Bitmap 6、Block Bitmap 四、Linux下文件系统 1、inode与文件名 2、文件的增删查改 2.1、查看文件内容 2.2、删除文件…

Node工程的依赖包管理方式 | 京东云技术团队

作者:京东零售 陈震 在前端工程化中,JavaScript 依赖包管理是非常重要的一环。依赖包通常是项目所依赖的第三方库、工具和框架等资源,它们能够帮助我们减少重复开发、提高效率并且确保项目可以正确的运行。 目前比较常见的前端包管理器有 n…

uniapp打包app,调用相机功能时在真机调试可以,打包成app之后不行

在打包成app之后报如图所示错误: 解决: 在app模块配置勾选上相机这一项,如图: 这是主要针对上面这个报错的,当然还有一下情况比较类似,就是相机功能在真机调试下可以,打包之后就不行了。我总结…

第九章_Redis哨兵(sentinel)

是什么 吹哨人巡查监控后台master主机是否故障,如果故障了根据投票数自动将某一个从库转换为新主库,继续对外服务 作用 哨兵的作用: 1、监控redis运行状态,包括master和slave 2、当master down机,能自动将slave切换成…