【机器学习】机器学习实验方法与原则(评价指标全面解析)

news2024/12/28 20:58:05

评价指标

不同任务 下衡量模型的性能,有 不同的评价指标 ,例如:
回归任务
平均绝对误差( MAE )、均方误差( MSE )、均方根误差( RMSE )等
分类任务
准确率( Accuracy )、精度( Precision )、召回率( Recall )等
特定任务
个性化推荐:前 K 项精度( Precision@K )、前 K 项召回率( Recall@K )、前 K
命中率( Hit@K )等
对话系统: BLEU ROUGE METEOR

1.回归任务(MAE, MSE,RMSE)

预测值 p i 常为连续值,需要衡量与真实值 y i 之间的误差
平均绝对误差( MAE

均方误差( MSE :预测误差较大的样本影响更大

均方根误差( RMSE :与预测值、标签单位相同

2.分类任务 (Accuracy, ER,P,R,F,AUC)

预测值一般为离散的类别,需要判断是否等于真实类别
准确率( Accuracy

错误率( Error Rate

考虑二分类时划分正负的阈值
ROC 曲线
    • 根据预测值对样本排序
    • 以该样本的预测值为阈值
    • 大于或等于阈值记正例,否则记负例
    • 可得到一组结果及评价指标,共有样本数 n 组结果
    • 假正例率( False Positive Rate, FPR )为横轴
    • 真正例率( True Positive Rate, TPR, 即召回率 )为纵轴

随机猜测模型的 ROC 曲线为 (0,0) (1,1) 的对角线
理想模型的 ROC 曲线为 (0,0)-(0,1)-(1,1) ,所有正例预测值大于所有负例预测值
AUC :( Area Under ROC Curve ROC 曲线下的面积,越大越好

 

AUC 的简便计算方法:
把测试样例以预测值从大到小排序,其中有 n1个真实正例,其中n0个真实负例
r i 为第 i 真实负例 的秩(排序位置), S 0 = r i

AUC 可以计算为 :

3.特定任务 

一些特定任务有其特有评价指标
个性化推荐
        • 前K项精度(Precision@K ):模型排序给出的前 K 个推荐中,用户喜欢的项目(正例)的比例
        • 前 K 项召回率( Recall@K ):模型排序给出的前 K 个推荐中,正例数占候选集中所有正例的比例
        • 前 K 项命中率( Hit@K ):模型排序给出的前 K 个推荐中,是否有正例
        • nDCG@K 、点击率、用户留存、利润转化等
对话系统
        • BLEU ROUGE METEOR :基于词、 n-gram 匹配衡量预测句子与目标句子之间的相似度
        • 基于词向量计算预测句子与目标句子之间的相似度
        • 用户与系统对话的时长、次数
        • 人工评价

特定任务(DCG

DCG: Discounted Cumulative Gain
检测一个文档,用 分级的相关性 来衡量有用性 , 或者 增益 (Gain)
        • rel 1 + rel 2 + rel 3 + …
增益从排序列表的开头开始累积,随着 位次增加 ,增益可能会 减弱 (Discounted)
        • rel1 + discounted( rel 2 ) + discounted( rel 3 ) + …
        • 典型的折损函数有 1/ log (rank)
        • 底数为 2 , 位次 4 的折损为 1/2, 位次 8 1/3
        • rel 1 + rel 2 / log 2 2+ rel 3 / log 2 3 + …

DCG 是对一个特定位次 p 累积增益 (Cumulative) :

:

特定任务(DCG)举例 

 • 10 个文档的展示列表,相关性分级0-3:

        3, 2, 3, 0, 0, 1, 2, 2, 3, 0

折扣增益 : ( 1/log 2 i )
        3, 2/1, 3/1.59, 0, 0, 1/2.59, 2/2.81, 2/3, 3/3.17, 0
        = 3, 2, 1.89, 0, 0, 0.39, 0.71, 0.67, 0.95, 0
累积折扣增益 (DCG@ n ):
        3, 5, 6.89, 6.89, 6.89, 7.28, 7.99, 8.66, 9.61, 9.61

特定任务(NDCG 

l 通过与 理想排序 的对应位置的 DCG 进行对比来 归一化
l 对有不同数量相关文档的搜索结果求均值时更科学简洁
l 在任何位置都有 NDCG ≤ 1
l 考虑了 分级相关性 位置 信息
l 搜索引擎等与排序相关的应用中相当常用的评价指标之一

特定任务(BLEU 

l BLEU: bilingual evaluation understudy 双语替代评价
l 最早多用于机器翻译,后来也被其他任务借鉴(如对话生成等)
l 检测译文中的每个 n-gram 是否在参考译文中出现
l Precision 没有考虑词出现的次数限制 ,结果偏高
l 某个词在译文中的有效频次不应超过参考译文中的频次

 

l 精度 log 可能出现为 0 的情况 ,   BLEU=0
l 也可对精度做平滑
l Google 的参考实现(扩展:多个句子的翻译、多个参考译文)
https://github.com/tensorflow/nmt/blob/master/nmt/scripts/bleu.py

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1535777.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

QT学习之设置QLineEdit背景透明且无边框

设置styleSheet:background:transparent;border-width:0;border-style:outset;

挑战迎刃而解!化工行业CRM案例揭示企业扩张成功之道!

化工行业一直面临着激烈的行业竞争,新时代化工企业如何面对扩张挑战,是许多企业管理者深思的问题,Zoho CRM客户管理系统为化工行业的用户提供了优秀的解决方案。一起来看看Zoho CRM的实力如何吧~ 一、客户背景 Zoho CRM的这家化工行业客户&a…

绝地求生:哪把枪的机瞄让你觉得最舒服或者最“抽象”呢?

大,好,我,闲游盒! 这题我会,我先来! 今天本来在训练场玩呢,突然想到了Famas这把枪的机瞄我真的是驾驭不来.... 我灵机一动,想问问大家平时如果落地没捡到镜又碰到敌人的情况下&…

【创建进程】fork函数与写时拷贝

文章目录 fork函数fork如何返回两个值&#xff08;fork的工作原理&#xff09;如何解释父子进程相互输出printf 写时拷贝 fork函数 #include <unistd.h> pid_t fork(void); 返回值&#xff1a;自进程中返回0&#xff0c;父进程返回子进程id&#xff0c;出错返回-1 fork函…

网络编程:学生管理系统

一、实现功能 1.添加学生信息 2.删除学生信息 3.修改学生信息 4.查找学生信息 二、添加 int do_add(sqlite3 *ppDb) {// 准备sql语句int add_num 0;char add_name[20] "";double add_score 0;// 提示并输入数据printf("请输入学号:");scanf("%d&q…

芯片公司SAP管理架构:科技与管理的完美融合

在当今日新月异的科技时代&#xff0c;芯片公司作为信息技术领域的核心力量&#xff0c;其运营管理的复杂性日益凸显。SAP管理架构作为一种高效的企业资源规划系统&#xff0c;为芯片公司提供了强大的管理支持。本文将为您科普芯片公司SAP管理架构的相关知识。 SAP管理架构是一…

使用倒模耳机壳UV树脂胶液制作舞台监听耳返入耳式耳机壳有哪些优点?

使用倒模耳机壳UV树脂胶液制作舞台监听耳返入耳式耳机壳有很多优点&#xff0c;具体如下&#xff1a; 高音质表现&#xff1a;通过倒模工艺制作的耳机壳能够更好地贴合耳朵&#xff0c;减少声音散射和反射&#xff0c;提高声音的清晰度和质感。这对于舞台监听来说非常重要&…

USB调试工具大全-USB中文网

USB中文网在此之前开发了很多的应用层USB设备调试工具&#xff0c;再加上收集的一些其它相关工具&#xff0c;并将这些调试工具分享给各位USB开发者爱好者&#xff0c;帮助大家更快的学习和了解USB相关的知识。 不过酒香也怕巷子深&#xff0c;今天我们就将这些调试工具的导航…

带你学会深度学习之卷积神经网络[CNN] - 5

前言 本文不讲述如泛化&#xff0c;前向后向传播&#xff0c;过拟合等基础概念。 本文图片来源于网络&#xff0c;图片所有者可以随时联系笔者删除。 本文提供代码不代表该神经网络的全部实现&#xff0c;只是为了方便展示此模型的关键结构。 CNN&#xff0c;常用于计算机视…

Leetcode 200. 岛屿数量

心路历程&#xff1a; 在没有看图论这一章之前看这道题没什么直接的思路&#xff0c;在看完图论之后&#xff0c;学着使用DFS和BFS去套用解决。第一次自己做的时候还是遇到了很多小问题。整体思路很流畅&#xff0c;但是需要处理的细节第一次没怎么处理好&#xff0c;花了很多…

如何使用Android平板公网访问本地Linux code-server

文章目录 1.ubuntu本地安装code-server2. 安装cpolar内网穿透3. 创建隧道映射本地端口4. 安卓平板测试访问5.固定域名公网地址6.结语 1.ubuntu本地安装code-server 准备一台虚拟机,Ubuntu或者centos都可以&#xff0c;这里以VMwhere ubuntu系统为例 下载code server服务,浏览器…

OR-806A固态继电器光耦

固态继电器 VL60V输出端击穿电压光耦 高隔离电压 60 至 600V 输出耐受电压 工业温度范围&#xff1a;-40 to 85℃ 高灵敏度和高速响应、 特征 输入和输出之间的高隔离电压 &#xff08;Viso&#xff1a;5000 V rms&#xff09;。 控制低电平模拟信号 高灵敏度和高速响应…

含“AI”量上涨,智能模组SC208系列助力智慧零售全场景高质发展

AI正重塑智慧零售产业&#xff0c;加速零售在采购、生产、供应链、销售、服务等方面改善运营效率和用户体验。零售行业经历了从线下到线上再到全渠道融合发展过程&#xff0c;“提质、降本、增效、高体验”是亘古不变的商业化与智能化方向。含“AI”量逐渐上涨的智慧零售正经历…

Linux:Gitlab:16.9.2 (rpm包) 部署及基础操作(1)

1.基础环境 我只准备了一台gitlab服务器&#xff0c;访问就用真机进行访问&#xff0c;接下来介绍一下详细配置 centos7 内网ip:192.168.6.7 外网ip:172.20.10.4 运行内存&#xff1a;4G CPU:4核 先去配置基础环境 关闭防火墙以及selinux 再去下载基础的运行…

差分逻辑电平 --- SSTL、HSTL、HSUL结构

SSTL/HSTL/HSUL 属于DDR存储器接口逻辑电平&#xff0c;虽然是单端&#xff0c;本质上是差分对&#xff0c;因实现机制是将信号与参考电平Vref组成差分对进行比较。 SSTL SSTL&#xff1a;Stub Series Termination Logic&#xff0c;短截线串联端接逻辑。 我们所熟知的DDR 采…

记录西门子200:PUT和GET通讯测试

GET/PUT&#xff1a;S7-200SMART之间专有通讯协议。 准备两台Smart-PLC&#xff0c;这里使用的ST60和CR40。外加一个交换机。 CR40的地址设置是&#xff1a;192.168.2.1 用来读 ST60的地址设置是&#xff1a;192.168.2.2 用来写 打开软件&#xff0c;选择CPU-CR4配…

LeetCode_Java_递归系列(题目+思路+代码)

206.反转链表 给你单链表的头节点 head &#xff0c;请你反转链表&#xff0c;并返回反转后的链表。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5] 输出&#xff1a;[5,4,3,2,1]以此类推&#xff0c;直到反转结束返回头结点 class Solution {public ListNode rever…

统计-R(相关系数)与R^2(决定系数)

1.相关系数&#xff08;R&#xff09; 定义&#xff1a;考察两个事物&#xff08;在数据里我们称之为变量&#xff09;之间的相关程度。 假设有两个变量X&#xff0c;Y&#xff0c;那么两个变量间的皮尔逊相关系数可通过以下公式计算&#xff1a; 公式一&#xff1a; 其中…

创建一个electron-vite项目

前置条件&#xff1a;非常重要&#xff01;&#xff01;&#xff01; npm: npm create quick-start/electronlatest yarn: yarn create quick-start/electron 然后进入目录&#xff0c;下载包文件&#xff0c;运行项目 到以上步骤&#xff0c;你已经成功运行起来一个 electr…

【C++】vector容器初步模拟

送给大家一句话&#xff1a; 努力一点&#xff0c;漂亮—点&#xff0c;阳光一点。早晚有一天&#xff0c;你会惊艳了时光&#xff0c;既无人能替&#xff0c;又光芒万丈。 vector容器初步模拟 1 认识vector开始了解底层实现 2 开始实现成员变量构造函数 析构函数尾插迭代器插入…