昇思25天学习打卡营第24天|基于MindSpore的红酒分类实验

news2025/1/11 13:00:32

相关知识

KNN

k临近算法K nearest neighbor,用于分类和回归。主要思想为,训练一个样本和所有训练样本之间的举例,找到和这个样本最接近的k个样本,根据这k个样本的类别进行投票,票数最高的类就是分类的结果。模型效果主要受三个要素影响:

  • k值:该样本的分类是由它k个邻居决定的。k越小,越容易被噪声影响。k越大,类别划分越不明显。
  • 距离度量:反映特征空间中两个样本间的相似度,距离越小,越相似。如Lp距离、曼哈顿距离、海明距离等。
  • 分类决策规则:通常是多数表决,或者基于距离加权的多数表决。

KNN分类

预测算法(分类)的流程如下:

(1)在训练样本集中找出距离待测样本x_test最近的k个样本,并保存至集合N中;

(2)统计集合N中每一类样本的个数 C i , i = 1 , 2 , 3 , . . . , c C_{i}, i=1,2,3,...,c Ci,i=1,2,3,...,c

(3)最终的分类结果为argmax C i C_{i} Ci (最大的对应的 C i C_{i} Ci)那个类。

这里也可以将每个样本设为不同的权重,也就是带权重的KNN。

KNN回归

假设离测试样本最近的k个训练样本的标签值为 y i y_{i} yi,则对样本的回归预测输出值为:

y ^ = ( ∑ i = 1 n y i ) / k \hat y = (\sum_{i=1}^{n}{y_{i}})/k y^=(i=1nyi)/k

即为所有邻居的标签均值。

带样本权重的回归预测函数为:

y ^ = ( ∑ i = 1 n w i y i ) / k \hat y = (\sum_{i=1}^{n}{w_{i}y_{i}})/k y^=(i=1nwiyi)/k

其中 w i w_{i} wi为第个 i i i样本的权重。

欧氏距离

最常用的是欧几里得距离。用于计算两个向量的距离。 d ( x , y ) = ∑ i = 1 n ( x i − y i ) 2 d(x,y) = \sqrt{\sum_{i=1}^{n}{(x_{i}-y_{i})^2}} d(x,y)=i=1n(xiyi)2
使用该方式时应先将特征向量的每个分量归一化,减少因特征尺寸范围不同带来的问题。

实验

数据准备

本章使用Wine数据集,是模式识别中的经典数据集。数据内容为三种葡萄酒的化学分析结果,包含了如下13种成分的量

  1. Alcohol,酒精
  2. Malic acid,苹果酸
  3. Ash,灰
  4. Alcalinity of ash,灰的碱度
  5. Magnesium,镁
  6. Total phenols,总酚
  7. Flavanoids,类黄酮
  8. Nonflavanoid phenols,非黄酮酚
  9. Proanthocyanins,原花青素
  10. Color intensity,色彩强度
  11. Hue,色调
  12. OD280/OD315 of diluted wines,稀释酒的OD280/OD315
  13. Proline,脯氨酸

首先查看一下数据

with open('wine.data') as csv_file:
    data = list(csv.reader(csv_file, delimiter=','))
print(data[56:62]+data[130:133])

[[‘1’, ‘14.22’, ‘1.7’, ‘2.3’, ‘16.3’, ‘118’, ‘3.2’, ‘3’, ‘.26’, ‘2.03’, ‘6.38’, ‘.94’, ‘3.31’, ‘970’], [‘1’, ‘13.29’, ‘1.97’, ‘2.68’, ‘16.8’, ‘102’, ‘3’, ‘3.23’, ‘.31’, ‘1.66’, ‘6’, ‘1.07’, ‘2.84’, ‘1270’], [‘1’, ‘13.72’, ‘1.43’, ‘2.5’, ‘16.7’, ‘108’, ‘3.4’, ‘3.67’, ‘.19’, ‘2.04’, ‘6.8’, ‘.89’, ‘2.87’, ‘1285’], [‘2’, ‘12.37’, ‘.94’, ‘1.36’, ‘10.6’, ‘88’, ‘1.98’, ‘.57’, ‘.28’, ‘.42’, ‘1.95’, ‘1.05’, ‘1.82’, ‘520’], [‘2’, ‘12.33’, ‘1.1’, ‘2.28’, ‘16’, ‘101’, ‘2.05’, ‘1.09’, ‘.63’, ‘.41’, ‘3.27’, ‘1.25’, ‘1.67’, ‘680’], [‘2’, ‘12.64’, ‘1.36’, ‘2.02’, ‘16.8’, ‘100’, ‘2.02’, ‘1.41’, ‘.53’, ‘.62’, ‘5.75’, ‘.98’, ‘1.59’, ‘450’], [‘3’, ‘12.86’, ‘1.35’, ‘2.32’, ‘18’, ‘122’, ‘1.51’, ‘1.25’, ‘.21’, ‘.94’, ‘4.1’, ‘.76’, ‘1.29’, ‘630’], [‘3’, ‘12.88’, ‘2.99’, ‘2.4’, ‘20’, ‘104’, ‘1.3’, ‘1.22’, ‘.24’, ‘.83’, ‘5.4’, ‘.74’, ‘1.42’, ‘530’], [‘3’, ‘12.81’, ‘2.31’, ‘2.4’, ‘24’, ‘98’, ‘1.15’, ‘1.09’, ‘.27’, ‘.83’, ‘5.7’, ‘.66’, ‘1.36’, ‘560’]]

将13个属性作为自变量,类别作为因变量

X = np.array([[float(x) for x in s[1:]] for s in data[:178]], np.float32)
Y = np.array([s[0] for s in data[:178]], np.int32)

划分训练集与验证集

train_idx = np.random.choice(178, 128, replace=False)
test_idx = np.array(list(set(range(178)) - set(train_idx)))
X_train, Y_train = X[train_idx], Y[train_idx]
X_test, Y_test = X[test_idx], Y[test_idx]

模型构建

class KnnNet(nn.Cell):
    def __init__(self, k):
        super(KnnNet, self).__init__()
        self.k = k

    def construct(self, x, X_train):
        #平铺输入x以匹配X_train中的样本数
        x_tile = ops.tile(x, (128, 1))
        square_diff = ops.square(x_tile - X_train)
        square_dist = ops.sum(square_diff, 1)
        dist = ops.sqrt(square_dist)
        #-dist表示值越大,样本就越接近
        values, indices = ops.topk(-dist, self.k)
        return indices

def knn(knn_net, x, X_train, Y_train):
    x, X_train = ms.Tensor(x), ms.Tensor(X_train)
    indices = knn_net(x, X_train)
    topk_cls = [0]*len(indices.asnumpy())
    for idx in indices.asnumpy():
        topk_cls[Y_train[idx]] += 1
    cls = np.argmax(topk_cls)
    return cls

模型预测

设k=5,得到最终的精度约为80%,证明分类有效。

acc = 0
knn_net = KnnNet(5)
for x, y in zip(X_test, Y_test):
    pred = knn(knn_net, x, X_train, Y_train)
    acc += (pred == y)
print('Validation accuracy is %f' % (acc/len(Y_test)))

Validation accuracy is 0.720000

总结

本章使用KNN完成红酒分类任务,影响knn效果的主要是k值选择,距离算法与分类决策规则(多数投票或带权重)。最终得到十三个属性和红酒分类效果有关,即可有效完成品类预测。但由于KNN是非参数化的机器学习算法,没有显式的模型参数,因此没办法直接通过KNN确认每一个特征与因变量的具体关系或相关性。

打卡凭证

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1951833.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

全网最最实用--模型高效推理:量化基础

文章目录 一、量化基础--计算机中数的表示1. 原码(Sign-Magnitude)2. 反码(Ones Complement)3. 补码(Twos Complement)4. 浮点数(Floating Point)a.常用的浮点数标准--IEEE 754(FP32…

力扣 459重复的子字符串

思路: KMP算法的核心是求next数组 next数组代表的是当前字符串最大前后缀的长度 而求重复的子字符串就是求字符串的最大前缀与最大后缀之间的子字符串 如果这个子字符串是字符串长度的约数,则true /** lc appleetcode.cn id459 langcpp** [459] 重复…

LangChain 一 hello LLM

本来想先写LangChain系列的,但是最近被AutoGen、LlamaIndex给吸引了。2023就要过去了,TIOBE数据编程语言排名Python都第一了,可见今年AI开发之热。好吧,一边学习业界通用的LangChain框架,一边准备跨年吧。 前言 先是O…

基于FPGA的YOLOV5s神经网络硬件部署

一 YOLOV5s 本设计以YOLOV5s部署于FPGA上为例进行分析概述。YOLOV5s网络主要包括backbone、neck、head三部分。 涉及的关键算子: Conv:卷积,包括3*3、1*1,stride1/2Concat:Upsample:Pooling:ADD 二 评估 …

oncoPredict:根据细胞系筛选数据预测体内或癌症患者药物反应和生物标志物

在14年的时候,oncoPredict函数的开发团队在Genome Biology上发了一篇文章。 这篇文章的核心目的是阐释了使用治疗前基线肿瘤基因表达数据去预测患者化疗反应。开发团队发现使用细胞系去预测临床样本的药物反应是可行的。 鉴于之前的理论,该研究团队首先…

docker Docs相关使用文档链接

Docker Docshttps://docs.docker.com/ docker compose | Docker Docshttps://docs.docker.com/reference/cli/docker/compose/docker | Docker Docshttps://docs.docker.com/reference/cli/docker/

【计算机网络】静态路由实验

一:实验目的 1:掌握通过静态路由方法实现网络的连通性。 二:实验仪器设备及软件 硬件:RCMS-C服务器、网线、Windows 2019/2003操作系统的计算机等。 软件:记事本、WireShark、Chrome浏览器等。 三:实验方…

linux集群架构--高可用--keepalived(13985字详解)

linux架构高可用 a.概述 高可用:HA HighAvailablity —>Keepalived生成VIP,DNS解析到这个IP地址即可 b.原理 keepalived 是基于VRRP协议实现高可用VRRP虚拟路由器冗余协议,最开始是给网络设备实现高可用,目前keepalive实现v…

企业公户验证API如何使用JAVA、Python、PHP语言进行应用

在纷繁复杂的金融与商业领域,确保每笔交易的安全与合规是至关重要的。而企业公户验证API,正是这样一位默默守护的数字卫士,它通过智能化的手段,简化了企业对公账户验证流程,让繁琐的审核变得快捷且可靠。 什么是企业公…

NLP-使用Word2vec实现文本分类

Word2Vec模型通过学习大量文本数据,将每个单词表示为一个连续的向量,这些向量可以捕捉单词之间的语义和句法关系。本文做文本分类是结合Word2Vec文本内容text,预测其文本标签label。以下使用mock商品数据的代码实现过程过下: 1、…

关闭Xshell后,任务将结束-tmux

Xshell标签中的会话结束后,会话中运行的进程也将被结束。 关闭标签 解释: xshell在断开连接后会中止所有正在运行的进程和任务,因为xshell客户端是通过ssh协议连接到远程服务器的,一旦连接断开,所有与该会话相关的进程…

数据结构 - 红黑树

文章目录 前言一、红黑树介绍1、红黑树的概念2、红黑树的性质 二、实现红黑树1、基本框架2、插入3、删除4、查找5、测试红黑树6、红黑树代码 三、红黑树性能四、AVL树和红黑树的差别 前言 红黑树是一种二叉搜索树,所以学习前需要学会基本的二叉搜索树,并…

超越源自内省:《自卑与超越》

作者主页: 🔗进朱者赤的博客 精选专栏:🔗经典算法 作者简介:阿里非典型程序员一枚 ,记录在大厂的打怪升级之路。 一起学习Java、大数据、数据结构算法(公众号同名) ❤️觉得文章还…

JS 改造数组对象,将其不确定的key作为value,并合并相同key的value值

const data [{"苹果": 3839,"小米": 1423,"华为": 4965,"oppo": 3334,"vivo": 2820,"一加": 4751},{"苹果": 3560,"小米": 2099,"华为": 3192,"oppo": 4210,"vivo…

anaconda 安装

环境 win 11 安装 下载安装包 https://www.anaconda.com/download 2.打开安装包,这里基本上就是下一步下一步 3.配置环境变量 对应自己安装的目录文件夹 D:\anaconda3 D:\anaconda3\Scripts D:\anaconda3\Library\bin4.打开命令行测试 常用命令 初始化 co…

python毕业设计选题求职招聘系统-可视化大屏

✌网站介绍:✌10年项目辅导经验、专注于计算机技术领域学生项目实战辅导。 ✌服务范围:Java(SpringBoo/SSM)、Python、PHP、Nodejs、爬虫、数据可视化、小程序、安卓app、大数据等设计与开发。 ✌服务内容:免费功能设计、免费提供开题答辩P…

【限免】16PAM、16PSK、16QAM、16CQAM星座图及误码率【附MATLAB代码】

​微信公众号:智能电磁频谱算法 QQ交流群:949444104 主要内容 MATLAB代码 % Parameters M 16; N 4; % Number of circles for CQAM SNR_dB 0:2:25; % Extended SNR range to reach higher values num_symbols 1e5; % Total number of symbols for s…

静态路由学习笔记

1. 静态路由应用场景 (1)静态路由由网络管理员手动配置,配置方便,对系统要求低,适用于拓扑结构简单并且稳定的小型网络。 (2)缺点是不能自动适应网络拓扑的变化,需要人工干预过多。…

保险丝(常见元器件及电路基础知识)

分类:简单分为熔断式和非熔断式 电压:保险丝的额定电压是指它的公称额定电压, 通常就是保险丝断开后能够承受的最大电压值保险丝通电时两端所承受的电压大大小于其额定电压,因此额定电压基本上无关紧要。 电流: PFC为功率因数矫…

Java之开发 系统设计 分布式 高性能 高可用

1、restful api 基于rest构建的api 规范: post delete put get 增删改查路径 接口命名 过滤信息状态码 2、软件开发流程 3、命名规范 类名:大驼峰方法名:小驼峰成员变量、局部变量:小驼峰测试方法名:蛇形命名 下划…