6.乳腺癌良性恶性预测（二分类、逻辑回归、PCA降维、SVD奇异值分解）

news2025/2/22 20:06:09

乳腺癌良性恶性预测

1. 特征工程
- 1.1 特征筛选
- 1.2 特征降维 PCA
- 1.3 SVD奇异值分解
2. 代码
- 2.1 逻辑回归、二分类问题
- 2.2 特征降维 PCA
- 2.3 SVD奇异值分解

1. 特征工程

专业上：30个人特征来自于临床一线专家，每个特征和都有医学内涵；
数据上：30个中可能有一些是冗余的。

1.1 特征筛选

从30个选出重要的，踢掉不重要的。
从数据的角度来讲，不建议进行特征筛选，做特征筛选可能只是为了解释性，给领导看看而已。因为再不重要的特征都有信息，筛选掉必然导致信息的丢失。
线性回归的系数代表该项特征的重要性，系数就代表权重。
使用协方差或皮尔逊系数判断两列特征的相关性。

1.2 特征降维 PCA

把原来30个特征中的核心信息中抽取出来，融合到新生成的几个特征中，新的特征不是原来的任何一个！
PCA（Principal Component Analysis，主成分分析）

1.3 SVD奇异值分解

SVD（奇异值分解）是一种在信号处理、统计学、机器学习等领域广泛应用的矩阵分解方法。
它可以将一个矩阵分解为三个特定的矩阵的乘积，这三个矩阵分别是：一个正交矩阵、一个对角矩阵（其元素为奇异值，且按从大到小排列）以及另一个正交矩阵的转置。

2. 代码

2.1 逻辑回归、二分类问题

$y=F(X)=sigmoid(x_0w_0+x_1w_1+x_2w_2+...+x_{12}w_{12})$

from sklearn.datasets import load_breast_cancer
X,y=load_breast_cancer(return_X_y=True)
print(X.shape,y.shape)  #：(569, 30) (569,)

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y)
# 逻辑回归，实际是二分类，就是线性回归加了一个激活函数 sigmoid
from sklearn.linear_model import LogisticRegression
lr=LogisticRegression(max_iter=10000)
lr.fit(X_train,y_train)
pred=lr.predict(X_test)
acc=(pred==y_test).mean()
print(acc)

2.2 特征降维 PCA

# 特征降维 PCA（主成分分析）
from sklearn.decomposition import PCA
pca = PCA(n_components=20)
pca.fit(X_train)
X_train1 = pca.transform(X_train)

# 原始数据
lr = LogisticRegression(max_iter=10000)
lr.fit(X_train,y_train)
(lr.predict(X_test)==y_test).mean()  #：0.965034965034965

# 10个特征
lr1 = LogisticRegression(max_iter=10000)
# 特征降维
# 1. 构建
pca=PCA(n_components=10)
# 2. 拟合
pca.fit(X_train)
# 3. 转换
X_train1 = pca.transform(X_train)
X_test1 = pca.transform(X_test)

lr1.fit(X_train1,y_train)
(lr1.predict(X_test1)==y_test).mean()  #：0.958041958041958

2.3 SVD奇异值分解

import numpy as np
from matplotlib import pyplot as plt
beauty = plt.imread(fname="beauty.jpg")
# [Height, Width, Channel]
print(beauty.shape)  #:(627, 481, 3)
r=beauty[:,:,0]
plt.imshow(r,cmap='gray')

在这里插入图片描述

U, S, V = np.linalg.svd(a=r, full_matrices=False)
print(U.shape,S.shape, V.shape)  #: (627, 481) (481,) (481, 481)
plt.plot(S)

在这里插入图片描述

"""
    降维之后的效果
"""
K = 20
restore = U[:,:K] @ np.diag(S[:K]) @ V[:K, :]
plt.imshow(X=restore, cmap="gray")

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1944341.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

6.乳腺癌良性恶性预测（二分类、逻辑回归、PCA降维、SVD奇异值分解）

乳腺癌良性恶性预测

1. 特征工程

1.1 特征筛选

1.2 特征降维 PCA

1.3 SVD奇异值分解

2. 代码

2.1 逻辑回归、二分类问题

2.2 特征降维 PCA

2.3 SVD奇异值分解

相关文章

SpringBoot启动命令过长

探索LLM世界：新手小白的学习路线图

matlab仿真模拟调制（下）

opencv grabCut前景后景分割去除背景

敏捷CSM认证：精通敏捷Scum估算方法，高效完成项目！

Elasticsearch：Golang ECS 日志记录 - zap

集合的概念

最短路径 | 743. 网络延迟时间之 Dijkstra 算法和 Floyd 算法

灰色关联分析【系统分析+综合评价】

微服务安全——OAuth2详解、授权码模式、SpringAuthorizationServer实战、SSO单点登录、Gateway整合OAuth2

C语言数据结构：基于EasyX的飞机订票系统，有前端界面

笔记小结：现代卷积神经网络之批量归一化

vue3 + ts 报错：Parsing error: Unexpected token : eslint

lua 游戏架构之游戏 AI （三）ai_attack

深度学习：引领未来的人工智能技术（比喻）

python—selenium爬虫

Unity UGUI 之 ScrollBar与ScrollView

MMROTATE的混淆矩阵confusion matrix生成

Elasticsearch介绍、安装以及IK分词器 --学习笔记

centos系统mysql数据库压缩备份与恢复