禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者!
文章目录
-
- 介绍
- 加载R包
- 数据下载
- 导入数据
- 一、数据描述
- 二、数据预处理
-
- (一)修改元素名称
- (二)剔除无关变量
- (三)缺失值检查
- (四)重复值检查
- (五)异常值检查
- 三、描述性统计
-
- (一)连续变量数据情况
- (二)分类变量数据情况
- 四、总结
- 系统信息
介绍
本文使用来自美国加州大学欧文分校: Breast Cancer Wisconsin (Diagnostic)的数据构建乳腺癌诊断分类模型。该数据集的特征是从乳腺肿块的细针抽吸(Fine Needle Aspirate, FNA)的数字化图像中计算得出。它们描述了图像中存在的细胞核的特征[@street1993nuclear]。该数据集包含569份恶性和良性肿瘤的样本的30类临床指标。
-
数据集中的前两列分别存储了样本的独特识别号码和相应的诊断结果(M代表恶性,B代表良性)。
-
第3至32列包含了从细胞核的数字化图像计算得出的30个实数值的临床特征。