高级统计方法 第2次作业

news2025/1/6 20:27:24

概念

1.

(a)

光滑度高的好,样本足够多光滑度越高就越能表征真实情况,也能对预测变量更好的预测。

(b)

光滑度低的好,因为可能“过拟合”,一些误差大的数可能会较大的影响到预测变量数。

(c)

光滑度高的好,高光滑度使得拟合非线性关系更切合。

(d)

光滑度低的好,方差太大时使用光滑度高的进行拟合可能会导致“过拟合”。

2.问题(略)

(a)问题(略)

回归模型,推断。

美国500强公司的排名和利润、员工人数、产业类型和CEO的工资关系。

(b)问题(略)

分类,预测。

预测新产品会成功还是会失败。根据先前研发的20个产品的价格成本、市场预算、竞争价格和其它10个变量进行分类预测。

(c)问题(略)

回归模型,预测。

通过2012年每周美元的百分比变化、美国市场百分比变阿虎、英国市场百分比变化、德国市场百分比变化预测未来美元百分比随全球股市的变化规律。

3.问题(略)

(a)问题(略)

(b)问题(略)

  1. (平方)偏差-单调减少,因为增加了光滑度产生更接近的拟合。
  2. 方差-单调增加,因为增加光滑度增加过度,过拟合。
  3. 训练误差-单调减少,因为增加光滑度产生更接近样本的匹配。
  4. 测试误差-U形曲线,因为增加光滑度会使拟合从恰当到过头。
  5. 贝叶斯(不可约)误差,指在现有特征集上,任意可以基于特征输入进行随机输出的分类器所能达到的最小误差。贝叶斯误差又可以叫做最小误差。它是在训练集无限大且已经按真实分布穷举了所有可能的特征组合后,任何分类器所能达到的误差下限。产生贝叶斯误差的本质原因是特征集不足以推理出准确预测值,否则贝叶斯误差为0。

4.问题(略)

(a)问题(略)

预测新产品是成功还是失败。

响应变量:过去类似产品数据;预测变量:成功或失败。

推断来看病的人是否健康。

响应变量:心率,化验结果,身高体重等;预测变量:健康/疾病。

预测软件学院2024级新生男生是否比女生多。

响应变量:过去几年新生男女比例;预测变量:男生多/少。

(b)问题(略)

推理世界500强公司的排名和利润,员工人数,产业类型和CEO工资关系。

响应变量:利润,员工人数,产业类型和CEO工资;预测变量:世界500强公司的排名。

预测未来大连天气变化。

响应变量:过去几年天气;预测变量:未来天气变化。

预测美元百分比变化率和全球股市周变动的变化规律。

响应变量:美元百分比变化,美国市场百分比变化,英国市场百分比变化,德国市场百分比变化;预测变量:美元百分比变化和全球股市的变化规律。

(c)问题(略)

癌症类型聚类。更准确地诊断癌症类型。

电影推荐。推荐电影的用户谁有观看和评价类似的电影。

市场调查。产品的人口统计数据的聚类,成群的消费者购买哪些产品。

5.问题(略)

(a)问题(略)

优点:更好的拟合非线性模型,减少偏差。

缺点:需要大量的样本,并且可能产生“过拟合”。

(b)问题(略)

需要更好的准确度,光滑度高通常意味着更好的拟合数据,预测的准确性和可信度更好。

(c)问题(略)

数据有很多噪声和异常值,光滑度低一些会好。

6.问题(略)

(a)问题(略)

参数方法将问题简化,它假定函数的形式。

而非参数方法不假定形式,采用大量的观测数据来估计函数。

参数回归或者分类模型的优点是将模型简化,不需要太多的观测数据,但是如果假设出错会使模型的效果下降,也有“过拟合”的风险。

7.问题(略)

(a)问题(略)

从1到6的距离分别是:3,2,sqrt(10),sqrt(5),sqrt(2),sqrt(3)

(b)问题(略)

Green,观测值5是 K = 1的最近邻。

(c)问题(略)

Red,观测值2,5,6是K=3的近邻。

(d)

小k。小k对于非线性边界更灵活,而大K可能会更偏向于线性的边界。

、、、、、、

应用

在如下网址下载所需的College.csv文件

Resources - ISL with R, 1st Edition — An Introduction to Statistical Learning (statlearning.com)

8.问题(略)

(a)问题(略)

(b)问题(略)

fix(college)

rownames(college) = college[,1]

college = college[,-1]

fix(college)

(c)问题(略)

summary(college)

college[,1] = as.numeric(factor(college[,1]))

pairs(college[,1:10])

plot(college$Private, college$Outstate)

Elite = rep("No", nrow(college))
Elite[college$Top10perc>50] = "Yes"
Elite = as.factor(Elite)
college = data.frame(college, Elite)
summary(college$Elite)
plot(college$Elite, college$Outstate)

par(mfrow=c(2,2))
hist(college$Apps)
hist(college$perc.alumni, col=2)
hist(college$S.F.Ratio, col=3, breaks=10)
hist(college$Expend, breaks=100)

plot(college$Top10perc, college$Grad.Rate)

很明显的错误:超过100%的毕业率。

9.问题(略)

Auto = read.csv("./Auto.csv", header=T, na.strings="?")

  1. header=T 表示CSV文件的第一行是列名,即header。如果设置为F,那么第一行将被视为普通数据行。
  2. na.strings="?" 表示将问号("?")识别为缺失值(NA)。在读取数据时,所有问号将被替换为NA。

Auto = na.omit(Auto)

删除数据框Auto中包含NA值的所有行。na.omit()函数会返回输入数据的一个副本,删除了包含缺失值的行。

dim(Auto)

summary(Auto)

(a)问题(略)

定量:mpg, cylinders, displacement, horsepower, weight, acceleration, year

定性:name, origin

(b)问题(略)

sapply(Auto[, 1:7], range)

sapply函数会对每个列应用指定的函数,这里应用的函数是range,它会返回每个列的最小值和最大值。

(c)问题(略)

sapply(Auto[, 1:7], mean)

mean会返回每个列的均值。

sapply(Auto[, 1:7], sd)

sd会返回每个列的标准差。

(d)问题(略)

rm10and85Auto = Auto[-(10:85),]

> dim(rm10and85Auto) == dim(Auto) - c(76,0)

rm10and85Auto[9,] == Auto[9,]

rm10and85Auto[10,] == Auto[86,]

sapply(rm10and85Auto[, 1:7], range)

sapply(rm10and85Auto[, 1:7], mean)

sapply(rm10and85Auto[, 1:7], sd)

(e)问题(略)

总体上加速度越大重量越轻。

同样的内容只不过设置了一些不一样的东西。

plot(Auto$acceleration, Auto$weight,type="l",main="加速度和重量的关系度",xlab="加速度",ylab="重量")

(f)问题(略)

没有提供足够的预测mpg的数据。

多数列都和mpg有一定的关联,可能会对预测造成困扰。

Pairs()用于可视化数据框中每对变量之间的关系。

pairs(Auto)

注:通常这里使用pairs(Auto)会报错“Error in pairs.default(Auto) : 非数值参数不能适用于'pairs”,使用str(Auto)查看数据类型,大概率会发现字符(非数字)类型的数据列,pairs是不能处理非数字的。

解决方法可以使用Auto[,9] = as.numeric(factor(Auto[,9]))转化数字

就可以解决。只是这显然不是最优解,造成了数据丢失哦。
 
 

10.问题(略)

(a)
library(MASS)
?Boston
dim(Boston)

506行 14列
自动打开了一个网址R: Housing Values in Suburbs of Boston,详细说明了所有列的介绍,包括城市犯罪率等等。
 
(b)
pairs(Boston)
 

 
(c)
随着房子年限增大,犯罪率增大。
plot(Boston$age, Boston$crim)
 

plot(Boston$tax, Boston$crim)
高税率对犯罪率影响比较显著。尤其是在接近700税的时候。

 
(d)
 
par(mfrow=c(1,3))
hist(Boston$crim[Boston$crim>1], breaks=25)
hist(Boston$tax, breaks=25)
 

 
总体犯罪率较低,但是也有特别高的。
税率200到400与600+的有较大差距。
总体都在40的左右,但是也有极高和极低的。
 
(e)
dim(subset(Boston, chas == 1))

35
 
(f)
median(Boston$ptratio)

中位数是19.05
 
(g)
 
t(subset(Boston, medv == min(Boston$medv)))
t()转置

 
summary(Boston)

 
该郊区其他自用房取值详见上图,总体上是房屋情况都不是很好。
 
(h)
dim(subset(Boston, rm > 7))
 

64个郊区居民平均居住房间数量超过7。
 
dim(subset(Boston, rm > 8))

13个郊区居民平均居住房间数量超过8。
summary(subset(Boston, rm > 8))

summary(Boston)

 
房间数超过8个的犯罪率较高,人口地位也较低。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1460217.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微信小程序video 点击自动全屏播放

//因为这个地址可能是图片也可能是视频 点击 图片可以预览&#xff0c;点击视频可放大全屏自动播放。 代码如下 <view v-else :class{contentImg: x.picture.length0} style"margin-top: 10px;"v-for"(x1, y1) in x.picture" :key"y"><…

【Docker】Linux主机部署Docker

Docker部署 1.二进制文件部署 到如下地址&#xff0c;下载二进制包。 Docker官网&#xff1a;https://docs.docker.com/engine/install/binaries/ 网易镜像源&#xff1a;https://mirrors.163.com/docker-ce/linux/static/stable/x86_64/ 下载好的二进制包上传到主机&#xf…

【LeetCode】递归精选8题——基础递归、链表递归

目录 基础递归问题&#xff1a; 1. 斐波那契数&#xff08;简单&#xff09; 1.1 递归求解 1.2 迭代求解 2. 爬楼梯&#xff08;简单&#xff09; 2.1 递归求解 2.2 迭代求解 3. 汉诺塔问题&#xff08;简单&#xff09; 3.1 递归求解 4. Pow(x, n)&#xff08;中等&…

(每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理第11章 项目成本管理(一)

博主2023年11月通过了信息系统项目管理的考试&#xff0c;考试过程中发现考试的内容全部是教材中的内容&#xff0c;非常符合我学习的思路&#xff0c;因此博主想通过该平台把自己学习过程中的经验和教材博主认为重要的知识点分享给大家&#xff0c;希望更多的人能够通过考试&a…

消息队列-RabbitMQ:workQueues—工作队列、消息应答机制、RabbitMQ 持久化、不公平分发(能者多劳)

4、Work Queues Work Queues— 工作队列 (又称任务队列) 的主要思想是避免立即执行资源密集型任务&#xff0c;而不得不等待它完成。我们把任务封装为消息并将其发送到队列&#xff0c;在后台运行的工作进程将弹出任务并最终执行作业。当有多个工作线程时&#xff0c;这些工作…

python51-Python流程控制if分支之不要随意缩进

需要说明的是,虽然Python 语法允许代码块随意缩进N个空格,但同一个代码块内的代码必须保持相同的缩进,不能一会缩进2个空格,一会缩进4个空格。例如如下代码。 上面程序中第二条print语句缩进了5个空格,在这样的情况下,Python解释器认为这条语句与前一条语句(缩进了4个空格…

用html编写的招聘简历

用html编写的招聘简历 相关代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</tit…

没有代码签名证书会怎么样?

随着Windows的SmartScreen功能的普及&#xff0c;如果一个软件发布的时候没有通过代码签名证书进行数字签名&#xff0c;那这个软件从发布&#xff0c;下载&#xff0c;安装&#xff0c;运行等&#xff0c;基本都会遭到系统的风险警告&#xff0c;运行拦截。其目的在于警示用户…

MapGIS 10.6 Pro前端开发低代码,快速构建WebGIS应用

随着实景三维、CIM、数字孪生等的快速发展&#xff0c;相关应用开发需求的市场增长对企业IT交付能力的要求越来越高&#xff0c;为了确保质量并实现提效降本&#xff0c;并让专业开发者更加专注于更具有价值和创新型的工作&#xff0c;低代码开发技术成为大家的优先选择。 为了…

工作入职必备:一寸照片尺寸要求及自拍换底色方法

踏入职场的第一步&#xff0c;往往从一张小小的一寸照片开始。这张看似不起眼的照片&#xff0c;却是你给新同事、新领导的第一印象。今天&#xff0c;我们就来深入探讨一寸照片的尺寸要求&#xff0c;以及如何巧妙地通过自拍来更换背景颜色&#xff0c;让你的入职照片既专业又…

【Java EE初阶二十一】关于http(二)

2. 深入学习http 2.5 关于referer Referer 描述了当前页面是从哪个页面跳转来的&#xff0c;如果是直接在地址栏输入 url(或者点击收藏夹中的按钮) 都是没有 Referer。如下图所示&#xff1a; HTTP 最大的问题在于"明文传输”,明文传输就容易被第三方获取并篡改. …

我国为分散染料(分散性染料)生产及出口大国 合成纤维领域为其主要需求端

我国为分散染料&#xff08;分散性染料&#xff09;生产及出口大国 合成纤维领域为其主要需求端 分散染料又称分散性染料&#xff0c;指分子结构中不含水溶性基团的染料。与其他染料相比&#xff0c;分散染料具有耐光性好、色彩饱和度高、易于分散、绿色环保等优势&#xff0c;…

探索未来-Sora

AI如何将静态图像转化为动态、逼真的视频&#xff1f; OpenAI 的 Sora 通过时空片段&#xff08;以下统称片段&#xff09;的创新使用给出了答案。 Sora 展示与探讨 在快速发展的生成模型领域&#xff0c;OpenAI 的 Sora成为一个重要的里程碑&#xff0c;有望重塑我们对视频生…

Python编程实验四:函数的使用

目录 一、实验目的与要求 二、实验内容 三、主要程序清单和程序运行结果 第1题 第2题 第3题 第4题 第5题 四、实验结果分析与体会 一、实验目的与要求 &#xff08;1&#xff09;通过本次实验&#xff0c;学生应掌握函数的定义与调用的基本语法&#xff0c;能根据需要…

K8S的架构(1)

目录 一.k8s K8S有 master 和 worker node 两类节点&#xff1a; ​编辑 二.K8S创建Pod资源的工作流程 三.K8S资源对象 Pod&#xff1a;是K8S能够创建和管理的最小单位。 Pod控制器: 四.K8S资源配置信息 一.k8s kubernetes &#xff1a; Google旗下的容器跨主机编排…

linux上安装bluesky的步骤

1、设备上安装的操作系统如下&#xff1a; orangepiorangepi5b:~$ lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 22.04.2 LTS Release: 22.04 Codename: jammy 2、在用户家目录下创建一个目录miniconda3目录&a…

如何系统地自学Python?

如何系统地自学Python&#xff1f; 如何系统地自学Python&#xff1f;1.了解编程基础2.学习Python基础语法3.学习Python库和框架4.练习编写代码5.参与开源项目6.加入Python社区7.利用资源学习8.制定学习计划9.持之以恒总结 如何系统地自学Python&#xff1f; 作为一个Python语…

实现Slider 滑块组件标记动态变化

实现以上效果&#xff0c;下拉框、slider滑块、按钮都在同一行&#xff0c;设置flex布局后&#xff0c;发现silider滑块最右边的标记数字一直都如下竖着显示&#xff0c;后来通过给源组件的标记区.el-slider__marks-text增加一个宽度后解决该问题。 <template><div>…

可视化大屏:一屏尽览生产数据,管理从未如此轻松!

工厂管理者需要对生产过程进行全面的监控和管理。而可视化大屏作为一种新型的生产监控工具&#xff0c;已经被越来越多的企业所采用。本文将从可视化大屏的概念、特点以及在工厂生产中的应用等方面进行详细介绍。 煤炭化工生产大屏看板 一、可视化大屏的概念和特点 可视化大屏…

js-Vue Router 中的方法,父A-子B-子C依次返回,无法返回到A,BC中形成循环跳转解决

1.常用的方法 在 Vue Router 中&#xff0c;有一些常用的方法用于实现路由导航和管理。以下是一些常见的 Vue Router 方法及其作用&#xff1a; push: router.push(location, onComplete, onAbort) 作用&#xff1a;向路由历史记录中添加一个新条目&#xff0c;并导航到指定的路…