机器学习面试篇

news2024/11/19 6:00:08

如何理解机器学习数据集的概念  

数据集是机器学习的基础,它包括了用于训练和测试模型所需的数据。数据集通常以矩阵的形式存在,其中每一行代表一个样本(或实例),每一列代表一个特征(或属性)。每个样本都包含了对应于各个特征的数值,数据集通常会被划分为训练集和测试集,有时还包括验证集。训练集用于训练模型,测试集用于评估模型的性能,而验证集则用于在训练过程中调整模型的参数。

机器学习中特征的理解 

特征选择:原有特征选择出⼦集,不改变原来的特征空间
降维:将原有的特征重组成为包含信息更多的特征,改变了原有的特征空间

降维的主要⽅法

  • Principal Component Analysis(主成分分析)
  • Singular Value Decomposition(奇异值分解)

特征选择的⽅法

  • Filter⽅法:卡⽅检验、信息增益、相关系数
  • Wrapper⽅法
  • Embedded⽅法

Wrapper其主要思想是:将⼦集的选择看作是⼀个搜索寻优问题,⽣成不同的组合,对组合进⾏评价,再与其他的组合进⾏⽐较。这样就将⼦集的选择看作是⼀个是⼀个优化问题,这⾥有很多的优化算法可以解决,尤其是⼀些启发式的优化算法,如GA,PSO,DE,ABC等,详⻅“优化算法——⼈⼯蜂群算法(ABC)”,“优化算法——粒⼦群算法(PSO)”。 


Embedded⽅法主要思想是:在模型既定的情况下学习出对提⾼模型准确性最好的属性,挑选出那些对模型的训练有重要意义的属性。

机器学习的三要素  

  1. 数据:数据是机器学习的基础,它包括原始数据和特征向量。在机器学习中,数据不仅要被收集和整理,还需要通过特征工程来提取有用的信息,以便模型能够更好地学习和理解。
  2. 模型:模型是对现实世界问题的一种数学抽象,它可以是训练后的函数,用于捕捉数据之间的关系和模式。模型可以是判别式的,如逻辑回归;也可以是生成式的,如深度学习和支持向量机。模型的选择取决于具体问题的需求和数据的特性。
  3. 算法:算法是指导模型如何从数据中学习的一系列计算步骤。它不仅包括模型的训练过程,还包括模型的评估和最优化。算法的选择会影响到模型的学习效率和最终的性能。

机器学习中的特征选择的⽅法  

  1. 计算每⼀个特征与相应变量的相关性:常⽤的⼿段有计算⽪尔逊系数和互信息系数,⽪尔逊系数只能衡量线性相关性⽽互信息系数能够很好地度量各种相关性,但是计算相对复杂⼀些,toolkit⾥边都包含了这个⼯具,得到相关性之后就可以排序选择特征了。
  2. 构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征;
  3. 通过L1正则项来选择特征:L1正则⽅法具有稀疏解的特性,因此天然具备特征选择的特性,但是L1没有选到的特征不代表不重要,原因是两个具有⾼相关性的特征可能只保留了⼀个,如果要确定哪个特征重要应再通过L2正则⽅法交叉检验*。
  4. 训练能够对特征打分的预选模型:RandomForest和Logistic Regression等都能对模型的特征打分,通过打分获得相关性后再训练最终模型;
  5. 通过特征组合后再来选择特征:如对⽤户id和⽤户特征最组合来获得较⼤的特征集再来选择特征,这种做法在推荐系统和⼴告系统中⽐较常⻅,这也是亿级特征的主要来源,原因是⽤户数据⽐较稀疏,组合特征能够同时兼顾全局模型和个性化模型。
  6. 通过深度学习来进⾏特征选择。

机器学习中的正负样本 

在机器学习中,正样本通常指的是那些标签或者类别与模型预测的目标一致的样本,而负样本则是指标签或类别与预测目标不一致的样本。  

  • 正样本:在分类任务中,正样本是那些属于我们感兴趣的类别的样本。例如,如果我们正在训练一个垃圾邮件检测器,所有标记为垃圾邮件的邮件都是正样本。在目标检测领域,正样本可能指的是包含待检测目标(如人脸)的图像区域。
  • 负样本:负样本则是那些不属于我们感兴趣类别的样本。在上述垃圾邮件检测器的例子中,所有非垃圾邮件的邮件都是负样本。在目标检测中,负样本可能是那些不包含待检测目标的图像区域。

如何解决过拟合问题 

过拟合:模型在训练集表现好,在真实数据表现不好,即模型的泛化能⼒不够。,模型在达到经验损失最⼩的时候,模型复杂度较⾼,结构⻛险没有达到最优。

  • 增加数据量:通过获取更多的训练数据,可以提供更多的信息给模型,帮助它学习到更泛化的特征。
  • 正则化:在损失函数中添加正则化项,如L1或L2正则化,以惩罚模型的复杂度,防止过拟合。
  • 数据增强:通过对现有数据进行变换(如旋转、缩放等),可以创造出新的训练样本,从而增加数据的多样性。
  • 引入随机性:在模型中引入随机性,例如使用随机森林或者在神经网络中使用dropout层,可以帮助模型更好地泛化。
  • 降维:当数据集具有高维度时,可以通过降维技术(如PCA)来减少特征数量,从而简化模型并减少过拟合的可能性。

L1和L2正则的区别

  1. L1正则化:也称为Lasso回归,它通过权值向量中各个元素的绝对值之和来定义。这种形式的正则化倾向于将一些权值缩小到绝对的零,从而实现了特征选择的效果,即某些特征的权重变为零,这些特征就被排除在模型之外。
  2. L2正则化:也称为Ridge回归,它通过权值向量中各个元素的平方和的平方根来定义。这种形式的正则化倾向于让所有权值都接近于零,但不会完全为零,从而避免了特征选择,而是通过减小权重的大小来防止过拟合。

L1正则化表示各个参数绝对值之和。L1范数的解通常是稀疏性的,倾向于选择数⽬较少的⼀些⾮常⼤的值或者数⽬较多的insignificant的⼩值。L2正则化标识各个参数的平⽅的和的开⽅值。L2范数越⼩,可以使得w的每个元素都很⼩,接近于0,但L1范数不同的是他不会让它等于0⽽是接近于0 。

  • L1正则化:由于其倾向于产生稀疏权值矩阵,L1正则化通常用于特征选择,特别是在特征数量很多或者存在多重共线性的情况下。它可以帮助我们识别出对预测目标最重要的特征。
  • L2正则化:由于其倾向于让权值均匀地接近零,L2正则化可以帮助模型提高稳定性和泛化能力,尤其是在特征不多或者特征之间相互独立的情况下。

有监督学习和无监督学习 

  • 有监督学习:对具有概念标记(分类)的训练样本进⾏学习,以尽可能对训练样本集外的数据进⾏标记(分类)预测。只要输入样本集,机器就可以从中推演出制定⽬标变量的可能结果。
  • 无监督学习:对没有概念标记(分类)的训练样本进⾏学习,以发现训练样本集中的结构性知识。

监督学习的典型例子就是决策树、神经⽹络以及疾病监测,而无监督学习就是很早之前的⻄洋双陆棋和聚类。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1663756.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

云效 Pipeline as Code 来了!这些场景,用好它效率翻倍!

从可视化编排到支持 YAML 编排 云效流水线 Flow 是开箱即用的企业级持续集成和持续交付工具,支持丰富的代码源、构建、自动化测试工具、多种部署类型和部署方式,与阿里云深度集成,还提供多种企业级特性,助力企业高效完成从开发到…

亚信安全发布《2024年第一季度网络安全威胁报告》

亚信安全2024年第一季度网络安全威胁报告 一季度威胁概览 《亚信安全2024年第一季度网络安全威胁报告》的发布旨在从一个全面的视角解析当前的网络安全威胁环境。此报告通过详尽梳理和总结2024年第一季度的网络攻击威胁,目的是提供一个准确和直观的终端威胁感知。…

企业设置,支持自定义短信签名

05/08 主要更新模块概览 自动换行 启动封面 使用统计 短信签名 01表单管理 1.1 【表单外链】- 查询外链支持多个外链 说明: 表单查询外链原仅支持一个,现支持增加多个外链功能&…

Ring-Switch Field-Switch

参考文献: [GHPS12] Gentry C, Halevi S, Peikert C, et al. Ring switching in BGV-style homomorphic encryption[C]//International Conference on Security and Cryptography for Networks. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012: 19-37.[GHP…

【git】通过JetNrains IDE对git的操作

应该适用于所有jetbrains产品。 一、拉取(pull)代码 上方工具栏-Git-克隆。然后填写git地址与本地存放地址。 二、搁置 修改代码后搁置代码(不提交,但是也不撤销已修改的代码,把它暂存起来)。 界面的左上角。1->2->3。完事就可以写换到其他分支肆意妄为^^。 三…

【JAVA |开篇】JAVA入门及JDK环境配置

目录 一、JIAVA语言 二、Java开发环境安装 三、初识Java的main方法 四、注释 一、JIAVA语言 Java 是一种优秀的程序设计语言 ,它具有令人赏心悦目的语法和易于理解的语义 Write once, Run anywhere(这句话体现了JAVA语言的核心,一次运行 任…

能恢复永久删除文件的十大数据恢复软件

当您不小心删除了重要数据,或者由于病毒攻击而丢失了重要数据时,请不要惊慌,我们已经为您准备好了。别无他处,这是您目前市场上最佳数据恢复软件列表的一站式目的地。 能恢复永久删除文件的十大数据恢复软件 1. 奇客数据恢复 这是…

怎么制作流程图?介绍制作方法

怎么制作流程图?在日常生活和工作中,流程图已经成为我们不可或缺的工具。无论是项目规划、流程优化,还是学习理解复杂系统,流程图都能帮助我们更直观地理解和表达信息。然而,很多人可能并不清楚,其实制作流…

Android 如何启用user版本的adb源码分析

通过adb shell中执行getprop persist.sys.usb.config,可以看到系统usb的相关选项,persist.sys.usb.config显示的就是当前系统关于usb选项的系统配置【RK3188Android4.4刚移植的例子】: 全编脚本中make命令会调用build/core/main.mk,在里面可以看到一段…

品鉴中的平衡之美:如何欣赏红酒的口感与风格和谐

品鉴云仓酒庄雷盛红酒的过程,是对其口感与风格和谐的追求和欣赏。平衡是红酒品质的重要标志之一,它体现在红酒的色泽、香气、口感和余味等多个方面。通过欣赏红酒的平衡之美,我们可以更好地领略其精妙之处,感受其带来的美妙滋味。…

sql-labs(11-20)

1.less-11 1.判断类型 根据测试在使用 " 不会报错, 会报错,所以他是字符型的并且被单引号闭合,而且只有用户 登陆成功才会显示数据。所以先尝试报错注入 2.爆数据库 and updatexml(2,concat(0x7e,(select database()),0x7e),2)-- 3.爆数…

C++笔试强训day16

目录 1.字符串替换 2.神奇数 3.DNA序列 1.字符串替换 链接 简单的遍历替换即可&#xff1a; class Solution { public:string formatString(string str, vector<char>& arg) {string ret;int k 0;for (int i 0; i < str.size(); i){if (str[i] %){ret arg…

表格内容高效拆分,自定义行数随心所欲,让数据处理更高效!

在信息化社会的今天&#xff0c;表格成为了我们处理数据、整理信息的重要工具。然而&#xff0c;当表格内容过于庞大时&#xff0c;如何高效地拆分表格内容成为了摆在我们面前的一大难题。传统的拆分方法往往耗时耗力&#xff0c;且难以满足我们个性化的需求。 首先&#xff0…

Q1季度空气净化器行业线上市场(京东天猫淘宝)销售数据分析

随着人们对健康生活方式的追求&#xff0c;以及消费升级的推动&#xff0c;空气净化器市场正在逐步恢复增长态势。 根据鲸参谋数据显示&#xff0c;今年Q1季度空气净化器在线上市场&#xff08;京东天猫淘宝&#xff09;综合销量超90万件&#xff0c;同比去年增长4%&#xff1…

【配置】IT-Tools部署

github地址 docker运行如下&#xff0c;记得打开云服务器的9090端口 docker run -d --name it-tools --restart unless-stopped -p 9090:80 corentinth/it-tools:latestip:9090查看&#xff0c;很香大部分工具都有

react18【系列实用教程】useEffect —— 副作用操作 (2024最新版)

什么是副作用操作&#xff1f; useEffect 用于编写由渲染本身引起的对接组件外部的操作&#xff08;官方称呼为&#xff1a;副作用操作&#xff09; 以下情况会触发页面渲染 初次加载页面&#xff08;组的挂载&#xff09;响应式变量发生变化&#xff0c;触发页面根据新值重新…

代码随想录算法训练营第二十天:二叉树成长

代码随想录算法训练营第二十天&#xff1a;二叉树成长 110.平衡二叉树 力扣题目链接(opens new window) 给定一个二叉树&#xff0c;判断它是否是高度平衡的二叉树。 本题中&#xff0c;一棵高度平衡二叉树定义为&#xff1a;一个二叉树每个节点 的左右两个子树的高度差的绝…

语音网关有哪些?

语音网关是一种网络设备&#xff0c;它使得通过传统的电话网络&#xff08;如公共交换电话网络&#xff0c;PSTN&#xff09;和现代的数据网络&#xff08;如互联网或私有数据网络&#xff09;进行的语音通信成为可能。语音网关的主要作用是在模拟或数字电话信号与数据网络的数…

邓超大胆自嘲让全场观众笑出眼泪

《哈哈哈哈哈》第四季中&#xff0c;邓超大胆自嘲&#xff0c;让全场观众笑出眼泪&#xff01;嫁到上海已久的他&#xff0c;还听不懂上海话&#xff0c;这让老婆孙俪也忍不住笑出声来。这期节目一播出&#xff0c;网友们纷纷表示&#xff1a;“超哥今晚还敢回家吗&#xff1f;…

Oracle 多表查询

关联查询 一、sql:1992语法的连接笛卡尔积等值连接非等值连接自连接外连接 二、sql:1999语法的连接交叉连接自然连接USING创建连接ON创建连接左外连接右外连接FULL OUTER JOININNER JOIN 三、子查询子查询的种类单行子查询多行子查询 在From字句中使用子查询练习 四、行转列 一…