statistic learning outlook

news2025/2/1 9:45:02

supervised learning

  • 贝叶斯估计

  • 决策树与信息熵

    • 信息熵 H ( D ) = − ∑ i = 1 n p ( X = x i ) l o g ( P ( X = x i ) ) = − ∑ p i l o g ( p i ) H(D)=-\sum_{i=1}^n p(X=x_i)log(P(X=x_i))=-\sum p_ilog(p_i) H(D)=i=1np(X=xi)log(P(X=xi))=pilog(pi),信息熵越大,(种类的)不确定度越大,H(D)=0,样本完全确定
    • 对分类问题,按照信息熵 → \to 信息增益比= 1 H A ( D ) g ( D , A ) = 1 H A ( D ) ( H ( D ) − H ( D , A ) ) \frac 1{H_A(D)}{g(D,A)=\frac 1 {H_A(D)} (H(D)-H(D,A))} HA(D)1g(D,A)=HA(D)1(H(D)H(D,A))最大化的原则选择特征,逐级下降形成决策树,
    • 据信息熵的有ID3,C4.5 alg
    • ifC(Tson)>C(Tpat),cut Tson,有CART算法,对regression question,select j,s to minimize ∑ x ∈ R 1 ( j , s ) ( y i − c 1 ) 2 + ∑ x ∈ R 2 ( j , s ) ( y 2 − c 2 ) 2 \sum_{x\in R_1(j,s)} (y_i-c_1)^2+\sum_{x\in R_2(j,s)}(y_2-c_2)^2 xR1(j,s)(yic1)2+xR2(j,s)(y2c2)2
    • to sorting problem,based on G i n i A ( D ) Gini_A(D) GiniA(D)(similar to information entropy),select A to minimize Gini(D),剪枝,select best tree
    • image-20230112095816653
  • logistic

    • logistic采用极大似然估计,和最大熵模型 − ∑ P ~ ( x ) P ( y ∣ x ) l o g P ( y ∣ x ) -\sum\widetilde{P}(x)P(y|x)logP(y|x) P (x)P(yx)logP(yx)(其中P(y|x)满足 E P ( f i ) = E P ~ ( f i ) E_P(f_i)=E_{\widetilde P}(f_i) EP(fi)=EP (fi)),求 m i n P ∈ C   m a x w L ( P , w ) \underset{P\in C}{min}\ \underset{w}{max}L(P,w) PCmin wmaxL(P,w)
    • 对偶问题, m a x w   m i n P ∈ C L ( P , w ) \underset{w}{max}\ \underset{P\in C}{min}L(P,w) wmax PCminL(P,w)
    • m i n P ∈ C L ( P , w ) \underset{P\in C}{min}L(P,w) PCminL(P,w) ,对P(y|x)求导,转化为求 m a x w   ψ ( w ) \underset{w}{max}\ \psi(w) wmax ψ(w)
    • 这一步用improved iterative scaling求 L ( w ) = ∑ x , y P ~ ( x , y ) ∑ i = 1 n w i f i ( x , y ) − ∑ x P ~ ( x ) l o g Z w ( x ) L(w)=\underset{x,y}{\sum}\widetilde P(x,y)\sum_{i=1}^{n}w_if_i(x,y)-\underset{x}{\sum}\widetilde P(x)logZ_w(x) L(w)=x,yP (x,y)i=1nwifi(x,y)xP (x)logZw(x)关于w的极大值,或用拟牛顿法
  • SVM

    • 硬间隔支持向量机、软间隔支持向量机、非线性支持向量机(核方法)
  • Boost方法——组合权重不同的同一种分类器,得到强分类器

  1. Boost与前向分布算法的联系

  2. 二分类学习,boost 错误分类的sample weight和误差率低的分类器权重,可用加法模型、损失函数为指数函数、的前向学习算法解释

  3. 回归学习提升树,
    利用前向分布算法 f m ( x ) = f m − 1 ( x ) + T ( x ; Θ ( m ) ) , Θ ( m ) = a r g m i n Θ ( m ) ( L ( y , f m − 1 ( x i ) + Θ ( x i , Θ ( m ) ) f_m(x)=f_{m-1}(x)+T(x;\Theta(m)),\Theta(m)=arg \underset{\Theta(m)}{min}(L(y,f_{m-1}(x_i)+\Theta(x_i,\Theta(m)) fm(x)=fm1(x)+T(x;Θ(m)),Θ(m)=argΘ(m)min(L(y,fm1(xi)+Θ(xi,Θ(m))
    if loss function=均方误差损失, Θ m = ( R 1 , s 1 ) , . . . , ( R j , s j ) = y − f m − 1 ( x ) ; \Theta_m={(R_1,s_1),...,(R_j,s_j)}=y-f_{m-1}(x); Θm=(R1,s1),...,(Rj,sj)=yfm1(x);commonly ,由lagrange中值公式,残差用 ∂ L / ∂ f m − 1 ( x ) a p p r o a c h \partial L/\partial f_{m-1}(x)approach L/fm1(x)approach

    • EM——极大似然法的迭代求解(要选好初值点),正确性与收敛性的证明,求导干极值点,高斯混合模型的期望表示+极大化,期望极大值对应F函数的极大-极大,迭代可以用其他方式,可用于无监督学习?
  • recessive markov——根据隐变量表示出output的最大似然估计 P ( i , o ∣ θ ) P(i,o|\theta) P(i,oθ),计算其在 P ( i , o ∣ θ ‾ ) P(i,o|\overline\theta) P(i,oθ)下期望,\
    拉格朗日乘子法求极大值得\overline\theta,来估计o对应的i,

  • 维比特算法用动态规划求得state 1,2,…,T(近似alg不能保证整体most probably)

  • conditional random field——T为高维向量 ( X , Y w ) (X,Y_w) (X,Yw)的随机过程(x,t)

    根据状态特征 s l ( y i , x , w ) s_l(y_i,x,w) sl(yi,x,w)和transfer feature t k ( y i − 1 , y i , x , w ) t_k(y_{i-1},y_i,x,w) tk(yi1,yi,x,w)定义条件随机场P(y|x),可以用前向/back学习算法计算, P ( y i ∣ x )   a n d   P ( y i , y i + 1 ∣ x ) P(y_i|x)\ and\ P(y_i,y_{i+1}|x) P(yix) and P(yi,yi+1x),针对 P w ( y ∣ x ) P_w(y|x) Pw(yx)的极大似然估计,梯度下降迭代得w,维比特算法得 y ∗ = a r g m a x y P w ( y ∣ x ) y^*=arg max_{y} P_w(y|x) y=argmaxyPw(yx)

non-supervised learning

Preface
  1. 无监督学习有聚类,降维,用于数据分析/监督学习的前处理

image-20230322105836591

  1. 监督学习的方法→层次聚类+k均值聚类
  2. SVD用于LSA,SVD用于PCA
LSA

  1. LSA👉PLSA,EM用于PLSA👉隐Markov model
  • 以p(z|x)、p(y|x)为参量,单词-文本的出现次数为因变量,对数似然估计,数值解
  1. 图的随机游走就是条件随机场吗?什么是PageRank
  • 普通的markov模型,(p1,…,pk)n+1=(p1,…,pk)n·A → 特征值分解后,类似裂项相消
  • 平稳分布的充要性?非周期,不可约
Stochastic P review

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • 问题与Improve——随机图上马尔科夫链未必具有平稳分布

​ ==?==添加一个等概率因子就可以避免

  • 什么是迭代计算→名字,什么是代数计算👉R=dMR+ 1 − d n 1 ⃗ \frac {1-d}n \vec1 n1d1
  • R模型已定,如果让我门估计,未知数为参量,用对数似然或平方为损失函数,梯度下降极值得估计
SVD的性质
  1. 我们的终极Boss👉LDA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/999865.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

帮助中心管理系统,人人都能用的知识管理平台

帮助中心管理系统是一种知识管理平台,旨在帮助企业有效组织和管理知识资源,使其能够为客户和员工提供快速、准确的帮助和支持。 关于帮助中心管理系统的重要特点和优势: 知识库管理: 帮助中心管理系统允许企业将知识组织和分类…

Vue3+Ts+Vite项目(第十二篇)——echarts安装与使用,vue3项目echarts组件封装

概述 技术栈:Vue3 Ts Vite Echarts 简介: 图文详解,教你如何在Vue3项目中引入Echarts,封装Echarts组件,并实现常用Echarts图例 文章目录 概述一、先看效果1.1 静态效果1.2 动态效果 二、话不多数,引入 …

Linux 内核 6.5 发布,首次支持 Wi-Fi 7 和 USB4

导读Linux 6.5 内核 已经推出,此次更新在 Linux 6.4 内核的基础上进行了进一步的开发,带来了值得注意的改变和新特性。 Linus Torvalds 表示,这是一次相对顺畅的发布: 上周并没有发生任何异常或惊人的事情,因此没有理…

大数据之yarn

Yarn概述 是一个资源调度平台,相当于一个分布式的操作系统平台,而MR相当于操作系统中运行的软件,比如QQ、微信。 基础架构 ResourceManager 处理客户端请求监控NodeManager启动或监控ApplicationMaster资源的分配与调度 NodeManager 管理单…

CSC关于进一步优化国家公派出国留学服务管理工作的通知

近日国家留学基金委(CSC)在其官网上发布了“关于进一步优化国家公派出国留学服务管理工作的通知”(https://www.csc.edu.cn/chuguo/s/2676),知识人网小编原文转载如下。 为进一步优化国家公派出国留学人员有关服务管理…

【开箱即用】开发了一个基于环信IM聊天室的Vue3插件,从而快速实现仿直播间聊天窗功能

前言 由于看到有部分的需求为在页面层,快速的引入一个包,并且以简单的配置,就可以快速实现一个聊天窗口,因此尝试以 Vue3 插件的形式开发一个轻量的聊天窗口。 这次简单分享一下此插件的实现思路,以及实现过程&#xf…

Elasticsearch近实时架构

1 Elasticsearch 与 Lucene 的结构理解 一个Elasticsearch索引由一个或多个分片(shards)组成。这些分片可以是主分片(primary shard)或副本分片(replica shard)。每个分片都是一个独立的Lucene索引&#xf…

什么是Docker和Docker-Compose?

Docker的构成 Docker仓库:https://hub.docker.com Docker自身组件 Docker Client:Docker的客户端 Docker Server:Docker daemon的主要组成部分,接受用户通过Docker Client发出的请求,并按照相应的路由规则实现路由分发…

Shell命令切换root用户、管理配置文件、检查硬件

Shell命令切换root用户、管理配置文件、检查硬件 切换root用户 两种方法 su命令详细介绍 sudo命令详细介绍 /etc/passwd文件 /etc/passwd文件里为什么有乱七八糟的用户? /etc/shadow文件 管理配置文件 检查硬件命令 查看CPU 查看GPU 与其他基于UNIX的系统…

【Java基础篇 | 面向对象】—— 继承

个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【JavaSE_primary】 本专栏旨在分享学习JavaSE的一点学习心得,欢迎大家在评论区讨论💌 继承允许一个类继承另一个…

buuctf crypto 【[HDCTF2019]basic rsa】解题记录

1.打开文件 2.套用脚本 import random from binascii import a2b_hex,b2a_hex p 262248800182277040650192055439906580479 q 262854994239322828547925595487519915551 n p * q def multiplicative_inversr(a,b): x 0 y 1 lx 1 ly 0 oa a ob…

Python项目开发:Flask基于Python的天气数据可视化平台

目录 步骤一:数据获取 步骤二:设置Flask应用程序 步骤三:处理用户输入和数据可视化 步骤四:渲染HTML模板 总结 在这个数字化时代,数据可视化已经成为我们理解和解释信息的重要手段。在这个项目中,我们…

干了三年的功能测试,让我女朋友跑了,太难受了...

简单概括一下 先说一下自己的情况,普通本科,19年通过校招进入深圳某软件公司,干了3年多的功能测试,21年的那会,因为大环境不好,我整个人心惊胆战的,怕自己卷铺盖走人了,我感觉自己不…

解疑答惑:独立部署类型的商城系统有哪些优势?

数字化时代,电子商务已成为企业蓬勃发展的重要组成部分。 为了满足不断增长的在线购物需求,企业需要一个强大而可靠的商城系统。独立部署类型的商城系统因其独特的优势而备受青睐。下面就独立部署商城系统的优势作一些简单介绍,并解释为什么它…

Python中使用item()方法遍历字典的例子

前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 这篇文章主要介绍了Python中使用item()方法遍历字典的例子, for…in这种是Python中最常用的遍历字典的方法了,需要的朋友可以参考下 Python字典的遍历方法有好几种,其中一种是for…in,这个我就…

修改图片尺寸的几个简单方法

修改图片尺寸的几个简单方法~~图片,是我们常用的文件格式,也是日常生活与工作中重要的文件。图片记录了非常多的元素和内容,其中不乏有工作上的内容,也有对一些日常生活的记录。所以说,图片文件对我们来说是非常重要的…

使用轻薄款电子价签,有什么样的改价体验?

在数字化的潮流之中,「轻薄」逐渐成为ESL电子标签的强大优势,让商品管理更高效,货架保持统一高端的形象。云里物里最新发布了一款纤薄ESL电子标签,DS029厚度仅有9.8mm,在36g的轻巧身躯上融入了强大功能,将为…

FirmAFL

FirmAFL使用并改进了Firmdyne模拟方式,并利用AFL对IoT固件实施高通量灰盒Fuzzing。 一、项目简介 FIRM-AFL 是 第一个针对物联网固件的高吞吐量灰盒模糊测试器。 支持mipsel、mipseb和armel三种CPU架构 ,涵盖Firmadyne数据库中90.2%的固件。 FIRM-AFL 解…

学习笔记-配置备份静态路由及优先级

上一个笔记:学习笔记-静态路由配置有来无回导致无法访问目标IP 拓扑图: 书接上回。 模拟R2至R3之间的链路中断,配置备份路由通过R1访问R3。 shutdown掉R2的gi0/0/2端口,模拟链路中断。pingR3的gi0/0/0和R3的loopback0&#xff…

想修复Windows 10屏幕分辨率问题?这里有5种方法供你选择!

​一般来说,如果你愿意,你可以很容易地更改Windows 10计算机的屏幕分辨率。如果你发现你无法在Windows 10中更改分辨率,你可以查看下面的解决方案来解决这个问题。 检查和更改Windows 10屏幕分辨率上 一、你可以右键单击桌面的黑色空间,然后选择“显示设置”。单击“分辨…