正态分布,二维正态分布,卡方分布,学生t分布——概率分布学习 python

news2024/10/5 23:27:47

目录

基本概念

概率密度函数(PDF: Probability Density Function)

累积分布函数(CDF: Cumulative Distribution Function)

核密度估计((kernel density estimation)

1.正态分布

概率密度函数(pdf)

正态分布累积分布函数(CDF)

正态分布核密度估计(kde)

正态分布四则运算

二维正态分布(逐渐补充)

马氏距离

2.卡方分布

概率密度函数(pdf):

 卡方分布表:

卡方分布相关计算

生成卡方分布随机数

3.学生t分布

概率密度函数(pdf):


基本概念

概率密度函数(PDF: Probability Density Function)

连续随机变量的概率分布特性。

累积分布函数(CDF: Cumulative Distribution Function)

在x点左侧事件发生的总和。

CDF特性:

①因为累计分布函数是计算x点左侧的点的数量,所以累计分布函数CDF是单调递增的。

②所有的CDF中,在x趋近-∞时,CDF趋近于0,当x趋近+∞时,CDF趋近于1。

③对于给定的数据集,CDF是唯一的

核密度估计((kernel density estimation)

核密度估计(kernel density estimation,KDE)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,通过核密度估计图可以比较直观的看出数据样本本身的分布特征。

scipy中的stats.gaussian_kde可以计算高斯核函数的密度函数,而且提供了直接计算区间的累计密度函数,integrate_box_1d(low=-np.Inf, high=x)。

1.正态分布

表示为:N\sim \left ( \mu ,\sigma^2 \right ),其中期望为μ,方差为\sigma^2

概率密度函数(pdf)

f(x)=\frac{1}{\sigma \sqrt{2\pi } } e^{-\frac{(x-\mu)^2}{2\sigma^2} }

python画图效果及代码(包含随机数生成):

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
import matplotlib.cm as cm
import math
import scipy.stats as stats
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

################################                正态分布             ###########################
# 根据均值、标准差,求指定范围的正态分布概率值
def normfun(x, mu, sigma):
    pdf = np.exp(-((x - mu)**2)/(2*sigma**2)) / (sigma * np.sqrt(2*np.pi))
    return pdf
np.random.seed(0)   ##  定义一个随机数种子
result = np.random.normal(loc=10, scale=16, size=1000) # 均值为0.5,方差为1
# 设定 x,y 轴,载入刚才的正态分布函数
x = np.arange(min(result), max(result), 0.1)
y = normfun(x, result.mean(), result.std())
plt.plot(x, y) # 这里画出理论的正态分布概率曲线
plt.hist(result, bins=20, rwidth=0.8, density=True)     ##  柱状图
plt.title('distribution')
plt.xlabel('temperature')
plt.ylabel('probability')
plt.show()

正态分布累积分布函数(CDF)

################################                累积分布函数cdf             ###########################
#计算正态概率密度函数在x处的值
def norm_dist_prob(theta):
    y = stats.norm.pdf(theta, loc=np.mean(data), scale=np.std(data))
    return y

#计算正态分布累积概率值
def norm_dist_cdf(theta):
    y = stats.norm.cdf(theta,loc=np.mean(data), scale=np.std(data))
    return y
##  数据生成
data = np.random.normal(loc=0.0, scale=10, size=1000)

x = np.linspace(stats.norm.ppf(0.01,loc=np.mean(data), scale=np.std(data)),
                stats.norm.ppf(0.99,loc=np.mean(data), scale=np.std(data)), len(data))  #linspace() 函数返回指定间隔内均匀间隔数字的 ndarray。

y1=norm_dist_prob(x)
y2=norm_dist_cdf(x)
plt.plot(x, y1,'g', label='pdf')
plt.plot(x, y2,'r', label='cdf1')
#或
sns.kdeplot(data,cumulative=True, label='cdf2')
plt.legend()

正态分布核密度估计(kde)

################################                核密度估计             ###########################
##  数据生成
data = np.random.normal(loc=0.0, scale=10, size=1000)
##  本程序是根据数据进行概率密度估计
density = stats.gaussian_kde(data)   #, bw_method=None, weights=[i[4] for i in data1]
density.covariance_factor = lambda : .25    #   lambda : .25
density._compute_covariance()
density.set_bandwidth(bw_method='silverman')        ##  调用set_bandwidth 后计算的新带宽用于估计密度的后续评估。可选‘scott’, ‘silverman’
xs = np.linspace(min(data), max(data), 200)
fig, ax = plt.subplots()
ax.plot(xs, density(xs), 'r')
ax.fill_between(xs, density(xs), color="r", alpha=0.1)
ax.hist(data, bins=30, rwidth=0.96, density =True, alpha=0.6,color = 'steelblue', edgecolor = 'w', label = 'dimensional histogram statistic ')

##  或者用seaborn
fig, ax = plt.subplots()
sns.distplot(data, hist=True, kde=True, rug=True, bins=20, ax=ax)
#   通过hist和kde参数调节是否显示直方图及核密度估计(默认hist,kde均为True)
#   bins:int或list,控制直方图的划分
#   rug:控制是否生成观测数值的小细条
#   ax = sns.distplot(x, rug=True, rug_kws={"color": "g"},
#        ...                   kde_kws={"color": "k", "lw": 3, "label": "KDE"},
#        ...                   hist_kws={"histtype": "step", "linewidth": 3,
#        ...                             "alpha": 1, "color": "g"})fig, ax = plt.subplots()

正态分布四则运算

 两个相互独立的正态分布分别满足

X\sim N(\mu_1,\sigma_1^2), Y\sim N(\mu_2,\sigma_2^2)

则:

E(X+Y)=EX+EY=\mu_1+\mu_2

D(X+Y)=DX+DY=\sigma_1^2+\sigma_2^2

E(XY)=\frac{\sigma_1^2\mu_2+\sigma_2^2\mu_1}{\sigma_1^2+\sigma_2^2}

D(XY)=\frac{\sigma_1^2\sigma_2^2}{\sigma_1^2+\sigma_2^2}

二维正态分布(逐渐补充)

(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho )

其生成及协方差椭圆的python实现如下:

################################                二维正态分布             ###########################
from matplotlib.patches import Ellipse
def get_error_ellipse_parameters(cov, confidence=None, sigma=None):
    """Returns parameters of an ellipse which contains a specified
    amount of normally-distributed 2D data, where the data is
    characterised by its covariance matrix.
    
    Parameters
    ----------
    cov : array_like
        Input covariance matrix of shape (2,2)
    confidence : float
        Fraction of data points within ellipse. 0 < confidence < 1.
        If confidence is not given, it is calculated according to sigma.
    sigma : float
        Length of axes of the ellipse in standard deviations. If 
        confidence is also given, sigma is ignored.
    
    Returns
    -------
    semi_major : float
        Length of major semiaxis of ellipse.
    semi_minor : float
        Length of minor semiaxis of ellipse.
    angle : float
        Rotation angle of ellipse in radian.
    confidence : float
        Fraction of data expected to lie within the ellipse.
    sigma : float
        Length of major and minor semiaxes in standard deviations.
    """
    cov = np.array(cov)
    if(cov.shape != (2,2)):
        raise ValueError("The covariance matrix needs to be of shape (2,2)")
    if(confidence == None and sigma == None):
        raise RuntimeError("One of confidence and sigma is needed as input argument")
    if(confidence and sigma):
        print("Argument sigma is ignored as confidence is also provided!")
    
    if(confidence == None):
        if(sigma < 0):
            raise ValueError("Sigma needs to be positive")
        #scaling = np.square(sigma)
        scaling = sigma
        confidence = stats.chi2.cdf(scaling, 2)
    if(sigma == None):
        if(confidence > 1 or confidence < 0):
            raise ValueError("Ensure that confidence lies between 0 and 1")
        scaling = stats.chi2.ppf(confidence, 2)
        #sigma = np.sqrt(scaling)
        sigma = scaling
    eigenvalues, eigenvectors = np.linalg.eig(cov)
    maxindex = np.argmax(eigenvalues)
    vx, vy = eigenvectors[:, maxindex]
    angle = np.arctan2(vy, vx)
    semi_minor, semi_major = np.sqrt(np.sort(eigenvalues) * scaling)
    print("With sigma = {:.3f}, {:.1f}% of data points lie within ellipse.".format(sigma, confidence * 100))
    return semi_major, semi_minor, angle, confidence, sigma

mu = [1,2]
cov = [[50,30],[30,50]] #sigma
#   随机数生成
z = stats.multivariate_normal(mu, cov)
data_points = z.rvs(size = 5000)

fig, ax = plt.subplots()
plt.scatter(data_points[:,0], data_points[:,1], alpha = .5)

#   画置信度椭圆
confidence = 0.95
semi_major, semi_minor, angle, confidence, sigma = get_error_ellipse_parameters(cov, confidence = confidence)
ax.add_patch(Ellipse(mu, 2*semi_major, 2*semi_minor, 180*angle/np.pi, facecolor = 'none', edgecolor = 'red', label = 'Confidence = {:.0f}% (sigma = {:.2f})'.format(confidence * 100, sigma)))
sigma = 1
semi_major, semi_minor, angle, confidence, sigma, = get_error_ellipse_parameters(cov, sigma = sigma)
ax.add_patch(Ellipse(mu, 2*semi_major, 2*semi_minor, 180*angle/np.pi, facecolor = 'none', edgecolor = 'yellow', label = 'Sigma = {:.0f} (confidence = {:.1f}%)'.format(sigma, confidence * 100)))
plt.legend()
plt.show()

马氏距离

计算马氏距离(Mahalanobis Distance)。一维马氏距离定义为:

\sqrt{(u-v)V^{-1}(u-v)^{T}}

iv = [[1, 0.5, 0.5], [0.5, 1, 0.5], [0.5, 0.5, 1]]
md = distance.mahalanobis([1, 0, 0], [0, 1, 0], iv)
print(md)
#   或
p = np.array([1,1])
distr = np.array([2,2])
cov = [[1,0.2],
        [0.2,1]]
dis = distance.mahalanobis(p, distr, cov)
# p: 一个点    
# distr : 一个分布    
# 计算分布的协方差矩阵    
#cov = np.cov(distr, rowvar=False)    
# 选取分布中各维度均值所在点    
#avg_distri = np.average(distr, axis=0)    
print(dis)

2.卡方分布

卡方分布,也写作:\chi ^2分布。服从自由度为n的卡方分布,记作\chi ^2\sim \chi ^2\left ( n \right ),其均值为 n,方差为2n。

若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布N(0,1),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。

 直观说:如果 X1,X2,X3...X„是 n个具有标准正态分布的独立变量,那么其平方和V=X_1^2+X_2^2+...+X_n^2,满足具有n个自由度的\chi ^2分布。

概率密度函数(pdf):

f_n(x)=\left\{\begin{matrix} \frac{1}{2\Gamma (n/2)}{(\frac{x}{2} )}^{\frac{n}{2}-1 }e^{-\frac{x}{2} } &,x>0 \\ 0&,x\le 0 \end{matrix}\right.

其中,\Gamma是Gamma函数,n为自由度,一般情况x\ge 0

\Gamma (\alpha )=\int_{0}^{+\infty } x^{\alpha-1}e^{-x}dx

################################                卡方分布             ###########################
for PDF in range(1,8):
    plt.plot(np.linspace(0,15,100),stats.chi2.pdf(np.linspace(0,15,100),df=PDF),label='k='+str(PDF))
plt.tick_params(axis="both",which="major",labelsize=18)
plt.axhline(y=0,color="black",linewidth=1.3,alpha=.7)
plt.legend()

 卡方分布表:

卡方分布相关计算

##  卡方分布相关计算
#   累积分布函数
x = stats.chi2.cdf(5.991, df=2)
#   百分比点函数(与cdf—百分位数相反)
a = stats.chi2.ppf(0.95, df=2)  
print(x,a)

生成卡方分布随机数

#生成随机数
r = stats.chi2.rvs(df=df, size=1000)

3.学生t分布

Student's t-distribution,简称为t分布。

假设随机变量Z服从标准正态分布N(0,1),另一随机变量V服从m自由度的\chi ^2分布,进一步假设Z和 V 彼此独立,则下列的数量t服从自由度为m的学生t分布:

概率密度函数(pdf):

t=\frac{Z}{\sqrt{V/m} } \sim t(m)

################################                t分布             ###########################
x = np.linspace( -3, 3, 100)
plt.plot(x, stats.t.pdf(x,1), label='df=1')
plt.plot(x, stats.t.pdf(x,2), label='df=20')
plt.plot(x, stats.t.pdf(x,100), label = 'df=100')
plt.plot( x[::5], stats.norm.pdf(x[::5]),'kx',  label='normal')
##  累积分布函数cdf
y = stats.t.cdf(x,df=100, loc=0, scale=1)
plt.plot(x,y, label='cdf')
plt.legend()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/30691.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

山东大学软件学院操作系统课程设计(2021秋季,nachos)实验6

一、实验内容 二、源码分析 1. 理解nachos单线程地址映射机制 Machine::Run()中调用Machine::OneInstruction(Instruction *instr)逐条执行可执行文件中的指令&#xff0c;执行指令过程中和获取下一条指令时如果访问内存&#xff0c;通过machine->ReadMem(…)/WriteMem(……

嵌入式开发学习之--用蜂鸣器来传递摩斯码

本篇文章致力于从开发的角度思考问题&#xff0c;而不是搞学术的东西。 文章目录前言一、项目概况1.1、项目需求1.2、项目来源1.3、项目开发环境1.4、项目意义二、开发步骤2.1、了解什么是摩斯码2.2、构建项目流程图2.3、找到合适的模板2.4、增加文件2.5、添加代码2.6、读入数据…

学生HTML个人网页作业作品 (水果商城HTML+CSS)

&#x1f380; 精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业…

通过写循环判断对称数:将一个整型数逆置,我们判断逆置后的整型数如果和最初的数相等,那么它就是对称数,如果不相等,就不是对称数

将一个整型数逆置&#xff0c;我们判断逆置后的整型数如果和 最初的数相等&#xff0c;那么它就是对称数&#xff0c;如果不相等&#xff0c;就不是对称数#include <stdio.h>int main() {int i,j0;scanf("%d",&i);int ki;//备份写在scanf之后while(i){jj*1…

Dubbo入门实战(SpringBoot + Nacos)

本文主要介绍 Dubbo 3.0 整合 SpringBoot 的样例&#xff0c;这里使用 Nacos 作为注册中心&#xff0c;读者也可以使用 Zookeeper&#xff0c;项目结构为&#xff1a; interface-service&#xff1a;接口服务user-service-provider&#xff1a;服务提供者order-service-consume…

浅谈中小企业的供应商管理

一、供应商管理的概念 供应商管理&#xff0c;是在新的物流与采购经济形势下&#xff0c;提出的管理机制。现代管理学如MBA、EMBA等将其分为竞争式及双赢式两种模式。供应商管理是供应链采购管理中一个很重要的环节&#xff0c;它在实现准时化采购中有很重要的作用。供应商管理…

Linux | 进程间通信 | 匿名管道 | 命名管道 | 模拟代码实现进程通信 | 控制多子进程时的资源回收问题

文章目录进程通信的意义匿名管道通信原理管道的访问控制进程控制管道的特点命名管道进程通信的意义 之前聊进程时&#xff0c;讲过一个性质&#xff0c;即进程具有独立性&#xff0c;两个进程之间的交互频率是比较少的。就连父子进程也只是共享代码&#xff0c;修改父子进程中…

Bezier曲线与B-Spline曲线

贝塞尔曲线 一阶贝塞尔曲线P01P_0^1P01​由两个控制点P0P_0P0​和P1P_1P1​完全定义&#xff0c;相当于线性插值。随着ttt从0到1变化&#xff0c;贝塞尔点从P0P_0P0​移动到P1P_1P1​. P01(1−t)P0tP1,t∈[0,1]P_{0}^{1}\left( 1-t\right) P_{0}tP_{1}\quad,t\in[0,1] P01​(1−…

服务器是什么

服务器是什么 服务器是什么&#xff1a;服务器英文名称为“Server”&#xff0c;指的是网络环境下为客户机(Client)提供某种服务的专用计算机&#xff0c;服务器安装有网络操作系统(如Windows Server、Linux、Unix等)和各种服务器应用系统软件(如Web服务、电子邮件服务)&#…

操作系统:进程的创建(fork函数)、进程的替换(exec函数)、进程的阻塞(wait函数)、进程的终止(exit函数)、进程的挂起(sleep函数)

文章目录1.进程的创建2.进程的替换3.进程的阻塞4.进程终止5.进程的挂起1.进程的创建 ①调用fork函数的进程为父进程&#xff0c;调用后生成一个子进程&#xff1b; ②创建子进程成功时&#xff0c;父进程中fork函数的返回值是子进程的进程号PID&#xff1b; ③创建子进程失败时…

关于Java代码如何项目部署

在研究注解的时候会用到反射&#xff0c;在学习反射的时候会涉及到关于class文件的生成&#xff0c;以及Class文件是如何被执行的等一系列关于文件转换的问题&#xff0c;接下来就借助学习反射来学习一下项目整体部署的过程和每个阶段要生成的文件. 我们写的代码写完并测试之后…

粒子群算法求解电力系统环境经济调度+微电网调度(风、光、电动车、柴油机、主网)(Python代码实现)

目录 1 电力系统环境经济调度数学模型 2 改进粒子群算法解决 2.1 知识回顾 2.2 案例1——IEEE6节点 2.3 案例2——IEEE10 2.4 案例3——IEEE40 3 Python代码 1 电力系统环境经济调度数学模型 2 改进粒子群算法解决 2.1 知识回顾 先回顾一下相关知识点&#xff1a; *智…

打开网站出现Internal Server Error的原因和解决方法

打开网站出现Internal server error 500错误&#xff0c;通常是服务端出现一些未知异常&#xff0c;但是在检查的时候我们不能仅仅只是关注应用服务&#xff0c;而是要关注从服务端接收请求开始&#xff0c;一直到应用服务的整条链路。 程序文件中的权限问题导致Internal Serv…

正确的PMP®答题思路——让你考试更轻松

想要考取PMP的小伙伴们&#xff0c;大家现在复习的如何呢&#xff1f;是不是还在不断刷题呢&#xff1f;做题不单单需要充足的知识储备&#xff0c;更需要正确的答题思路&#xff0c;今天小编给大家整理了PMP考试答题的一些思路&#xff0c;想要考取PMP的小伙伴们快来看看吧&am…

Wireshark过滤器语法

1.官网地址 点击进入 2.捕获过滤器 使用捕获过滤器Wireshark只捕获满足过滤器条件的数据包进来。捕获过滤器采用BPF语法表达式&#xff0c;表达式由如下及部分组成: Dir 指明传输方向是前往还是来自 例如&#xff1a;src、dst Type 指出名字或数字所代表的意&#xff0c;例如…

SpringCloud微服务(七)——Bus服务消息总线

SpringCloud Bus动态刷新全局广播 SpringCloud Spring Cloud Bus配合Spring Cloud Config使用可以实现配置的动态刷新&#xff0c;通知一处&#xff0c;处处生效。而不用一个一个去通知。 Spring Cloud Bus是消息总线&#xff0c;广播通知都可以集成&#xff0c;不止用于实现…

java项目测试成功后部署到服务器上的相关问题

1.java项目是如何部署给用户使用的? 前提&#xff1a; 以一个web项目为例&#xff0c; 使用工具&#xff1a;开发工具&#xff1a;IDEA&#xff1b;Tomcat&#xff08;应用服务器&#xff09;&#xff1b;Navicat&#xff08;数据库&#xff09;&#xff1b;Jenkins&#xff…

CDMP考试需不需要参加培训课程?培训机构哪家比较好?

参加CDMP认证考试到底要不要参加培训课程&#xff0c;身边的很多同学都参加了培训班&#xff0c;我要参加吗&#xff1f;总是会有很这样的人提出这样的问题。 那么&#xff0c;我想说考试的结果不在于你定什么样的目标&#xff0c;如何做计划&#xff0c;而在于你何时开始行动…

Flutter高仿微信-第26篇-新的朋友

Flutter高仿微信系列共59篇&#xff0c;从Flutter客户端、Kotlin客户端、Web服务器、数据库表结构、Xmpp即时通讯服务器、视频通话服务器、腾讯云服务器全面讲解。 详情请查看 效果图&#xff1a; 实现代码&#xff1a; /*** Author : wangning* Email : maoning20080809163.c…

智慧餐厅解决方案-最新全套文件

智慧餐厅解决方案-最新全套文件一、建设背景二、建设思路1、刺激消费手段单一2、用户信息反馈量少3、商家推广覆盖面小4、生产力利用率偏低三、建设方案1 、组织人事在线管理&#xff0c;盘活内部人力资源2、多样化考勤方式&#xff0c;轻松实现多地工时管理3、数据成本分析&am…