光谱分析的统计学角度-1-统计学导论

news2024/11/20 8:46:31

        统计分析以可见或不可见的形式存在于我们生活的各个方面,其可见的形式有数字化、图形化等分析方法,不可见的形式包括经验、常识和感觉。对于以实验数据为基础的光谱分析方法,统计分析是其理论分析和工程应用的基础,如何从统计学的角度去收集、处理、分析和理解光谱数据是每一位光谱学习者的最终目的,也是基本要求。从本期开始,作者从个人理解出发,以统计学原理为指导,从统计学角度去理解实际观测中的光谱分析,期待跟广大读者互相学习,共同进步,若存在不足,欢迎私信或者联系个人邮箱yql025@foxmail.com。

        1. 统计及其应用领域

        统计是收集、处理、分析、解释数据并从数据中得出结论的科学。其中数据收集是指设计实验或者自然采样取得统计数据;数据处理是将数据用图表等形式呈现出来;数据分析则是选择合适的统计方法研究数据,并从数据中提取有用信息进而得出关键结论。

        对于光谱分析而言,数据收集包括试验设计、过程\自然采样,还包括理化指标分析等;数据处理包括数据格式转换、异常值分析、预处理、光谱融合和光谱增强等;数据分析则指光谱降维、特征选择、特征融合、建模、预测、模型维护等工作,同时还包括根据数据分析结果获得相关结果。

        值得一提的是,数据分析方法可分为描述统计方法和推断统计方法,其中描述统计研究的是数据收集、处理、汇总、图表可视化、概况与分析等统计方法,比如收集样本的理化指标分布,光谱特征峰的耦合关系等;推断统计方法研究的是如何利用现有样本推断总体特征的统计方法,比如一批次苹果的糖度,这只能从已采集的有限样本来推断整体,无法做到整体样本的抽取,一是实际成本,二是这样做从统计学角度来说是不可行的。

        统计分析已被应用于光谱分析的各个环节,包括数据分析、建模、应用等。但是在将统计学方法用于光谱分析过程时,需要注意以下两点:
         1. 统计分析是方法,不是结论,不能为自己想要的结论寻找方法;
         2. 统计分析需要专业知识才能发挥最大作用,一个结果的解释是多方面的,也就是多角度的,最可信、最合理、最正确的就是结合分析对象背景的分析和阐述。

        2. 统计数据的类型

        按照目前所采用的计量尺度的不同,可将统计数据分为以下3大类:
        (1)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,表现形式为类别。例如,对于光谱数据及其属性,太平猴魁茶的主要产地有猴坑、猴岗、颜家等6个地方,某地区主要供应的苹果可分为烟台红富士、阿克苏糖心、静宁红富士3类。为便于统计处理,主要是建模部分,可用数字代码来表示各个类别,例如产业产地依次可表示为1、2、3、4、5和6,当然,你也可以表示为10、20等。

        (2)顺序数据:只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但是这些类别市有序的。比如黄山毛峰茶分为特级一等、特级二等、特级三等以及一、二、三等,某市场产品可分为一等品、二等品和三等品等。同样,顺序数据可以用数字代码表示。

        (3)数值型数据:按数字尺度测量的观测值,其结果为具体的数值。比如,苹果的糖度、茶叶的茶多酚含量等。

        按照数据的收集方法,可分为观测数据和实验数据,两者的区别在于前者没有人为控制的条件设置,例如社会经济现象,自然条件下的样品属性,实际案例包括松茸蛋白质含量检测,此处的松茸指野生的松茸,不是载育的姬松茸,而后者则是在实验中控制实验对象而收集到的数据,例如重金属胁迫下的光谱残留检测等。

        按照被描述的现象和时间的关系,可分为界面数据和时间序列数据,前者是在相同或者相近的时间点收集的数据,多指不同空间维度,高光谱可理解为此类数据;时间序列是在不同时间收集到的数据,通过按时间顺序收集数据用于描述分析对象随时间变化的情况。光谱分析中的大部分数据是时间序列数据,在部分高光谱、遥感等多维、地空光谱感知领域会涉及到界面数据分析。

        3. 统计学中的基本概念

        (1) 总体(population):包含所研究对象的全部个体的集合。根据所包含的单位数目是否可数分为有限总体和无限总体,有限总体指的是总体的范围能够明确确定,而且元素的数目是可数的,例如某批进口商品的属性预测,其是可数的有限样本。无限总体指的是总体所包含的元素是无限的、不可数的,例如,某重金属胁迫下的残留检测中浓度的设置范围是不可数的,所构成的样本总体是无限总体。

        (2)样本(sample)则指的是从总体中抽取的一部分元素的集合,对应的数目就是样本量,在光谱分析中,抽样的目的是样本提供的信息推断总体的特征,也就是根据选择的样本的信息推断未选择样本。

        (3)参数(parameter):用于描述总体特征的概括性数字度量,是我们对总体的特征的某种参数化表征,通常包括总体平均数、总体标准差、总体比例等。值得注意的是,总体参数通常用希腊字母表示,例如平均数用 \mu ,标准差用 \sigma等,通常来说,这些参数是未知的。

        (4)统计量(statistic):用于描述样本特征的概括性数字度量,其基于样本数据进行分析,由于实际分析中抽样是随机进行的,因此统计量是样本的函数,这些统计量通常用英文字母表示。在光谱分析中,我们关心的指标的平均值 \bar{x}、标准差s等都是样本统计量。

        由于参数是未知的,也是不可知的,通常用统计量去近似参数,根据大数定律,当采样数目取决于无穷时,统计量即为参数。

        (5)变量(variab):说明现象的某种特征,其取值可分为分类变量、顺序变量和数值型变量,光谱定性分析中涉及分类变量和顺序变量,而定量分析中则多为数值型变量,例如吸光度大小,糖分浓度等。

        此外,可从其他角度去描述光谱数据,但是为便于后期理解和应用,多采样常规的分析指标和描述参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/686466.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络安全能力成熟度模型介绍

一、概述 经过多年网络安全工作,一直缺乏网络安全的整体视角,网络安全的全貌到底是什么,一直挺迷惑的。目前网络安全的分类和厂家非常多,而且每年还会冒出来不少新的产品。但这些产品感觉还是像盲人摸象,只看到网络安…

综合使用各类方法,彻底关闭win10自动更新

目录 一:禁用window update服务 二:在策略中关闭win10自动更新的相关设置 三:任务计划内的Win10更新 四:在注册表中关闭Win10自动更新 结果: 另一种针对注册表的方法: 各个网站文章,作者找了很久…

elementUI中el-upload的使用以及遇到的坑(手动上传案例)

做项目时遇到一个需求,支持同时上传多个图片。element-ui 的 upload 组件支持多选文件,只需要配置参数 multiple 为 true 即可。但是这个组件默认会将多选的文件分多次进行上传,于是就会存在多次的上传请求(即同时上传3个文件&…

46从零开始学Java之静态代码块和静态类、静态导入

作者:孙玉昌,昵称【一一哥】,另外【壹壹哥】也是我哦 千锋教育高级教研员、CSDN博客专家、万粉博主、阿里云专家博主、掘金优质作者 前言 在上一篇文章中,壹哥给大家讲解了static静态关键字,以及静态变量、静态常量和…

C4.5算法

假设我们有一个关于餐厅顾客的数据集,其中包括9个样本,每个样本有3个属性:天气、是否有预订和是否是周末,以及一个类别标签,表示该顾客是否会来餐厅(是或否)。 数据集如下: 使用C4.5算法来构建…

DAMO-YOLO:一种平衡速度和准确性的新目标检测框架

DAMO-YOLO:一种平衡速度和准确性的新目标检测框架 1.介绍2.关键技术2.1. NAS主干网络:MAE-NAS2.2. Large Neck:RepGFPN2.3. Small Head:ZeroHead2.4. 标签分配:AlignOTA2.5 模型蒸馏 3.性能效果展示 作者:K…

CART算法

假设我们有一个二元分类问题,数据集包含以下四个样本: 特征1特征2类别0.20.310.40.500.60.700.80.90 可以使用CART算法来建立一个决策树模型。 1、首先,我们需要选择一个特征和阈值来对数据集进行划分。假设我们选择特征1和阈值0.5&#x…

基于Java中国咖啡文化宣传网站设计实现(源码+lw+部署文档+讲解等)

博主介绍: ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精…

IDEA创建maven工程JDBC连接MySQL数据库中的遇到的问题以及相应的解决方案

首先创建一个maven工程 然后点击进入pom.xml文件&#xff0c;输入安装依赖。 输入数据库配置文件原码&#xff1a; <dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>5.1.49</version>…

Docker 中的 .NET 异常了怎么抓 Dump

一&#xff1a;背景 1. 讲故事 有很多朋友跟我说&#xff0c;在 Windows 上看过你文章知道了怎么抓 Crash, CPU爆高&#xff0c;内存暴涨 等各种Dump&#xff0c;为什么你没有写在 Docker 中如何抓的相关文章呢&#xff1f;瞧不上吗&#xff1f; 哈哈&#xff0c;在DUMP的分…

Flutter 组件(三)按钮类组件

Flutter开发笔记 Flutter 组件&#xff08;三&#xff09;按钮类组件 - 文章信息 - Author: Jack Lee (jcLee95) Visit me at: https://jclee95.blog.csdn.netEmail: 291148484163.com. Shenzhen ChineAddress of this article:https://blog.csdn.net/qq_28550263/article/det…

Prophet 时间序列预测框架入门实践笔记

1. Prophet时间序列预测框架概述 Prophet是Facebook开源的一种时间序列预测框架&#xff0c;旨在使时间序列分析更加容易和快速。Prophet可以处理具有多个季节性和突发事件的时间序列数据&#xff0c;并且在数据缺失或异常情况下仍然能够进行良好的预测。Prophet采用了一种基于…

荣耀电脑怎么用U盘重装系统?荣耀电脑用U盘重装Win10系统教程

荣耀电脑怎么用U盘重装系统&#xff1f;用户想用U盘来给荣耀电脑重装Win10系统&#xff0c;但是不知道怎么操作才能完成Win10系统的重装&#xff0c;这时候用户需要准备一个大于8G的U盘&#xff0c;还有一个能够正常联网的荣耀电脑&#xff0c;最后根据小编分享的荣耀电脑用U盘…

Linux文件系统论述

目录 前言 一.磁盘 1.1定义 1.2结构 1.3磁盘的寻找方式 1.4磁盘的逻辑/线性结构 1.5磁盘访问的基本单位 1.6磁盘的管理 二.Linux文件系统 2.1系统结构 2.2属性解析&#xff1a; 2.3inode相关块的解析&#xff1a; 2.4数据块的解析&#xff1a; 前言 学了一段时间的Linux操…

DIM-00019、Unable to OpenSCManager: err=5、DBT-50000

在windows server 2016上安装部署Oracle 19C&#xff0c;出现较多的问题。 例如在DBCA建库时出现[DBT-50000]无法检查可用内存报错&#xff1a; 根据MOS文档&#xff1a;DBCA fails with errors: [FATAL] [DBT-50000] Unable to check for available memory in “Specify conf…

算法05-排序算法

算法05-排序算法 总结大纲要求【 3 】排序的基本概念各种排序算法 【 3 】冒泡排序&#xff08;Bubble Sort&#xff09;冒泡排序排序规则冒泡排序优化 【 3 】选择排序&#xff08;Selection Sort&#xff09;【 3 】插入排序&#xff08;Insertion Sort&#xff09;题目描述…

怎么高效编写企业内部FAQ文档呢?

企业内部FAQ文档是指包含常见问题和答案的文档&#xff0c;旨在为企业内部员工提供帮助和解答。编写这样的文档可以帮助企业内部员工更好地理解和掌握公司的政策和流程&#xff0c;提高工作效率。 编写企业内部FAQ文档的一些高效方法&#xff1a; 确定文档的范围和目标受众 …

Windows11安装oneAPI和Visual Studio 2022配置Fortran并行环境

Windows11安装oneAPI和Visual Studio 2022配置Fortran并行环境 安装Visual Studio 2022 Community安装oneAPI建立Fortran工程项目测试建立单核运行的Fortran运行算例建立并行运行的Fortran运行算例 结语 安装Visual Studio 2022 Community 访问微软Visual Studio官网&#xff…

SpringBoot 如何使用 Redis 作为缓存?

SpringBoot 如何使用 Redis 作为缓存&#xff1f; 引言 在今天的互联网应用中&#xff0c;缓存是一个非常重要的概念。缓存可以减轻数据库的负担&#xff0c;提高系统的性能。Redis 是一个非常流行的内存数据库&#xff0c;它可以用作缓存&#xff0c;提供快速的读写速度和高…

【C语言初阶(1)】分支语句

文章目录 前言1. if 语句1.1 if 语法结构1.2 悬空 else1.3 “ ” 号引发的错误1.4 if 语句练习题 2. switch 语句2.1 switch 语法结构2.2 在switch语句中的 break2.3 default 子句2.4 switch 语句练习题 前言 C语言是一门结构化的程序设计语言&#xff1b; 它分为&#xff1a;…