【小白学机器学习28】 统计学脉络+ 总体+ 随机抽样方法

news2024/11/6 23:36:36

目录

参考书,学习书

0 统计学知识大致脉络

1 个体---抽样---整体

1.1 关于个体---抽样---整体,这个三段式关系

1.2 要明白,自然界的整体/母体是不可能被全部认识的

1.2.1 不要较真,如果是人为定义的一个整体,是可以被认识的

1.2.2 如果是自然界/社会上的整体/母体,一般都不能被全部认识

1.2.3 从哲学上说,整体/母体是彼岸的东西,是理念,是绝对精神,是大脑中先验的范式。

1.2.4 反过来说,整体/母体 完全不可知吗?是部分可知的

2 数据的来源

2.1 数据的来源

2.2 数据的层级

2.3 样本是什么sample? 

3  如何获得样本数据? 

3.1 随机抽样不是随意调查

3.2 等距抽样

3.3 分层抽样

3.4 群抽样

3.5 混合多阶段抽样


参考书,学习书

  • 日本,图解统计学,今野纪雄
  • 日本,新手小白学统计,本丸谅
  • 《从零开始学统计》 归璐
  • 《戏说统计》李连江

0 统计学知识大致脉络

  • 需要对统计学有个大致脉络
  • 不至于完全陷入到细节里去,时刻清楚自己在地图的哪儿

1 个体---抽样---整体

1.1 关于个体---抽样---整体,这个三段式关系

  • 个体---抽样---整体/母体
  • case---sample---polulation
  • 普通----特殊----整体
  • 这个类黑格尔的三段式逻辑的内涵:
  • 我们想从个别例子认识到整体,总结到一般规律,中间必须要借用1个逻辑步骤:抽样样本。
  • 也就是用1个命题+另外1个命题→得到结论的一种推理方式

黑格尔式三段论逻辑:

人都要吃饭

男人是人

所以男人要吃饭

科学网—“三段论(Syllogism)”简介 - 柳渝的博文

在传统逻辑中,“三段论(Syllogism)”指从两个命题(“大前提”和“小前提”)推导出“结论”的一种推理形式,是数学证明、科学研究及日常沟通交流中常用的一种推理

在希腊语中,syllogism由syn(与)和logos(语言)组成,本意指“(一个命题)与(另一个命题)相连”,引申义指“推理”。亚里士多德在“工具论(Organon)”中第一次将三段论系统化。

例子:

- 所有人都是必死的。(大前提)

- 苏格拉底是人。(小前提)

- 苏格拉底是必死的。(结论)

1.2 要明白,自然界的整体/母体是不可能被全部认识的

1.2.1 不要较真,如果是人为定义的一个整体,是可以被认识的

  • 我们自己当然可以自己定义一个我们全知的“整体”
  • 在这个角度,我们就是上帝
  • 但是这个知识“题目”“模型”“思想试验” ,我们可以在我们定义的世界里有上帝视角,这不奇怪。
  • 就和做题 != 解决社会上的真实问题一样,这些整体,一般并不是我们要面对的生活中的自然的/社会上的真正整体。

类比的例子

  • 定距数据里,比如摄氏度,身高,我们也可以进行* /,因为我们预设了一个0点,温度0,身高0。那为什么说定距数据里,进行* /运算没有意义?
  • 是因为别人可以设置 -10度,-20作为温度和身高的起点,这样计算乘除的结果就完全不同了。所以是没有意义的。
  • 只有用绝对0度当0度的华氏温度才有 */的意义。

1.2.2 如果是自然界/社会上的整体/母体,一般都不能被全部认识

大整体/母体的特点

  • 理论都是无穷的,无法穷尽数量的,所以我们不可能认识真正的全部集合里的所有元素!
  • 获得巨大量的数据,成本是很高的。
  • 等等原因

1.2.3 从哲学上说,整体/母体是彼岸的东西,是理念,是绝对精神,是大脑中先验的范式。

  • 从柏拉图等观点来看
  • 因为真正的母体/总体我们无法认识,其实这些是概念,不存在于现实世界,只存在于彼岸世界,是所谓的“形而上”
  • 而我们所有的现实生活的一个个集合,都是对这个概念的一个拙劣的投射/模仿(反正就是这个意思吧,我水平就只能描述道这)

1.2.4 反过来说,整体/母体 完全不可知吗?是部分可知的

  • 哲学里对立的观点本来就很多
  • 有“形而上”的观点,也有 纯经验的观点,比如经验主义,现象学等等
  • 这个不说了,作为普通人的我把握不住。

我认为

  • 真正的整体也许确实永远不可能被全部认识
  • 整体是部分可知的
  • 或者说,整体的一些现实投射是可知的。
  • 我们的日常经验就是对整体的一些认识,这些就是我们认识的材料。

2 数据的来源

2.1 数据的来源

  • 调查,问卷等
  • 统计

2.2 数据的层级

  • 个体:case ,特殊化
  • 整体/母体:不可知
  1. 进行普查:几乎不可能
  2. 进行全面调查,很难,成本很高
  • 所以我们要通过样本取认识整体,样本是什么?

2.3 样本是什么sample? 

  • 样本是整体的一部分
  • 样本不是整体的随便一部分
  • 样本是整体的微缩/结构相同/类似/缩小版

但是问题来了

  • 我们连整体都不能全知,我们怎么知道样本是否和总体是结构类似的?
  • 我们不能保证(因为我们确实验证不了)
  • 我们最多只能从过程中保证

3  如何获得样本数据? 

  • 我们最多只能从过程中保证,样本类似整体,怎么做?
  • 只能从过程上尽量保证随机:每个个体均等机会被抽中。
  • 取样的原则1:公平
  • 取样的原则2:成本可控时,抽样数量要尽可能多一点

保证总体中每个case有相同的概率被抽取到!

这需要考虑到很多

这些case 在各个属性维度上,都要是相同,平等的概率

比如人口调查,需要让人口从年龄,学历,地域,,,,各个维度都平等的抽到

  • 具体的手段:随机抽样/等距抽样,等等

3.1 随机抽样不是随意调查

  • 抽样调查
  • 正确:比如给每个个体编号,然后取随机抽取这些编号
  • 错误:比如给每个个体编号,挑选编号前100个

3.2 等距抽样

  • 比如给每个个体编号,然后按一定距离比如相距10个抽1个
  • 1,11,21,等等

3.3 分层抽样

  • 如果我们知道数据是分层的
  • 并且,我们可以用一些辅助数据可以区分这些分层
  • 那么我们可以在不同的分层中分别抽取数据

数据分层:(有点像聚类分析,不同的类别)

  • 分层间,数据差异大
  • 分层内,数据差异比较小

3.4 群抽样

  • 从直接抽个体,变成直接抽群
  • 群抽样的特点例子,比如学校学生等天然就是分群的

群抽样和分层抽样差异

  • 群抽样,每个群体之间差异小,群里尽量是差异很大,每个群内部都类整体分布
  • 分层抽样相反,层之间差异大,层内差异小。

3.5 混合多阶段抽样

比较复杂,我没仔细看~~

反正就是利用上面各种抽样的优点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2229818.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

5、片元着色器之基础光照模型:Phong模型和Blinn-Phong模型

1、什么是Phong光照模型? Phong模型就是在兰伯特模型的基础上增加了镜面反射光的计算。具体来说,兰伯特模型只考虑漫反射光,而Phong模型在此基础上引入了镜面反射光的概念,以模拟光线在光滑表面反射时产生的高光效果。镜面反射光的…

Ubuntu使用Qt虚拟键盘,支持中英文切换

前言 ​ 最近领导给了个需求,希望将web嵌入到客户端里面,做一个客户端外壳,可以控制程序的启动、停止、重启,并且可以调出键盘在触摸屏上使用(我们的程序虽然是BS架构,但程序还是运行在本地工控机上的),我…

ES(ElaticSearch)详解(含工作原理、基本知识、常见问题和优化方法)

文章目录 一、Lucene 和 ELK 的组成二、ES 配置文件参数解读三、ES 基本知识1、索引(Index):类似于关系型数据库的工作表2、类型(Type):废弃3、文档(Document):类似于关系…

巨好看的登录注册界面源码

展示效果 源码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta http-equiv"X-UA-Compatible" content"IEedge" /><meta name"viewport" content"widthdevic…

记一次:使用使用Dbeaver连接Clickhouse

前言&#xff1a;使用了navicat连接了clickhouse我感觉不太好用&#xff0c;就整理了一下dbeaver连接 0、使用Navicat连接clickhouse 测试连接 但是不能双击打开&#xff0c;可是使用命令页界面&#xff0c;右键命令页界面&#xff0c;然后可以用sql去测试 但是不太好用&#…

ts:使用fs内置模块简单读写文件

ts&#xff1a;使用fs内置模块简单读写文件 一、主要内容说明二、例子&#xff08;一&#xff09;、fs模块的文件读写1.源码1 &#xff08;fs模块的文件读写&#xff09;2.源码1运行效果 三、结语四、定位日期 一、主要内容说明 在ts中&#xff0c;我们可以使用内置的fs模块来…

RFID技术让档案管理更高效、更可靠

RFID档案应用&#xff0c;即利用射频识别技术对档案进行管理&#xff0c;其价值主要体现在以下几个方面&#xff1a; PART01效率提升 RFID技术通过无线射频识别&#xff0c;能够快速、准确地识别档案信息&#xff0c;大大提高了档案管理的效率。在传统的档案管理中&#xff0c;…

《数字图像处理基础》学习04-图像的量化

在上一篇文章中&#xff0c;已经实现了对图像的采样。 《数字图像处理基础》学习03-图像的采样-CSDN博客 接着就需要对图像进行量化操作。 目录 一&#xff0c;量化的相关概念 二&#xff0c;matlab编写程序生成量化图像 1&#xff0c;要求 2&#xff0c;思路及注意点…

逻辑代数的基本公式

根据图中的逻辑运算符号&#xff0c;包括与非逻辑&#xff08;NAND&#xff09;、或非逻辑&#xff08;NOR&#xff09;、与或非逻辑、异或逻辑&#xff08;XOR&#xff09;和同或逻辑&#xff08;XNOR&#xff09;&#xff0c;我们可以分别给出每个运算符的真值表。 1. 与非逻…

iptables面试题

1、详述iptales工作流程以及规则过滤顺序&#xff1f; iptables过滤的规则顺序是由上至下&#xff0c;若出现相同的匹配规则则遵循由上至下的顺序 2、iptables的几个表以及每个表对应链的作用&#xff1f; Iptables有四表五链 Filter表 : Filter表是iptables中使用的默认表…

Java Collection/Executor DelayedWorkQueue 总结

前言 相关系列 《Java & Collection & 目录》《Java & Executor & 目录》《Java & Collection/Executor & DelayedWorkQueue & 源码》《Java & Collection/Executor & DelayedWorkQueue & 总结》《Java & Collection/Executor &a…

[Python学习日记-59] 开发基础练习2——网站访问日志分析

[Python学习日记-59] 开发基础练习2——网站访问日志分析 简介 题目 答案 简介 该练习结合了函数和一些常用的模块开发了一个对网站访问日志分析的程序&#xff0c;可以巩固实践之前学习的内容。 题目 基本需求&#xff1a; 统计本日志文件的总 pv、uv 数列出全天每小时的…

tiktok批量添加达人怎么弄

在 TikTok 上批量添加达人可以借助一些工具或方法&#xff0c;以下是一些常见的途径&#xff1a; 点我达秘免费体验地址注册 使用达人邀约工具&#xff1a; 功能特点&#xff1a;这类工具专为 TikTok 跨境小店和本土小店提供服务&#xff0c;可以实现多国家、多店铺同时私信和…

深度学习-激活函数详解

激活函数在神经网络中的作用是引入非线性特征&#xff0c;使得网络可以拟合和表达更复杂的数据关系。它通过对输入进行非线性变换&#xff0c;让每一层的输出既能反映输入特征&#xff0c;又能传递重要信息&#xff0c;以进行梯度更新。以下是关于常用激活函数的详细讲解。 1.…

基于vue框架的的乐守护儿童成长记录系统b65tg(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能&#xff1a;用户,成长指标,疫苗接种,学业档案,课外活动,旅游经历,交流论坛 开题报告内容 基于Vue框架的乐守护儿童成长记录系统开题报告 一、研究背景与意义 随着科技的飞速发展和家庭对子女成长关注度的不断提升&#xff0c;如何科学、系统地记…

使用wordcloud与jieba库制作词云图

目录 一、WordCloud库 例子&#xff1a; 结果&#xff1a; 二、Jieba库 两个基本方法 jieba.cut() jieba.cut_for_serch() 关键字提取&#xff1a; jieba.analyse包 extract_tags() 一、WordCloud库 词云图&#xff0c;以视觉效果提现关键词&#xff0c;可以过滤文本…

安卓13 连接usb设备后不更新ui

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码更改4.彩蛋1.前言 有些界面在链接usb设备后,ui会被刷新,导致闪烁问题。 2.问题分析 像这种问题一般是usb事件,导致的ui事件更新了,处理方法是禁止该事件 3.代码更改 这块我们就需要在输入事件管理里面…

根号下-1等于多少

根号下的负数在实数范围内是没有定义的&#xff0c;但在复数范围内&#xff0c;我们可以用虚数单位 来表示。具体来说&#xff1a; 因此&#xff0c;根号下的负一等于虚数单位 。

什么是人工智能(AI)?

人工智能AI&#xff08;即Artificial Intelligence&#xff09;是计算机科学的一个分支&#xff0c;旨在让计算机模仿人类的决策能力、像人类一样思考和行动&#xff0c;来解决如自然语言处理、推荐、智能数据检索、预测等方面人类无法处理或难以处理的复杂工作。 为什么需要人…

国标GB28181公网直播EasyGBS国标GB28181软件的应用场景

随着科技的飞速发展&#xff0c;安防视频监控技术已经成为现代社会不可或缺的一部分&#xff0c;它在保障公共安全、企业运营安全以及个人财产安全方面发挥着举足轻重的作用。国标GB28181网页直播平台EasyGBS安防视频监控平台&#xff0c;作为集高效性、稳定性与智能化于一体的…