数据科学与大数据导论期末复习笔记(大数据)

news2025/1/17 18:09:51

 来自于深圳技术大学,此笔记涵盖了期末老师画的重点知识,分享给大家。

  • 等深分箱和等宽分箱的区别:
  • 等宽分箱基于数据的范围来划分箱子,每个箱子的宽度相等。
  • 等深分箱基于数据的观测值数量来划分箱子,每个箱子包含相同数量的数据点。

 

 文本编辑相似度度量方法

 

类比直角坐标系中两点距离,理解一下公式。

r 是一个正整数,称为参数或次数。当 r=1 时,明氏距离变为曼哈顿距离;当 r=2 时,它变为欧几里得距离。

曼哈顿距离是 单单每个类型的距离差之和。

X = (-3, -2, -1, 0, 1, 2,3) Y = (9, 4, 1, 0, 1, 4, 9)这个例子pearson的r是0 。

pearson=COV(x,y)/x的标准差*y的标准差。

独热编码将每个标称属性进行扩充,
p将一个颜色标称属性扩充为4个二元属性,分别对应黑、白、蓝、
黄四种取值。对于每一个产品,它在这四个属性上只能有一个取1,
其余三个都为0,所以称为独热编码

最大最小值未知,或者离群点影响较大时 

**

确定程度较高,对应的信息熵也较小。
n 数据点被完全打乱的时候,难以理解其意思,造成不确定性也
就多了,对应的信息熵也变大了。

选择信息增益最大的分隔点

*

既可以降低数据“维数” 又保留了原数据的大部分信息

示例:

如果当某属性两个样例都为0对聚类的影响不大,例如医院体检两个人某种不重要的病毒抗原都是阴性,则不影响分到不同聚类。

这个时候abcd中的d就没啥用了。

通俗理解:jaccard=不一样的个数/(不一样的个数+都为1的个数)

jaccard数值小的越相似。

 误差平方和不再减小

SSE(Sum of Squared Errors,误差平方和)是一种用于衡量聚类质量的指标。SSE计算的是每个数据点到其所属簇的中心的距离的平方之和。

kmeans算法还会受到,离群点,规模,形状,密度影响。

***

邻域:以样本为中心,eps为半径所包括的点

核心点:这个点的圈圈囊括的点的数量达到最小阈值 minpts

边界点:这个点的圈圈所囊括的点的数量未达到最小阈值 minpts,但是被核心点圈住了。

噪声点:既没有被核心点圈住,自己的圈圈里也没有达到最小阈值数量

直接密度可达:单个核心点它圈圈里的点,它可以直接可达的点。

密度可达:例如 A密度可达B (A必须是核心点) 意味着A可通过链接其他核心点最终到达B(B可以是核心点也可以是边界点)。密度可达是非对称的。

密度相连:跟密度可达唯一不同的是 A可以是边界点,即:A可通过链接其他核心点最终到达B

1.遍历数据集中的点,判断是否是核心,如果是创建簇,进行2,如果不是列为噪声点或边界点。

2.把核心点直接密度可达的点加入到簇中

3.循环,直到没有新的点添加到簇中

决策树

B站视频:http://【【数据挖掘】决策树零基础入门教程,手把手教你学决策树!】https://www.bilibili.com/video/BV1T7411b7DG?vd_source=1a684a3a1b9d05485b3d6277aeeb705d

IG(X|Y)表示X在以Y为条件分为两类后,各类的加权熵比原来的熵减少了多少。

   除了用熵来确定最优决策类别,还能用基尼系数来确定t。基尼系数是 1-所分的类别的平方和,一次分类好后要求加权基尼。

然后选择基尼系数最小的划分作为当前的最佳划分。

判断构建的决策树的优劣

判断构建的决策树的优劣

***

当d=1时就为一元线性回归。

=1289 8115

几何中心度

跟它相交的结点/除了自己以外的所有结点

接近中心度

下面的也不全对! 

这里e11要*2

d1

分子in相当于自己社区内的边的和*2   ; tot是自己社区内的边的和*2+外部连接的边

在我的主页里搜索数据科学导论课件,可以获得期末总复习ppt,需要各章节ppt的私我。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1392258.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

tcpdump常用参数以及wireshark密文解密

tcpdump常用参数以及wireshark密文解密 文章目录 一、tcpdump命令和常用参数二、在wireshark中协议解析 tcpdump常用参数 一、tcpdump命令和常用参数 tcpdump常用命令:tcpdump -i eth0 src host 11.6.224.1 and udp port 161 -s 0 -w 161.pcap (161为sn…

(一)ROS的安装

(一)安装ubuntu18.04 系统(虚拟机或者是物理机,在此不再介绍) (二)添加ROS镜像源 apt 列表中没有ROS源,所以要手动添加 sudo sh -c . /etc/lsb-release && echo "deb…

mysql常见的需求,对于关键字的使用

如何使用MySQL将列数据转化为逗号分隔的形式。我们可以使用内置函数GROUP_CONCAT()来实现这个功能 如何使用MySQL将列数据转化为逗号分隔的形式。我们可以使用内置函数GROUP_CONCAT()来实现这个功能,也可以根据实际需求自定义一个函数。这种技术在一些需要对数据进…

imgaug库指南(28):从入门到精通的【图像增强】之旅(万字长文)

引言 在深度学习和计算机视觉的世界里,数据是模型训练的基石,其质量与数量直接影响着模型的性能。然而,获取大量高质量的标注数据往往需要耗费大量的时间和资源。正因如此,数据增强技术应运而生,成为了解决这一问题的…

linux-nfc neard 编译与安装

项目github地址: https://github.com/linux-nfc/neard git clone地址: https://github.com/linux-nfc/neard.git clone完源码切换到目录neard里。这个项目需要依赖一下库: - GCC compiler - D-Bus library - GLib library - Netlink (lib…

go语言(一)----声明常量

package mainimport ("fmt""time" )func main() {fmt.Print("hello go!")time.Sleep(1 * time.Second)}运行后,结果如下: 1、golang表达式中,加;和不加;都可以 2、函数的{和函数名一…

.net core 6 使用注解自动注入实例,无需构造注入 autowrite4net

像java使用autowrite一样使用 1、前提先注册到ioc容器当中 builder.Services.AddScoped 2、nuget引入AutoWrite4Net 3、启用 //启用自动注入 app.UseAutoWrite(); 4、在类上使用注解 [StartAutoWrite] public class NacosController : ControllerBase 5、实例上使用注解 …

【Linux】nc 网络诊断 | 文件传输 命令详解

目录 一、命令简介 二、命令使用 2.1 测试服务器 2.2 端口连通性测试 2.2.1tcp端口连通性测试 2.2.2udp端口连通性测试 2.3 文件及目录的传输 2.3.1 文件传输(TCP端口) 2.3.2 文件传输(UDP端口) 相关文章: 【网络】抓包工具Wireshark下载安装和基本使用教…

强化加密生态合规性:Token Explorer 助你一臂之力!

随着加密市场监管的不断加强,项目的合规风险可能会在一夜之间威胁到其可行性。然而,通过智能的分析技术进行全面的代币审计,可以帮助我们及时发现问题,保护项目的声誉。 Token Explorer 提供智能的专业分析,让我们了解…

linux安装QQ(官方正版)

QQ官网上有支持linux系统的版本,所以去官网直接下载正版就好。 安装步骤: 1.进入官网:https://im.qq.com/linuxqq/index.shtml 2.选择版本:X86版下载dep 如下所示: 3.下载qq安装包: 4.使用命令安装qq s…

高考志愿填报系统开发技术语言选择总结

开发高考志愿填报系统,需要考虑到系统的稳定性、安全性、易用性以及数据准确性。以下是针对高考志愿填报系统的技术方案选择建议: 1.后端技术:可以使用Python、Java、PHP等后端语言进行开发,考虑到易用性和开发效率,可…

MetaGPT学习笔记 - task1task2

章节:task1&task2 一.github地址:github.com/geekan/MetaGPT 二.MetaGPT: 多智能体框架​ 使 GPT 以软件公司的形式工作,协作处理更复杂的任务 MetaGPT输入一句话的老板需求,输出用户故事 / 竞品分析 / 需求 / 数据结构 / A…

UI设计中插画赏析和产品色彩分析

插画赏析: 1. 插画是设计的原创性和艺术性的基础 无论是印刷品、品牌设计还是UI界面,更加风格化的插画能够将不同的风格和创意加入其中,在激烈的竞争中更容易因此脱颖而出。留下用户才有转化。 2. 插画是视觉触发器,瞬间传达大量…

React16源码: React中的异步调度scheduler模块的源码实现

React Scheduler 1 ) 概述 react当中的异步调度,称为 React Scheduler发布成单独的一个 npm 包就叫做 scheduler这个包它做了什么? A. 首先它维护时间片B. 然后模拟 requestIdleCallback 这个API 因为现在浏览器的支持不是特别的多所以在浏览当中只是去…

【报错】NVIDIA 驱动版本不兼容 — NVIDIA driver on your system is too old

【报错】NVIDIA 驱动版本不兼容 — NVIDIA driver on your system is too old 报错信息查看torch版本查看nvidia驱动版本 报错信息 CUDA initialization: The NVIDIA driver on your system is too old (found version 11040). Please update your GPU driver by downloading …

投资半导体行业可靠吗?九方智投洪帮主助投资者深度剖析市场

近期,CES2024展会火热袭来,作为行业内知名活动,展会的官方数据显示本次参展企业达到了4000家。作为CES2024的特色主题,人工智能有望成为会议的重大亮点。 人工智能涉及到的领域包含方方面面,其中AI软件和硬件解决方案的发布将促进半导体行业需求,算力芯片和边缘侧AI的机会值得关…

纯前端实现加减运算验证码

纯前端实现加减运算验证码 实现效果 //页面展示 <template><view class"form-input-item" style"padding:8rpx 22rpx;"><input class"form-input" placeholder"请输入验证码" type"text" maxlength"6…

【计算机硬件】3、输入输出技术、总线结构

文章目录 输入输出技术内存与接口地址的编址方法1、 内存与接口地址独立编址方法2、内存与接口地址统一编址方法 计算机和外设间的数据交互方式1、程序控制(查询)方式2、程序中断方式3、DMA方式&#xff08;直接主存存取&#xff09; 总线结构 输入输出技术 内存与接口地址的编…

智能组网和云桥通sd-wan企业组网技术方案的区别对比

智能组网和云桥通sd-wan企业组网是两种不同的网络技术方案&#xff0c;它们在设计理念、应用场景和功能特点上存在以下这些区别&#xff1a; 1. 定义与设计理念&#xff1a; 智能组网&#xff1a; 智能组网是一种综合利用人工智能、自动化和网络管理技术的网络组建和管理方案。…

链表练习 Leetcode82.删除排序链表中的重复元素 II

题目传送门&#xff1a;Leetcode82 给定一个已排序的链表的头 head &#xff0c; 删除原始链表中所有重复数字的节点&#xff0c;只留下不同的数字 。返回 已排序的链表 。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,3,4,4,5] 输出&#xff1a;[1,2,5]示例 2&#xff1…