数据挖掘-理论与算法 公开课笔记

news2024/11/25 7:02:08

1.1.1.1 整装待发

  • 近年来数据存储和数据处理的能力都产生了飞跃,为数据挖掘奠定了基础。
  • 虽然数据量大,但是真正有用的信息少

2.1.2.1 学而不思则罔

  • 是多学科(机器学习、人工智能、模式识别、统计学)的交叉领域
  • 如何学习数据挖掘?:认真听课、积极讨论+课后延伸阅读(提供灵感)+写代码
  • 不是去记住理论,网上都查得到,一定要学会如何思考

3.1.3.1 知行合一

1、数据

  • 什么是数据?:定量或者定性的属性值(比如一个人身高、体重、年龄等)是最底层的表现形式,而信息会高一级,数据要做一些处理后才能转化为信息
  • 数据类型:连续型、离散型、符号型
  • 存储形式
    • 物理存储:都是二进制存储
    • 逻辑存储:比如星型、网络型等
  • 主要问题:数据类型转化、数据的错误

2、大数据

  • 什么是大数据?:
    • 说法一:数据量大(Tb->Zb)、高速流动(Batch->Streaming Data)、数据种类多(结构化数据->非结构化数据)
    • 说法二:数据量大到传统的数据处理软件都无法处理

4.1.4.1 从数据到知识

什么是数据挖掘?:是从海量、不完整、有噪声的数据中自动提取有趣且潜在有用信息的过程

注:不是完全自动的过程,需要人为参与(比如相关领域的知识、数据收集和预处理等)

 

 5.1.5.1 分类问题

  • 什么是分类?是根据一个或多个特征(称为变量)的信息和已知标签训练得到模型,然后对未知标签进行分类
  • 分类算法:决策树、k-nearest neightbours、神经网络、支持向量机
  • 其实就是寻找分界面,对空间进行划分(直线、曲线、复杂的圆或多条线等),分界面尽量选择平滑而不是过于复杂的,避免过拟合

 

  •  将数据化为训练集和测试集,训练集用于生成模型,测试集用于对模型进行评估

 

  • 混淆矩阵 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/48653.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【分布式能源的选址与定容】基于非支配排序多目标粒子群优化算法求解分布式能源的选址与定容附Matlab代码

​✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法…

【HDU No. 1166】 敌兵布阵

【HDU No. 1166】 敌兵布阵 杭电 OJ 题目地址 【题意】 A国在海岸线沿直线布置了N 个工兵营地。C国通过先进的监测手段对A国每个工兵营地的人数都掌握得一清二楚。每个工兵营地的人数都可能发生变动,可能增加或减少若干人手。 【输入输出】 输入: 第…

知识整理:1802907-99-8,Desthiobiotin-PEG4-Alkyne生物素类似物

(本品应密封避光,储存于阴凉,干燥,通风处,取用一定要干燥,避免频繁的溶解和冻干) ●中文名:脱硫生物素-四聚乙二醇-炔基 ●英文:Desthiobiotin-PEG4-Alkyne ●外观以及性…

浮点数渐进下溢

文章目录浮点数渐进下溢浮点数渐进下溢 当IEEE754浮点数的运算结果或转化结果中,存在阶码全0的情况时,在IEEE754标准的描述中说,若此时尾数不全为0,则表示次正规数,即次数浮点数的真值其实应该成为: (−1)…

YUV数据格式

1. YUV的原理 YUV 的原理是把亮度(Luma)与色度(Chroma)分离。 “Y”表示亮度,也就是灰度值。 “U”表示蓝色通道与亮度的差值。 “V”表示红色通道与亮度的差值。 其中 Y 信号分量除了表示亮度信号外,还含…

Redis学习笔记(一)

NoSQL 泛指非关系型数据库,作为关系型数据库的补充作用:应对海量用户和海量数据前提下的数据处理问题特征 可扩容、可伸缩大数据量下高性能灵活的数据模型高可用 常见的NoSQL数据库 RedismemcacheHBaseMongoDB Redis 一种高性能键值对数据库特征 数据间…

[附源码]计算机毕业设计springboot酒店在线预约咨询小程序

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

STL 迭代器萃取

导言 什么是迭代器 迭代器是一种抽象的设计概念,《Design Patterns》一书中对于 iterator 模式的定义如下:提供一种方法,使之能够依序巡访某个聚合物(容器)所含的各个元素,而又无需暴露该聚合物的内部表述…

wcdma基站的重选和切换

首先移动组网的特点,单个基站覆盖一定区域范围,我们称之为小区,为了组成一个连续服务不断的网,需要在空间上部署多个基站,应对用户的移动。 为了实现业务的连续性,必须给每个小区设置相邻的小区&#xff0c…

C/C++-指针

C/C-指针参考1. 指针指针与内存/地址指针使用2.数组指针数组/指针/sizeof一维数组与指针多维数组指针3.字符/字符串指针4. 其他指针二级指针 -- 还没看空指针void指针野指针5.指针与函数函数指针引用传递指针函数6.结构体指针结构体数组指针???c 对象指针参考 https://www.…

Kotlin 开发Android app(十四):startActivity跳转Activity活动

从一个Activity跳到另一个Activity 在编写安卓代码是最常见的事情了。我们不可能在一个页面中,把所有的事情都做完。 在kotlin中跳转的程序也比较简单,跟java差不多。如果熟悉java代码的话,只需要把代码改变过来而已。 带参数的调整 从一个…

极空间Docker安装Alist套件整合阿里云盘、百度云盘等网盘资源并挂载到本地供极影视刮削播放完整教程

文章目录0、前言1、在docker中安装alist套件1.1、拉取并下载alist镜像1.2.安装alist镜像2、访问并设置alist2.1、访问alist2.2、配置alist2.2.1、在alist中添加阿里云盘2.2.2、在alist中添加其它网盘3、在极空间中将前述网盘挂载到本地4、在极影视中扫描刮削挂载到本地的云盘中…

如何制作一个微信小程序【微信小程序是怎么做的】

为什么现在这么多人使用微信小程序呢?因为微信小程序除了便捷易开发,公司企业可以用来做小程序展示官网,商家也可以做小程序商城,甚至个人也可以拥有自己的小程序。那么如何制作一个微信小程序?微信小程序是怎么做的呢…

第二证券|房地产股债嗨了,百余只个股谁受热捧?谁还受益?

29日,AH股房地产板块狂飙,地产债反常火热。 A股地产股开盘即掀涨停潮,中国武夷、中交地产、空港股份、光大嘉宝、中华企业等超10股竞价涨停。港股内房股大幅高开,碧桂园、富力地产、新城开展等多股涨超10%,盘中三巽集…

Crack:Stimulsoft BI Server 2022.4.5

Stimulsoft BI Server 是一个客户端-服务器系统,可让您高效且有效地实施使用报告和仪表板的完整周期,从执行信息处理任务的设计和自动化开始,到为方便地向用户展示结果做准备结束。报告模块的功能和功能是使用 Stimulsoft 的快速现代技术实现…

一、Vue3基础[组件(props、事件、插槽)]

一、组件化 解释:正如上图所示,一个页面可以分为多块部分,但是如果把所有代码都写在一个vue文件当中,维护性和可读性都会很差,所以需要用到组件化思维->创建多个vue文件每个里面写一部分代码,然后集中在一个主的vue文件调用 二、组件的注册 1.全局 解释:顾名思义,…

【Java盲点攻克】「时间与时区系列」让我们一起完全吃透对于时区和日期相关的功能开发原理

技术简介 java中的日期处理一直是个问题,没有很好的方式去处理,所以才有第三方框架的位置比如joda。文章主要对java日期处理的详解,用1.8可以不用joda。 时间概念 首先我们对一些基本的概念做一些介绍,其中可以将GMT和UTC表示时…

自然算法 - AI面试基础补全

手撕BP神经网络手写Bert和Transformer(BERT很细节的地方,比如文字标签CLS,par)学习pytorch,tensorflow AI算法岗位 可看网站 牛客网站 面经回复 github 项目连接 算法工程师岗位必备知识 问答 ELMO、GPT、…

Linux系统下KVM虚拟机的基本管理和操作

Linux系统下KVM虚拟机的基本管理和操作一、检查本地环境1.检查系统版本2.检查防火墙状态3.检查selinux3.检查libvirtd服务状态4.检查kvm安装结果5.检查kvm虚拟机状态6.检查virsh版本二、virsh常用命令1.列出虚拟机2.虚拟机开关机操作3.删除虚拟机4.设置虚拟机在宿主机开机时自启…

装在笔记本里的私有云环境:K8s 集群准备

本篇是系列中的第六篇内容,继续聊聊如何把一个简化过的私有云环境部署在笔记本里,以满足低成本、低功耗、低延时的实验环境。 在前几篇内容中,我们聊过了:虚拟化、监控、基础的存储、持续集成等内容,接下来的内容中&a…