〖数据挖掘〗weka3.8.6的安装与使用

news2024/9/28 5:23:05

目录

背景

一、安装

二、使用explorer

1. 介绍

2.打开自带的数据集(Preprocess)

1.打开步骤

2.查看属性和数据编辑

3.classify

4.Cluster

5.Associate

6.Select attributes

7.Visualize

待补充


背景

Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费
的,非商业化软件,与之对应的是SPSS公司商业数据挖掘产品--Clementine ;weka是基于JAVA环境下开源的
机器学习(machine learning)以及数据挖掘(data mining)软件。Weka的主要开发者来自新西兰的怀卡托大学(The University of Waikato)。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

一、安装

安装简单,一路next。

1.打开weka3.8.6的安装包

01a951b74d564fc6a163646f64f61793.png

2.点击 next

fc075071a2ca4ce781b3893ec5e31aa2.png

 3.点击I Agree

1a1770dee2484f2a89fb0a87121f1440.png

4.点击next

f413b17809164c7eb582fc20fc46a10a.png

5.选择安装路径如:D:\weka-3-8-6

0eb3e6ea3ebc4e5189bba8655f82f0ac.png

6.点击install

9aa430e8e47045eea074f1b943fd0740.png

等待后,finish。下面是安装成功后打开的初始界面d257cfe5582f4121bb138ff161730403.png

二、使用explorer

bb3bb2f14f8a4b479f02ad2b4844fbe9.png

1. 介绍

5832686aa24c45e99253b48d03ed201b.png

Preprocess:预处理
Classify:分类
Cluster:聚类
Associate:关联
Select attributes:选择属性
Visualize:可视化

e3c730d43d4245a0887bcac5a08e5a73.png

  • open file:从文件中打开一组实例
  • open URL:从URL中打开一组实例
  • open DB:从数据库中打开一组实例
  • generate:生成人工数据
  • undo:撤销对数据集最后更改
  • edit:在查看器中打开当前数据集进行编辑
  • save:将工作关系保存到文件中

 2fa52ca9246f4acba8585f27e8750598.png

属性

  • ALL:全选
  • None:全不选
  • invert:取反
  • pattern:输入perl正则表达式

2b52ccf01a1544df95502cc4755df3b3.png

该位置展示具体属性都有什么

  • remove:选择属性后,点击删除,可用undo撤回。

aae1d5c2df6247b9ba9e5fa181f8cc67.png

当前的关系

  • 关系:投票  属性:17
  • 实例:435   权重和:435

2.打开自带的数据集(Preprocess)

1.打开步骤

选择openfile

80a83d63817b43eeb63dff1fa8b61e50.png

选择data文件

 1f006d3c282f43fca20a650fc4bcadb0.png

这里我们可以看到一些weka自带的数据集

468d19189e1c4a7b8ecbe141894ecaac.png

选择其中一个数据集打开,我选择的是vote.arff

05d29e668a5746d68c33cd51023b290d.png

2.查看属性和数据编辑

2.1查看属性

选择属性,可以下拉查看并选择

b326139b40dd4401b96c9db33f3dfb95.png

 411d7e5d8a154f05a4c7b4edc4be3ee5.png

Visualize All:查看所有属性直方图

b467e84288424be5946c50301e209527.png

2.2数据编辑

001043e1292641cb88faec51ded3d323.png

 点击Edit,弹出viewer,在这里面可以查看并编辑数据。

3dafa6212b744971944cc9d04d1e8f58.png

3.classify

分类是指根据事物的某些共同特征,将它们分成若干组或类别,以达到简化、归纳和管理的目的。在机器学习领域中,分类是指根据已有数据集中的特征和标签信息,训练出一个算法模型,用于预测新样本所属的类别。分类问题是机器学习中最常见的问题类型,其应用广泛,如垃圾邮件识别、图像分类、医学诊断等等。机器学习中一些常见的分类算法包括决策树、支持向量机、朴素贝叶斯、神经网络等。

d5237fb1bdaa45ceb563ce22bfe3484f.png

e66e72f21e6244c3b6b5ddd827b5331b.png

测试选项 

  • Use training set:使用训练集
  • Supplied test set:提供测试集
  • Cross-validation:交叉验证
  • Percentage split:按比例分配
  • start:点击即用

4.Cluster

聚类是指根据一组数据的相似性,将它们分为若干个组或簇,使得同一个簇内的元素彼此相似,不同簇之间的元素差异较大。聚类是无监督学习领域中的重要问题,与分类问题不同,聚类问题中没有预先定义好的标签信息,需要通过算法自动挖掘数据的内在结构和规律。聚类算法可以应用于数据挖掘、图像分割、社交网络分析等领域,是机器学习中的重要研究方向。常见的聚类算法有K-means、层次聚类、DBSCAN、OPTICS等。

b837b1cfd4b74607901c8a87081670fa.png

集群模式【Cluster mode】

  • Use training set:使用训练集
  • Supplied test set:提供测试集
  • Percentage split:比例分割
  • Classes to clusters evalation:类到聚类的评估

5.Associate

6faacb8663174c688e803a37c5b12138.png

6.Select attributes

8246a87ad7fd40f8a2ed8018931cb38b.png

属性选择模式

  • Use full training set:使用完整的训练集

  • Cross-validation:交叉验证

7.Visualize

fb79175aea5c4f5fb3cf9a61ae0cd6b2.png

  • update:更新
  • select attribute:选择属性
  • subsample:子样品

 

待补充

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/504260.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

低代码平台解读—如何不写代码创建表单和维护表单

工作表新建与修改——敲敲云 新建工作表的流程包含 新建工作表/编辑公祖表为工作表添加字段,例如“员工档案”表中有姓名、性别、年龄等字段为字段设置属性工作表布局工作表预览、保存、关闭 1、新建工作表/修改工作表 新建工作表 修改工作表 2、为工作表添加字段 …

c#笔记-定义类

声明类 类可以使用帮助你管理一组相互依赖的数据,来完成某些职责。 类使用class关键字定义,并且必须在所有顶级语句之下。 类的成员只能有声明语句,不能有执行语句。 class Player1 {int Hp;int MaxHp;int Atk;int Def;int Overflow(){if (…

算法记录 | Day55 动态规划

392.判断子序列 思路: 1.确定dp数组(dp table)以及下标的含义: dp[i][j] 表示以下标i-1为结尾的字符串s,和以下标j-1为结尾的字符串t,相同子序列的长度为dp[i][j]。 2.确定递推公式: if (s[i - 1] t[…

线程同步、生产者消费模型和POSIX信号量

gitee仓库: 1.阻塞队列代码:https://gitee.com/WangZihao64/linux/tree/master/BlockQueue 2.环形队列代码:https://gitee.com/WangZihao64/linux/tree/master/ringqueue 条件变量 概念 概念: 利用线程间共享的全局变量进行同…

单片机c51中断 — 开关状态监测

项目文件 文件 关于项目的内容知识点可以见专栏单片机原理及应用 的第五章,中断 图中 P2.0引脚处接有一个发光二极管 D1,P3.2引脚处接有一个按键。要求分别采用一般方式和中断方式编程实现按键压下一次,D1 的发光状态反转一次的功能。 查询…

从C语言到C++⑦(第二章_类和对象_下篇)初始化列表+explicit+static成员+友元+内部类+匿名对象

目录 1. 构造函数的初始化列表 1.1 初始化列表概念 1.2 初始化列表注意事项 2. 构造函数的explicit关键字 2.1 C语言的隐式类型转换 2.2 explicit 关键字使用 3. static成员 3.1 static的概念 3.2 static成员特性 3.3 static成员使用场景 4. 友元(frien…

【Java 基础】类和对象 方法重载详解

《Java 零基础入门到精通》专栏持续更新中。通过本专栏你将学习到 Java 从入门到进阶再到实战的全套完整内容,所有内容均将集中于此专栏。无论是初学者还是有经验的开发人员,都可从本专栏获益。 订阅专栏后添加我微信或者进交流群,进群可找我领取 前端/Java/大数据/Python/低…

Linux 常用命令(1)

文章目录 Linux 常用命令格式 clear 清屏清屏获取当前目录的路径 pwd目录切换命令 cd进入上一级目录进入当前目录的文件夹 ta中(假设这里有一个文件夹ta)进入主目录进入根目录 显示目录内容 ls显示详细信息,包含文件属性显示全部内容,包含隐藏文件&#…

tiechui_lesson07_中断级和自旋锁

一、中断级IRQL 高级别可以打断低级别的调用,同级别不能打断同级别的调用。 中断级在软件层面分为三级,再高的级别是硬件发送的中断。 - 0 pass_level- 1 apc_level- 2 dpc_level 只有硬件中断能打断 1.获取中断级 DbgPrint("当前执行中断级为 %…

无法防范的网络攻击-DDOS

DDoS攻击(Distributed Denial of Service Attack)是一种网络攻击方式,攻击者通过利用大量的计算机或者网络设备向目标服务器发送大量的请求,使得目标服务器无法正常响应合法用户的请求,从而导致服务不可用或者服务质量…

M302H-YS-Hi3798MV300H/MV310-当贝纯净桌面卡刷固件包

M302H-YS-Hi3798MV300H/MV310-当贝纯净桌面卡刷固件包-内有教程及短接点提示 特点: 1、适用于对应型号的电视盒子刷机; 2、开放原厂固件屏蔽的市场安装和u盘安装apk; 3、修改dns,三网通用; 4、大量精简…

LicheePi4A尝鲜开箱笔记

开发板介绍 LicheePi4A是以 TH1520 主控核心,搭载 4TOPSint8 AI 算力的 NPU,支持双屏 4K 显示输出,支持 4K 摄像头接入,双千兆 POE 网口和多个 USB 接口,音频由 C906 核心处理。 LicheePi4A详细介绍可以在https://wi…

SpringCloud 微服务系列——Spring Cloud Alibaba 微服务工具集

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

FreeRTOS内核:详解Task各状态(GPT4帮写)

FreeRTOS内核:详解Task各状态(GPT4帮写) 1. 背景2. Task顶层状态区分3. 运行状态(Running)4. 非运行状态4.1 阻塞态(Blocked):4.2 挂起态(Suspended)4.3 就绪…

K8s基础8——svc基础使用、应用暴露、iptables代理、ipvs代理

文章目录 一、Service基本了解二、Service定义与创建2.1 相关命令2.2 yaml文件参数大全2.3 创建svc2.3.1 两种创建方式类比2.3.2 验证集群内A应用访问B应用2.3.3 将集群外服务定义为K8s的svc2.3.4 分配多个端口 2.4 常用三种类型2.4.1 ClusterIP(集群内部访问&#…

如何解决Redis的双写一致性

目录 1.更新策略2.问题场景3.解决方案 1.更新策略 Redis和MySQL的默认的更新策略是旁路缓存策略,旁路缓存策略又有写策略和读策略 写策略:更新时,先更新数据库,再更新缓存 读策略:读取数据时,如果命中缓…

自动驾驶——Smooth Local Planning

7.1参数曲线 在本模块中,我们将讨论分层运动规划器的最低级别,即局部规划器。作为提醒,局部规划器是分层规划器的一部分,它以无碰撞、高效和舒适的方式执行行为规划器所要求的机动。这导致轨迹,即在给定时间空间中的一…

【C++入门】auto关键字(C++11) + 指针空值nullptr(C++11)

👦个人主页:Weraphael ✍🏻作者简介:目前学习C和算法 ✈️专栏:C航路 🐋 希望大家多多支持,咱一起进步!😁 如果文章对你有帮助的话 欢迎 评论💬 点赞&#x1…

【谷粒商城之ThreadLocal用户身份鉴别】

本笔记内容为尚硅谷谷粒商城购物车ThreadLocal用户身份鉴别部分 目录 ThreadLocal 1.导入依赖 2.编写配置 3.配置Session 4.cookie中的user-key说明 5.编写To与常量 6.编写拦截器 7.添加拦截器的WebConfig配置类 8.Debug测试UserInfoTo中是否有数据 ThreadLocal T…

一篇文章搞定time_wait状态的诸多问题

今天聊聊 TIME_WAIT。 如果看过本文之后,你能够对如下“夺命连环问”做到胸中自有沟壑,则我心甚慰: 你觉得一台机器上看到多少 TIME_WAIT 属于不正常状态? 你觉得出现 TIME_WAIT 相关异常后,会对应用程序造成什么样的…