人工智能-数据分析及特征提取思路

news2025/1/12 2:54:39

1、概况

基于学生行为数据预测是否涉黄、涉黑等。

2.数据分析

数据分析的意义包括得到数据得直觉、发掘潜在的结构、提取重要的变量、删除异常值、检验潜在的假设和建立初步的模型。

2.1数据质量分析
2.1.1数据值分析

查看数据类型:
首先明确各字段的数据类型,例如学生标识通常为字符串类型(如学号),访问时间一般是日期时间类型,访问网址、搜索关键词等为文本类型,停留时长、访问频次等则是数值类型,而是否涉黄涉黑标签多为整型(0 或 1)表示类别。确保数据类型的准确性对后续的处理和分析至关重要,若类型错误可能导致无法正确进行相应的计算或操作。

值域范围检查(针对数值型字段):
对于像停留时长、访问频次这类数值型数据,查看其取值范围是否合理。例如,停留时长理论上应为非负数值,若出现负数则明显不符合实际情况,可能是数据记录错误。再比如,访问频次如果过高(远超正常学生在一定时间内可能的上网操作次数),也需要进一步核实,有可能是系统异常重复计数或者数据录入错误导致的异常值。

文本内容审查(针对文本型字段):
对于访问网址、搜索关键词以及聊天记录(若有)等文本字段,简单浏览部分样本内容,查看是否存在乱码、无法识别的字符或者不符合正常语义表达的内容。例如,访问网址中出现一些格式完全错误、不符合 URL 规范的字符串,可能意味着数据采集过程中出现了问题,需要对这些数据进行清理或修正。

2.1.2 异常值分析

数值型数据异常值检测方法:

箱线图法:绘制各数值型字段(如停留时长、访问不同类型网站的频次等)的箱线图,通过箱线图的上下限(通常定义为 Q1 - 1.5 * IQR 和 Q3 + 1.5 * IQR,其中 Q1 为下四分位数,Q3 为上四分位数,IQR 为四分位距)来判断异常值。落在箱线图上下限范围之外的数据点可视为异常值。例如,若发现某个学生在某网站的停留时长远远超出箱线图上限,比大部分学生的停留时间长很多,这就需要进一步排查是因为该学生确实存在特殊的长时间浏览行为(如进行深度学习、观看长篇视频等合理原因),还是数据记录错误等异常原因导致的。

基于统计分布的方法:假设某些数值型数据符合特定的统计分布(如正态分布等),可以通过计算均值和标准差,将偏离均值一定倍数标准差(通常取 3 倍标准差范围外)的数据认定为异常值。比如,统计学生每天的上网总时长,若其服从正态分布,那些超出 3 倍标准差的上网时长数据就很可能是异常情况,需要关注并处理。

分类型数据异常识别:

频次统计:对于像网站域名类型、下载文件类型等分类字段,统计各分类出现的频次,查看是否存在出现频次极低、不符合常理的类别值。例如,在域名类型中出现了一个从未见过且无法与正常网站类别对应的域名,可能是数据录入错误或者恶意伪造的数据,需要进一步核实该记录的真实性。

逻辑判断:依据业务知识和常识进行逻辑判断,检查分类值之间是否存在矛盾或不合理的情况。比如,若记录显示学生从一个标注为 “正规教育资源” 的网站下载了类型为 “成人视频” 的文件,这显然不符合逻辑,可能存在数据标注错误或者其他异常情况,需要对相关记录进行修正或排查。

异常值处理策略:

核实与修正(如果能确定异常原因):对于能够明确判断是由于数据录入错误、系统故障等原因导致的异常值,如时间记录格式错误、明显的分类标注错误等,可手动修正为正确的值。例如,将错误的时间格式按照正确的日期时间格式进行调整,或者修正错误标注的网站域名类型等。

删除异常值(无法准确修正且对整体数据影响较大时):若异常值占比较小且明显不符合正常的数据分布规律,对后续模型训练可能造成干扰,可考虑删除这些异常值对应的记录。例如,个别学生的异常高访问频次是由于系统故障重复记录导致的,删除这些异常记录可使数据更贴近真实情况,同时避免对模型训练产生误导。不过,在删除异常值时要谨慎操作,确保不会丢失重要的信息或影响数据的代表性。

数据转换(使异常值不那么极端影响结果):对于一些无法直接删除的数值型异常值,可以通过数据变换方法,如对数变换、标准化等,将其数值范围调整到更合理区间,降低其对整体分析的影响。例如,对停留时长进行对数变换后,异常长的停留时长在变换后的数值上就不会显得过于突出,更符合数据的整体分布规律。另外,对于一些异常的分类值,如果不能直接修正或删除,可以将其归为一个特殊的 “其他” 类别,在后续分析中单独考虑其影响。

2.1.3一致性分析

跨字段逻辑一致性检查:

时间关联一致性:查看访问时间与停留时长之间是否逻辑一致。例如,若某条记录显示访问时间是凌晨 1 点开始,停留时长为 2 小时,但后续紧接着的另一条记录访问时间却是凌晨 3 点 30 分,中间存在时间间隔不符合常理,这可能意味着数据记录存在时间戳不准确或者停留时长计算错误等问题,需要对相关记录进行核对和调整。

行为关联一致性:分析不同行为相关字段之间的逻辑关系是否合理。比如,若学生在某一时刻记录显示正在访问一个正规学习网站,而同时搜索关键词却都是涉黄涉黑相关敏感词,这种行为上的矛盾可能暗示数据存在错误或者需要进一步深入了解背后的原因,可能是数据采集的时间点不准确或者存在其他干扰因素导致的不一致情况。

重复记录检查:通过对学生标识以及关键行为字段(如访问网址、搜索关键词等组合)进行查重操作,查看是否存在完全重复的记录。重复记录可能是由于数据采集过程中的重复采集、存储错误等原因导致的,过多的重复记录会影响数据分析的准确性以及模型训练的效果,需要根据具体情况进行去重处理。如果是少量的偶然重复,可直接删除重复记录;若重复情况较为复杂且涉及大量数据,需要进一步排查数据采集和存储环节的问题,确保数据的准确性和唯一性。

3、数据特征分析

3.1分布分析
3.1.1数值型数据分布分析

绘制直方图或密度图:

对于停留时长、访问频次等数值型数据,绘制直方图或密度图来直观展示其分布形态。例如,通过绘制学生每天上网总时长的直方图,可以观察到上网时长是近似正态分布、偏态分布还是其他分布形态。如果呈现正态分布,说明大部分学生的上网时长集中在某个均值附近,两侧的极端值较少;若为偏态分布(如右偏态,意味着长尾在右侧),则表示有少数学生上网时间较长,偏离了大部分学生的上网时长范围,这有助于进一步了解数据的整体特征以及发现潜在的异常值或特殊情况。

统计分布参数(如均值、中位数、众数等):

计算数值型数据的均值、中位数、众数以及标准差等统计参数,从数值角度描述数据的集中趋势和离散程度。例如,均值反映了数据的平均水平,中位数则更能体现数据的中间位置情况(不受极端值影响),众数是出现频次最高的数据值,标准差则表示数据相对于均值的离散程度。通过对比这些参数,可以更深入地了解数据的分布特点,比如若均值和中位数相差较大,可能暗示数据存在偏态分布,有较多的极端值影响了均值的代表性。

3.1.2分类型数据分布分析

绘制柱状图:

针对网站域名类型、下载文件类型等分类字段,绘制柱状图展示各分类的频次分布情况。从柱状图中可以直观地看出学生访问不同类型网站的偏好情况,例如哪种类型的网站被访问的次数最多,哪些类型相对较少等,这有助于发现数据中的重点关注类别以及可能存在的异常类别(如访问不良内容类网站的情况)。

计算比例关系:

统计各分类在总体中所占的比例,了解不同类别数据的占比情况。例如,计算访问正规教育类网站的记录占总上网记录的比例,以及涉黄涉黑相关网站(如果有标记)的访问记录占比等,通过这些比例关系可以判断整体数据中各类行为的相对重要性和普遍性,为后续的特征工程和模型训练提供参考依据。

3.2对比分析
3.2.1不同学生群体对比

按年级分组对比:将学生按照不同年级进行分组,对比各年级学生在上网行为特征上的差异。例如,分析不同年级学生访问各类网站的频次、搜索关键词的特点等,可能会发现高年级学生由于知识储备和自主学习需求不同,访问学术资源类网站的频次更高,而低年级学生可能更多地访问娱乐类网站;同时,也可以观察不同年级学生涉及涉黄涉黑相关敏感词的情况是否存在差异,以便针对不同年龄段的学生特点采取相应的教育和监管措施,以及在模型训练中考虑不同年级的特征差异

按性别分组对比:根据学生性别进行分组对比,查看男女生在上网行为方面的不同之处。比如,可能发现男生对游戏类网站的访问频次相对较高,而女生在社交类网站上花费的时间更多;在搜索关键词方面,男女生关注的话题也可能有所不同,这些差异可以帮助我们更细致地了解学生群体的行为模式,在特征工程中可以考虑加入性别相关的交互特征,以提高模型对不同性别学生行为判断的准确性。

3.2.2不同时间段对比

按日、周、月等时间周期对比:分析学生在不同时间周期内的上网行为变化。例如,对比工作日和周末学生上网的频次、访问网站类型以及停留时长等情况,可能会发现周末学生上网时间普遍更长,访问娱乐类网站的比例更高;按月对比不同月份的上网行为,可能会发现寒暑假期间学生上网行为与在校期间有较大差异,这些时间上的对比分析有助于把握学生上网行为的动态变化规律,为后续的特征构建和模型训练提供更具时效性的信息,比如可以针对不同时间段设置不同的特征权重或者调整模型的训练策略

3.3统计量分析
3.3.1集中趋势统计量(如均值、中位数、众数)

均值:计算各数值型特征(如停留时长、访问频次等)的均值,了解学生上网行为在平均水平上的表现。例如,计算学生平均每次访问网站的停留时长,通过均值可以大致判断学生浏览网页内容的平均投入程度;但要注意均值容易受极端值影响,当数据存在较多异常值时,均值可能不能很好地反映数据的真实集中趋势。

中位数:确定各数值型特征的中位数,它表示将数据按照大小顺序排列后处于中间位置的数值。中位数相较于均值更具稳健性,不受极端值的影响较大,能更准确地反映数据的中间水平。例如,在分析学生每天上网总时长时,如果均值受到少数长时间上网的学生影响而偏高,中位数则可以更客观地体现大部分学生每天上网的大致时长情况,为后续的数据分析和模型训练提供更可靠的参考。

众数:找出各数值型或分类型特征的众数,即出现频次最高的数据值(对于分类型数据就是出现次数最多的类别)。比如,在网站域名类型中,众数可能是某个主流的娱乐类网站域名,这说明该类型网站是学生访问最为频繁的,通过众数可以了解到学生上网行为中最具代表性的情况,在特征工程中可以将众数相关的特征进行重点考虑,或者作为一种基准来对比其他类别或数值的情况。

3.3.2离散程度统计量(如标准差、方差、极差)

标准差:计算各数值型特征的标准差,它衡量了数据相对于均值的离散程度。标准差越大,说明数据越分散,学生之间在相应上网行为特征上的差异越大;反之,标准差越小,数据越集中在均值附近。例如,通过比较不同类型网站停留时长的标准差,可以了解到学生对不同类型网站关注程度的差异情况,对于标准差较大的网站类型,说明学生在该网站上的    停留时长差异明显,可能需要进一步分析原因,是因为网站内容多样性导致还是个体兴趣差异等因素造成的,这对后续的特征构建和模型理解都有帮助。

方差:方差是标准差的平方,与标准差具有相同的含义,都是用于描述数据的离散程度,在一些统计分析和模型计算中也会经常用到,通过方差可以更直观地看到数据的波动情况,例如分析学生访问频次的方差,能判断学生上网行为的稳定性程度。

极差:极差是数据中的最大值减去最小值得到的差值,它简单直观地反映了数据的取值范围大小。例如,通过计算学生上网总时长的极差,可以快速了解到学生之间上网时间跨度的最大差异情况,对于发现数据中的极端值以及整体数据的波动范围有一定的帮助。

3.4相关性分析
3.4.1数值型特征之间的相关性分析

计算相关系数(如 Pearson 相关系数、Spearman 相关系数等):使用统计方法计算不同数值型特征之间的相关系数,以衡量它们之间线性相关的程度。例如,计算停留时长与访问频次之间的 Pearson 相关系数,如果相关系数接近 +1,表示两者之间存在强正相关,即访问频次越高,停留时长往往也越长;若相关系数接近 -1,则为强负相关;接近 0 表示两者之间基本不存在线性相关关系。Spearman 相关系数则更适用于非线性相关或者存在等级顺序的数据情况。通过相关性分析,可以发现哪些特征之间存在较强的关联,避免在特征工程中引入过多冗余的相关特征,同时也能挖掘出一些潜在的特征组合关系,为模型训练提供更有效的输入特征。

绘制散点图(可视化相关性):对于相关性分析中发现的一些重要的数值型特征对,绘制散点图来直观展示它们之间的关系。例如,以访问频次为横轴,停留时长为纵轴绘制散点图,通过观察散点的分布情况,可以更清晰地看到两者之间的线性或非线性关系趋势,辅助判断相关系数所反映的相关性是否符合实际情况,以及进一步探索是否存在异常的数据点影响了相关性分析结果等。

3.4.2数值型特征与分类目标(是否涉黄涉黑)的相关性分析

分组统计分析:将学生按照是否涉黄涉黑进行分组,然后对比两组学生在各数值型特征(如访问不良内容类网站频次、涉黄敏感词出现频次等)上的均值、中位数等统计量差异。例如,发现涉黄涉黑的学生组在访问不良内容类网站频次上的均值明显高于未涉黄涉黑的学生组,这就表明该特征与目标变量之间可能存在较强的关联,在后续的特征工程和模型训练中应重点关注此类特征,将其作为重要的判断依据纳入模型。

使用统计检验方法(如 t 检验、卡方检验等,根据数据类型选择合适方法):通过相应的统计检验方法来判断数值型特征与分类目标之间的相关性是否具有统计学意义。例如,对于数值型特征 “在涉黑相关网站停留时长” 与目标变量 “是否涉黑”,可以采用 t 检验(假设数据符合正态分布等条件)来检验两组(涉黑组和未涉黑组)在该特征上的均值差异是否显著,若检验结果显示差异显著,则说明该特征与是否涉黑有较强的相关性,对模型区分涉黑学生有一定的帮助作用,可作为重要特征用于模型构建。

3.4.3分类型特征与分类目标(是否涉黄涉黑)的相关性分析

列联表分析:对于像网站域名类型、下载文件类型等分类特征,构建列联表,统计不同类别与是否涉黄涉黑之间的交叉频数情况。例如,在列联表中可以看到访问正规教育类网站的学生中涉黄涉黑的人数和未涉黄涉黑的人数,以及访问不良内容类网站的学生相应的涉黄涉黑情况等,通过观察列联表中的频数分布,可以初步判断不同类别与目标变量之间的关联程度,比如发现访问不良内容类网站的学生中涉黄涉黑的比例相对较高,说明该分类特征与目标变量有较强的相关性,在模型训练时可将其作为重要的分类依据进行特征编码和使用。

卡方检验(用于检验分类变量之间的关联性):基于列联表进行卡方检验,判断分类型特征与是否涉黄涉黑之间的相关性是否具有统计学意义。若卡方检验的结果显示 p 值小于设定的显著性水平(如 0.05),则表明两者之间存在显著的关联,可以将该分类型特征纳入后续的特征工程和模型训练中,帮助模型更好地进行分类决策。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2275265.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Flink三种集群部署模型

这里写自定义目录标题 Flink 集群剖析Flink 应用程序执行Flink Session 集群(Session Mode)Flink Job 集群(以前称为per-job)Flink Application 集群(Application Mode) 参考 Flink 集群剖析 Flink 运行时…

JVM实战—12.OOM的定位和解决

大纲 1.如何对系统的OOM异常进行监控和报警 2.如何在JVM内存溢出时自动dump内存快照 3.Metaspace区域内存溢出时应如何解决(OutOfMemoryError: Metaspace) 4.JVM栈内存溢出时应如何解决(StackOverflowError) 5.JVM堆内存溢出时应该如何解决(OutOfMemoryError: Java heap s…

一文读懂「LoRA」:大型语言模型的低秩适应

LoRA: Low-Rank Adaptation of Large Language Models 前言 LoRA作为大模型的微调框架十分实用,在LoRA出现以前本人都是通过手动修改参数、优化器或者层数来“炼丹”的,具有极大的盲目性,但是LoRA技术能够快速微调参数,如果LoRA…

IT面试求职系列主题-人工智能(一)

想成功求职,必要的IT技能一样不能少,再从人工智能基础知识来一波吧。 1)您对人工智能的理解是什么? 人工智能是计算机科学技术,强调创造能够模仿人类行为的智能机器。这里智能机器可以定义为能够像人一样行动、像人一…

浏览器报错:您的连接不是私密连接,Kubernetes Dashboard无法打开

问题描述 部署完成Kubernetes Dashboard后,打开HTTPS的web页面,Chrome和Edge浏览器都无法正常加载页面,会提示您的连接不是私密连接的报错。 ​​​​​​​​​​​​ 原因: 浏览器不信任这些自签名的ssl证书,为了…

【Unity插件】解决移动端UI安全区问题 - Safe Area Helper

在移动端设计界面时,必须要考虑的就是UI的安全区。 Unity本身也提供了Safearea的API。 但在asset store时已经有人提供了免费的插件(Safe Area Helper),我们可以直接使用。 插件链接: https://assetstore.unity.com/p…

ffmpeg7.0 aac转pcm

#pragma once #define __STDC_CONSTANT_MACROS #define _CRT_SECURE_NO_WARNINGSextern "C" { #include "libavcodec/avcodec.h" }//缓冲区大小(缓存5帧数据) #define AUDIO_INBUF_SIZE 40960 /*name depthu8 8s16 …

USRP X310 Windows 烧录镜像

说明 USRP-X 系列设备包含两个用于两个以太网通道的 SFP 端口。由于 SFP 端口支持 1 千兆 (SFP) 和 10 千兆 (SFP) 收发器,因此 UHD 附带了多个 FPGA 图像,以确定上述接口的行为。 注意:Aurora 图像需要从 FPGA 源代码手动构建。 FPGA 图像…

新型物联网智能断路器功能参数介绍

安科瑞刘鸿鹏 摘要 智能断路器作为现代配电系统的重要组成部分,以其实时监测、多重保护和远程操控的智能化功能,显著提升了电力系统的运行效率和安全性。本文以ASCB1系列智能断路器为例,探讨其技术特点和在工业、商业及民用建筑中的应用价…

119.使用AI Agent解决问题:Jenkins build Pipeline时,提示npm ERR! errno FETCH_ERROR

目录 1.Jenkins Build时的错误 2.百度文心快码AI智能体帮我解决 提问1:jenkins中如何配置npm的源 提问2:jenkins pipeline 类型为pipeline script from SCM时,如何配置npm源 3.最终解决方法-Jenkinsfile的修改 4.感触 1.Jenkins Build时…

pytest+allure 入门

使用allure如何生成自动化测试报​​​​​​告 ?一文详解allure的使用 。_allure测试报告-CSDN博客 例子: import allure import pytest import osallure.epic("闹钟") allure.feature("闹钟增删") class TestSchedule():def setu…

【FPGA】时序约束与分析

设计约束 设计约束所处环节: 约束输入 分析实现结果 设计优化 设计约束分类: 物理约束:I/O接口约束(例如引脚分配、电平标准设定等物理属性的约束)、布局约束、布线约束以及配置约束 时序约束:设计FP…

【Vim Masterclass 笔记09】S06L22:Vim 核心操作训练之 —— 文本的搜索、查找与替换操作(第一部分)

文章目录 S06L22 Search, Find, and Replace - Part One1 从光标位置起,正向定位到当前行的首个字符 b2 从光标位置起,反向查找某个字符3 重复上一次字符查找操作4 定位到目标字符的前一个字符5 单字符查找与 Vim 命令的组合6 跨行查找某字符串7 Vim 的增…

win32汇编环境,窗口程序中对按钮控件常用操作的示例

;运行效果 ;win32汇编环境,窗口程序中对按钮控件常用操作的示例 ;常用的操作,例如创建按钮控件,使其无效,改变文本,得到文本等。 ;将代码复制进radasm软件里,直接就可以编译运行。重点部分加备注。 ;>&g…

继承(7)

大家好,今天我们继续来学习一下继承的知识,这方面需要大家勤动脑才能理解,那么我们来看。 1.9 protected关键字 在类和对象章节中,为了实现封装特性,java中引入访向限定符,主要限定:类或者类中成员能否在类外和其他包中被访问. …

基于RK3568/RK3588大车360度环视影像主动安全行车辅助系统解决方案,支持ADAS/DMS

产品设计初衷 HS-P2-2D是一款针对大车盲区开发的360度全景影像 安全行车辅助系统,通过车身四周安装的超广角像机,经算法合成全景鸟瞰图,通过鸟瞰图,司机非常清楚的看清楚车辆四周情况,大大降低盲区引发的交通事故。 产…

NVIDIA发布GeForce RTX 50 系列,售价549美元起

2025 CES消费电子展(1月7日至10日,美国拉斯维加斯)正式开幕。北京时间1月7日 (星期二)上午10:30,NVIDIA举办主题演讲,CEO黄仁勋担任主讲。正式发布了全新的RTX 50系列显卡!一月下旬上市。同时公布了各版本的…

后端:Spring(IOC、AOP)

文章目录 1. Spring2. IOC 控制反转2-1. 通过配置文件定义Bean2-1-1. 通过set方法来注入Bean2-1-2. 通过构造方法来注入Bean2-1-3. 自动装配2-1-4. 集合注入2-1-5. 数据源对象管理(第三方Bean)2-1-6. 在xml配置文件中加载properties文件的数据(context命名空间)2-1-7. 加载容器…

基于EasyExcel实现通用版一对一、一对多、多层嵌套结构数据导出并支持自动合并单元格

接口功能 通用 支持一对一数据结构导出 支持一对多数据结构导出 支持多层嵌套数据结构导出 支持单元格自动合并 原文来自:https://blog.csdn.net/qq_40980205/article/details/136564176 新增及修复 基于我自己的使用场景,新增并能修复一下功能&#x…

【数据库】一、数据库系统概述

文章目录 一、数据库系统概述1 基本概念2 现实世界的信息化过程3 数据库系统内部体系结构4 数据库系统外部体系结构5 数据管理方式 一、数据库系统概述 1 基本概念 数据:描述事物的符号记录 数据库(DB):长期存储在计算机内的、…