数据挖掘及其近年来研究热点介绍

news2024/11/27 18:50:47

🎀个人主页: https://zhangxiaoshu.blog.csdn.net
📢欢迎大家:关注🔍+点赞👍+评论📝+收藏⭐️,如有错误敬请指正!
💕未来很长,值得我们全力奔赴更美好的生活!

前言

数据挖掘技术通过从数据中提取有价值的信息和知识,帮助人们更好地理解和利用数据,例如发现隐藏在数据背后的模式和规律、提供决策支持和预测能力、优化业务流程和资源利用、改进产品和服务质量以及识别欺诈和风险等,推动了现代社会的发展和进步,对于企业、政府、科研机构等各个领域都具有重要的意义。本文对数据挖掘技术的应用和挑战以及近年来研究热点进行简单介绍。


文章目录

  • 前言
  • 一、数据挖掘的介绍
  • 二、文献调研
    • 1. 数据挖掘近年来研究热点总结
    • 2.KDD、PAKDD近年来会议论文数据
  • 总结


一、数据挖掘的介绍

数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等[1]。
在这里插入图片描述

近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘利用了来自如下一些领域的思想:①来自统计学的抽样、估计和假设检验;②人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

二、文献调研

1. 数据挖掘近年来研究热点总结

近些年来,数据挖掘技术渗透到了生活的方方面面,本文在查阅了大量的资料和文献基础上,对于数据挖掘技术近些年来的热点研究方向和应用进行简单阐述。

多模态广告融合推荐算法研究;推荐系统的物品侧一般会有图像、声音、文本等多种模态的信息,这些信息可以从多个方面刻画物品。如何去表征这些多模态的信息,并且将这些信息融入到推荐模型中,尤其是融入到当前的用户兴趣模型中,去动态地识别图像和文本中最影响用户兴趣的部分,是我们面临的一大挑战。

融合多场景的推荐系统研究;微信中存在不同的推荐场景,基于用户兴趣、社交等不同维度,满足用户多方面的信息获取需求,通过充分利用不同场景和业务的数据,可以进行推荐系统的多场景多任务联合优化。

基于知识图谱的兴趣推理及其在推荐系统中的应用;推荐系统中,往往基于用户-物品的交互来进行推荐。知识图谱中蕴含的结构化知识可以辅助推荐系统的可解释性,并扩展推荐系统的多样性。现有的知识图谱辅助推荐的方法,多考虑建模物品之间的实体与关系,而较少考虑刻画兴趣点之间的复杂关系及其演化。基于知识图谱的兴趣推理与扩展技术,通过弱监督学习、知识图谱结构挖掘、常识推理、强化学习等技术,习得基于用户-物品交互背后的显示兴趣表示,生成可解释的兴趣扩展路径。

患者疾病模型和行为预测;由于新冠疫情的爆发,线上线下结合的治疗方式越来越受到重视,也产生了一系列相关的研究课题,包括并不限于:挖掘患者相关的医疗数据,进行疾病预测以及对应的疾病阶段预测;患者用药脱落风险预测,提高患者依从性;患者治疗后院外风险预测,是否会有并发症,抑郁等情况出现。研究这些课题,设计到医学数据挖掘,结合医学知识图谱和行为数据的预测模型、超长时间预测模型、少样本学习、医学预训练模型等技术。

医疗数据的主动学习/半监督学习;不同于自然图像,医疗图像(如 CT、MRI)往往为 3D 数据,存在标注难度大、标注信息难以获取、标注成本高昂等问题。我们希望通过主动学习从未标注数据中挑选“更有训练价值的”样本,并进一步通过半监督算法,在降低标注成本的前提下,使深度学习在医疗图像相关任务上取得更好的效果。

交通大数据分析;基于交通大数据,研究城市时空动态预测、网络空间分析、空间决策优化、大数据可视化的理论方法和技术,并在实际场景中创新应用,解决复杂现实问题。

游戏社交推荐算法优化;游戏社交推荐算法具有较多应用场景,如好友推荐、战队推荐、物品推荐、网络传播等,同时游戏社交数据纷繁复杂,包括玩家图片、社交网络、游戏数据等。如何设计有效的推荐算法,具有较高的研究价值。

2.KDD、PAKDD近年来会议论文数据

数据挖掘相关的顶会论文如KDD、PAKDD最近几年的热门主题主要在商业智能方向,即推荐系统和计算广告。本文整理了相关的推荐系统和计算广告方向的相关研究。

推理;因果推断是推荐系统近期的热点,可以为推荐效果提升、AB实验等带来可靠性分析。近年来的相关研究有:新闻推荐推理的增强锚点知识图生成(Reinforced Anchor Knowledge Graph Generation for News Recommendation Reasoning)、社会意识自监督的立体推荐系统(Socially-Aware Self-Supervised Tri-Training for Recommendation)、不可知反事实推理模型消除推荐系统的流行偏差(Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System)等。

多任务、多目标、跨领域推荐场景;多任务、多领域推荐将不同的领域视作不同的任务,比如新闻推荐、视频推荐两个领域的数据可以联合起来训练。多领域推荐和跨领域推荐不同,多领域推荐旨在提升多个领域的效果,而跨领域推荐旨在提升目标领域的效果,一个有方向性一个无方向性。多任务推荐有极高的研究价值和实践价值。从研究角度讲,多任务推荐可以联合多个任务的推荐任务,更进一步提升推荐性能。从实践角度讲,引入额外任务的数据大概率对原有任务有所帮助,是一个一定有效果提升的方法。近年来的相关研究有:序列依赖多任务学习(Modeling the Sequential Dependence among Audience Multi-step Conversions withMulti-task Learning in Targeted Display Advertising)、混合场景多任务学习(Learning to Expand Audience via Meta Hybrid Experts and Critics for Recommendationand Advertising)、对抗特征迁移多任务学习(Adversarial Feature Translation for Multi-domain Recommendation)、迁移学习去偏(Debiasing Learning based Cross-domain Recommendation)等。

纠偏;纠偏,其实就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。构建一个稳定运行的推荐生态系统,纠偏的措施必不可少。近年来的相关研究有:反事实模型推断纠偏(Deconfounded Recommendation for Alleviating Bias Amplification)、动态推荐系统的热度纠偏(Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias inRecommender System和Popularity Bias in Dynamic Recommendation)、大规模推荐系统纠偏(Contrastive Learning for Debiased Candidate Generation in Large-Scale RecommenderSystems)、跨域推荐纠偏(Debiasing Learning based Cross-domain Recommendation)等。

基于图的推荐系统;图神经网络落地推荐系统是近期的热点,是建模类图关系的有效工具。近年来的相关研究有:高效图神经网络训练(MixGCF: An Improved Training Method for Graph Neural Network-based RecommenderSystems)、面向冷启动推荐的异构信息网络多视图去噪图自动编码器(Multi-view Denoising Graph Auto-Encoders on Heterogeneous Information Networks foCold-start Recommendation)、新闻推荐推理的增强锚点知识图生成(Reinforced Anchor Knowledge Graph Generation for News Recommendation Reasoning)。

冷启动;指数据挖掘需要数据的积累,而产品初期数据为空或者数据量太少导致所需的数据量达不到要求。因此冷启动就是积累第一批种子用户的过程。冷启动是推荐系统建立初期必然面对的问题,近年来的相关研究有:异构信息网络多视图去噪图自动编码器实现冷启动(Multi-view Denoising Graph Auto-Encoders on Heterogeneous Information Networks forCold-start Recommendation)、半个性化的音乐流媒体应用冷启动推荐系统(A Semi-Personalized System for User Cold Start Recommendation on Music StreamingApps)、在线推荐系统的架构及其自适应网络的操作(Architecture and Operation Adaptive Network for Online Recommendations)。

序列推荐;在真实场景的推荐系统中,通常会使用所有数据来训练推荐模型,学到的user embedding可以表示用户的兴趣偏好。但是这样的用户表示可能会遗漏用户的序列行为信息,而序列推荐则旨在显式地建模用户的序列行为,提升推荐系统的效果。序列推荐近年来的相关研究有:基于序列多模态信息传输网络的电商微视频推荐系统(SEMlI: A Sequential Multi-Modal Information Transfer Network for E-Commerce Micro-Video Recommendations)。

兴趣推荐;兴趣点推荐近年来的相关研究有:基于元学习的下一代兴趣点推荐系统(Curriculum Meta-Learning for Next POI Recommendation)。
Embedding;Embedding可以认为是推荐算法的核心基石之一,Embedding的主要作用是将稀疏向量转换成稠密向量,便于上层深度神经网络处理。近年来的相关研究有:定制设备上的弹性embedding(Learning Elastic Embeddings for Customizing On-Device Recommenders)、无embedding表的推荐系统特征建模(Learning to Embed Categorical Features without Embedding Tables for Recommendation)、推荐系统中的偏好放大(Preference Amplification in Recommender Systems)、推荐系统中网络嵌入方法的综合分析(Where are we in embedding spaces?A Comprehensive Analysis on Network EmbeddingApproaches for Recommender System)等。

蒸馏;蒸馏是为了解决小型化的问题,近年来的相关研究有:基于拓扑蒸馏的推荐系统(Topology Distillation for Recommender System)。

对抗攻击;对抗攻击是机器学习场景当中,广泛存在的问题,同样也是推荐场景所要面对的问题之一。近年来的相关研究有:不完整及扰动数据攻击推荐系统(Data Poisoning Attack against Recommender System Using Incomplete and PerturbedData)、基于正则化信息的流形神经网络推荐系统(Lnitialization Matters: Regularizing Manifold-informed lnitialization for NeuralRecommendation Systems)、三元对抗学习在推荐系统中毒攻击中的应用(Triple Adversarial Learning for lnfluence based Poisoning Attack in RecommenderSystems)等。

计算广告;计算广告与推荐系统场景非常相似,近年来的相关研究有:策略、广告模型(A Unified Solution to Constrained Bidding in Online Display AdvertisingClustering for Private Interest-based Advertising)、对抗学习(Diversity driven Query Rewriting in Search Advertising)等。


总结

本文对数据挖掘的概念进行了一个初步的介绍,在此基础上,本文基于大量数据挖掘相关论文的基础上,对数据挖掘近年来在学术界、工业界的热点研究方向进行了总结,

文中图片大多来自论文和网络,如有侵权,联系删除,文中有不对的地方欢迎指正、补充。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1577202.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring: 后端状态码如何与http状态码保持一致

文章目录 一、背景二、解决方案 一、背景 今天使用postman在做接口测试的时候发现了一个有趣的问题:响应体的status和http的status一样,出于好奇对该现象进行了总结。 二、解决方案 通过拦截器ResponseBodyAdvice,做到统一拦截 Controll…

论文笔记:Detecting Pretraining Data from Large Language Models

iclr 2024 reviewer评分 5688 1 intro 论文考虑的问题:给定一段文本和对一个黑盒语言模型的访问权限,在不知道其预训练数据的情况下,能否判断该模型是否在这段文本上进行了预训练 这个问题是成员推断攻击(Membership Inference Attacks&…

【算法集训】基础算法:二分查找 | 概念篇

二分枚举,也叫二分查找,指的就是给定一个区间,每次选择区间的中点,并且判断区间中点是否满足某个条件,从而选择左区间继续求解还是右区间继续求解,直到区间长度不能再切分为止。 由于每次都是把区间折半&am…

AI图片四季更替解决方案,一键切换,四季美景尽在指尖

随着科技的不断进步,人工智能(AI)已经渗透到我们生活的方方面面,为各行各业带来了前所未有的变革。在图像处理领域,美摄科技凭借领先的AI技术,推出了一款创新的AI图片四季更替解决方案,让风景图…

php反序列化题目

[NewStarCTF 公开赛赛道]UnserializeOne 分析代码,最终需要调用到 file_get_contents 即可获得flag 从后往前分析 触发 __invoke 需要 以调用函数的方式调用一个对象 可以找到Start类 里的__isset中可以将类当作函数调用 所以需要调用到 __isset 就需要 isset()…

微服务篇面试题

1、SpringCloud的组件有哪些? 2、负载均衡如何实现? 3、什么是服务雪崩?怎么解决? 4、项目中有没有做过限流? Tomcat单体可以,分布式不适合 5、解释一下CAP和BASE P:加入node03这边的网络断了&a…

提示工程中的10个设计模式

我们可以将提示词定义为向大型语言模型(Large Language Model,LLM)提供的一个查询或一组指令,这些指令随后使模型能够维持一定程度的自定义或增强,以改进其功能并影响其输出。我们可以通过提供细节、规则和指导来引出更有针对性的输出&#x…

PostgreSQL入门到实战-第五弹

PostgreSQL入门到实战 PostgreSQL查询语句(二)官网地址PostgreSQL概述PostgreSQL给列取别名理论PostgreSQL给列取别名实操更新计划 PostgreSQL查询语句(二) 官网地址 声明: 由于操作系统, 版本更新等原因, 文章所列内容不一定100%复现, 还要以官方信息为准 https://www.post…

【Labview】虚拟仪器技术

一、背景知识 1.1 虚拟仪器的定义、组成和应用 虚拟仪器的特点 虚拟仪器的突出特征为“硬件功能软件化”,虚拟仪器是在计算机上显示仪器面板,将硬件电路完成信号调理和处理功能由计算机程序完成。 虚拟仪器的组成 硬件软件 硬件是基础,负责将…

【Linux】进程状态僵尸进程和孤儿进程阻塞、挂起和运行

个人主页 : zxctscl 如有转载请先通知 文章目录 1. 前言2. Linux的进程状态2.1 S状态2.2 R状态2.3 T/t状态2.4 D状态 3. 僵尸进程和孤儿进程3.1 僵尸进程3.2 孤儿进程 4. 进程的阻塞、挂起和运行4.1 运行4.2 阻塞状态4.3 挂起4.4 进程切换 1. 前言 上一篇博客中提到…

Redis: 持久化

文章目录 一、RDB持久化1、概念2、生成、载入RDB文件3、执行时机(1) 执行save命令(2)执行bgsave命令(3)Redis停机时(4)触发RDB条件 4、bgsave原理5、小结 二、AOF持久化1、概念2、AO…

Linux学习-网络UDP

网络 数据传输,数据共享 网络协议模型 OSI协议模型 应用层 实际发送的数据 表示层 发送的数据是否加密 会话层 是否建立会话连接 传输层 数据传输的方式(数据报、流式&#…

C++STL(list类)

文章目录 1.list类的介绍2.list的基本用法2.1 基本用法2.2 迭代器失效2.3 reverse(逆置)2.3 sort(排序)2.4 unique(去重)2.5 splice(转移) 3.list的底层(模拟实现)3.1 list的3.2 修改链表问题3.3 完整代码 1.list类的介绍 list是可以在常数范围内在任意位置进行插入和删除的序列…

代码随想录阅读笔记-二叉树【将有序数组转换为二叉搜索树】

题目 将一个按照升序排列的有序数组,转换为一棵高度平衡二叉搜索树。 本题中,一个高度平衡二叉树是指一个二叉树每个节点 的左右两个子树的高度差的绝对值不超过 1。 示例: 思路 做这道题目之前大家可以了解一下之前讲到的一些问题 从中序和后序遍历…

红豆开箱上手必读

什么是红豆? 红豆开源平台是由奇迹物联发布并主导维护的 LTE Cat1 物联网产品开发平台,它是基于 Cat1 蜂窝通信模组 AM430E 构建的技术开源平台。该平台的目标是帮助物联网行业从业者利用搭乐高模块化模式进行 Open CPU 开发,它为开发者提供…

C++:类与对象(一)

hello,各位小伙伴,本篇文章跟大家一起学习《C:类与对象(一)》,感谢大家对我上一篇的支持,如有什么问题,还请多多指教 ! 文章目录 面向对象和面向过程的区别1.类的引入2.…

2024年MathorCup妈妈杯数学建模思路C题思路解析+参考成品

1 赛题思路 (赛题出来以后第一时间在群内分享,点击下方群名片即可加群) 2 比赛日期和时间 报名截止时间:2024年4月11日(周四)12:00 比赛开始时间:2024年4月12日(周五)8:00 比赛结束时间&…

Hello 算法9:图

https://www.hello-algo.com/chapter_graph/graph/#911 图的基本概念 图由顶点和边组成,比起链表(线性数据结构)和树(分治结构),图更自由也更复杂 方向性 在无向图中,边表示两个顶点之间的双…

苹果手机怎么查找对方手机位置?2招快速定位!

在现代社会中,智能手机已经成为我们生活中不可或缺的一部分。然而,随着手机的普及,我们也面临着一些问题,比如手机丢失或被盗。 在这种情况下,如何快速准确地找到手机的位置就显得尤为重要。苹果手机怎么查找对方手机…

PKI:构建数字安全基石的关键技术

在数字化时代,网络安全已成为我们日常生活和工作的重要组成部分。为了确保数据的完整性、机密性和身份的真实性,公钥基础设施(Public Key Infrastructure,简称PKI)技术应运而生,为构建数字安全基石提供了重…