传统图机器学习的特征工程

news2024/11/15 7:09:33

视频资料

同济子豪兄中文精讲视频:

节点特征工程:https://www.bilibili.com/video/BV1HK411175s

连接特征工程:https://www.bilibili.com/video/BV1r3411m7sD

全图特征工程:https://www.bilibili.com/video/BV14W4y1V7gg

斯坦福原版视频:

https://www.youtube.com/watch?v=3IS7UhNMQ3U&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=4

https://www.youtube.com/watch?v=4dVwlE9jYxY&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=5

https://www.youtube.com/watch?v=buzsHTa4Hgs&list=PLoROMvodv4rPLKxIpqhjhPgdQy7imNkDn&index=6

图基本知识

图的基本表示

本体图

导入数据之前就应设计好的

导入数据后形成具体图

如何设计本体图,取决于要解决的任务。

有向图和无向图

异质图

二分图

节点的度

邻接矩阵

连接列表

邻接列表

无权有权图

带环图/多接图

联通与非联通图

强连接与弱连接

传统图机器学习方法-节点

知识总结

扩展阅读

https://www.geeksforgeeks.org/eigenvector-centrality-centrality-measure

https://www.jsums.edu/nmeghanathan/files/2015/08/CSC641-Fall2015-Module-2-Centrality-Measures.pdf?x61976

https://aksakalli.github.io/2017/07/17/network-centrality-measures-and-their-visualization.html

上海地铁线路图:[http://www.shmetro.com上海地铁线路图:[http://www.shmetro.com](http://www.shmetro.com/)

上海地铁时刻表:http://service.shmetro.com/hcskb/index.htm

北京地铁线路图:[https://map.bjsubway.com北京地铁线路图:[https://map.bjsubway.com](https://map.bjsubway.com/)

北京地铁时刻表:https://www.bjsubway.com/station/smcsj

https://hal.archives-ouvertes.fr/hal-01764253v2/document

NetworkX-常用图数据挖掘算法:https://networkx.org/documentation/stable/reference/algorithms/index.html

NetworkX-节点重要度算法:https://networkx.org/documentation/stable/reference/algorithms/centrality.html

NetworkX-Clustering算法:https://networkx.org/documentation/stable/reference/algorithms/clustering.html

NetworkX-最短路径算法:https://networkx.org/documentation/stable/reference/algorithms/shortest_paths.html

思考题

节点层面,存在哪些数据挖掘任务,有何应用场景?

“传统图机器学习方法”传统在何处?

特征工程在数据挖掘中有什么作用?

在传统图机器学习中,为什么要对节点、连接、全图做特征工程?

传统图机器学习方法相比图神经网络(深度学习),有什么优点和缺点?

节点层面可以构造哪些特征?这些特征可以归为哪两类?

简述不同的Node Centrality计算方法

只用Node Degree作为节点重要度,会有什么缺点?

Eigenvector centrality和PageRank有什么异同?

Betweenness Centrality和Closeness Centrality有什么区别?分别揭示了节点是什么特征?

你认为所有海峡中,哪个海峡的Betweenness Centrality最高?

你认为中国所有城市中,哪个城市的Closeness Centrality最高?

湖北到中国任何一个省级行政区,最多跨两个省,说明哪个特征高?

你认为你所在城市的地铁站中,哪个地铁站的Closeness Centrality最高?哪个地铁站的Clutering Coefficient最高?

地铁线路连接关系,应该如何表示?(邻接矩阵、连接列表、邻接列表)

你认为你的人脉圈中,谁的Clutering Coefficient最高?为什么?

什么是Ego-Network(自我中心网络)?

Graphlet和Wavelet(小波分析)有什么异同?

由四个节点组成的图,存在多少种Graphlet?

五个节点构造的所有Graphlet中,存在多少种不同角色的节点?

节点的哪些特征,可以衡量该节点是否为中心枢纽节点?桥接节点?边缘孤立节点?

除了课程中讲的Centrality之外,还有哪些Centrality指标?(PageRank、Katz Centrality、HITS Hubs and Authorities)

传统图机器学习方法-连接

知识总结

扩展阅读

NetworkX相关文档

https://networkx.org/documentation/stable/reference/generated/networkx.classes.function.common_neighbors.html

https://networkx.org/documentation/stable/reference/algorithms/generated/networkx.algorithms.link_prediction.jaccard_coefficient.html

https://networkx.org/documentation/stable/reference/algorithms/generated/networkx.algorithms.link_prediction.adamic_adar_index.html

https://stackoverflow.com/questions/62069781/how-to-find-the-similarity-between-pair-of-vertices-using-katz-index-in-python

思考题

连接层面,存在哪些数据挖掘任务,有何应用场景?

连接层面可以构造哪些特征?这些特征可以归为哪三类?

简述Link Prediction的基本流程

A和B都知道梅西,C和D都知道同济子豪兄,请问哪对人物更容易产生社交连接。可以用哪个特征解释?

两个节点没有共同好友时,可以用什么特征,将连接编码为D维向量?

简述Katz Index的算法原理

如何计算节点U和节点V之间,长度为K的路径个数

为什么不直接把link两端节点的向量特征concat到一起,作为link的向量特征

传统图机器学习方法-全图

知识总结

扩展阅读

https://networkx.org/documentation/stable/reference/algorithms/generated/networkx.algorithms.graph_hashing.weisfeiler_lehman_graph_hash.html

思考题

全图层面,存在哪些数据挖掘任务,有何应用场景?

全图层面可以构造哪些特征?

全图层面的Graphlet,和节点层面的Graphlet,有什么区别?

子图匹配,算法复杂度如何计算?

简述Weisfeiler-Lehman Kernel的算法原理

Weisfeiler-Lehman Kernel的词汇表(颜色表)是如何构建的?

Weisfeiler-Lehman Kernel,算法复杂度是多少?

Weisfeiler-Lehman Kernel和图神经网络(GNN)有什么关系?

简述Kernel Methods基本原理

为什么在Graph-level任务中,使用Kernel Methods

除了Graphlet Kernel和Weisfeiler-Lehman Kernel之外,还有哪些Kernel

传统图机器学习和特征工程中,哪些特征用到了邻接矩阵Adjacency Matrix?

如何把无向图节点、连接、全图的特征,推广到有向图?

如何用代码实现Weisfeiler-Lehman Kernel?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/351941.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

spring的事物控制

1.调用这个方法的对象是否是spring的代理对象($CGLIB结尾的) 2.这个方法是否是加了Transactional注释 都符合才可以被事物控制 如果调用方法的对象没有被事物控制,那么被调用的方法即便是加了Transactional也是没用的 一个非事务方法调同类…

13.hadoop系列之MapReduce排序实践

本文我们学习MapReduce的全排序、二次排序以及区内排序 1.MapReduce概述 MapTask和ReduceTask均会对数据按照key进行排序。该操作属于hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要默认排序是按照字典顺序排序,通过快速排序…

【蓝桥杯嵌入式】第十三届蓝桥杯嵌入式国赛程序设计试题以及详细题解

文章目录原题展示原题分析详细题解LED模块按键模块串口LCD模块模拟电压读取(ADC)脉冲输入输出文章福利原题展示 原题分析 本届国赛试题主要包含LCD、LED、按键、EEPROM、串口、模拟电压输入、脉冲输入输出七大部分,其中前面三个部分是蓝桥杯嵌入式的“亲儿子”(必考…

SpringBoot 集成 Kafka

SpringBoot 集成 Kafka1 安装 Kafka2 创建 Topic3 Java 创建 Topic4 SpringBoot 项目4.1 pom.xml4.2 application.yml4.3 KafkaApplication.java4.4 CustomizePartitioner.java4.5 KafkaInitialConfig.java4.6 SendMessageController.java5 测试1 安装 Kafka Docker 安装 Kafk…

数据库原理及应用期末复习汇总(附某高校期末真题试卷)

文章目录《数据库原理及应用》试题1一、选择题(共35分)二、填空(每空1分,共20分)三、T-SQL综合题(共35分)四、综合应用题(共10分)《数据库原理及应用》试题2一、选择题(共35分)二、填空&#xf…

handler解析(5)常见面试题

目录 1.请大致讲下handler的工作原理 2.handler.postDelay原理 3.一个线程有几个Looper?几个Handler? 4. Handler内存泄漏原因?以及解决方案 5.为何主线程可以new Handler如果想要在子线程中new Handler要做些什么准备? 6.消息退出是调…

R语言广义可加模型在空气环境污染方面的应用(1)

粉丝私信我希望复制一篇文章的图片,图片来源于文章:Wu C, Yan Y, Chen X, Gong J, Guo Y, Zhao Y, Yang N, Dai J, Zhang F, Xiang H. Short-term exposure to ambient air pollution and type 2 diabetes mortality: A population-based time series st…

中频采样和IQ采样的比较和转换

一、什么是中频采样,什么是IQ采样 射频接收系统通常使用数字信号处理算法进行信号解调和分析,因此需要使用ADC对信号进行采样。根据采样频率的不同,可以分为射频直接采样、中频采样、IQ采样。射频采样和中频采样只需要一路ADC,采…

搜索引擎ES相关问题

一、什么是倒排索引?有什么好处?索引: 从ID到内容。倒排索引: 从内容到ID。好处: 比较适合做关键字检索。 可以控制数据的总量。提高查询效率。搜索引擎为什么比MySQL查询快? lucence文章 -》 term ->排…

element-ui中el-table点击其他自定义按钮展开table中某一行

element-ui中el-table点击其他自定义按钮展开table中某一行 在日常开发中,我们遇见了会有点击某些按钮,使得表格行展开的需求,这时候去查看文档 element-ui(table) 这里官方提供了示例为在行最左侧有一个展开合并ico…

JAVA开发测试(jmeter如何测试性能与估算)

对C的业务网站或应用,进行性能测试来评估使用服务器情况是必不可少的一项工作。 一、测试工具: Apache JMeter 可以用于对服务器、网络或对象模拟巨大的负载,来自不同压力类别下测试它们的强度和分析整体性能,是Apache组织开发的…

CCF-CSP真题《202212-1 现值计算》思路+python满分题解

想查看其他题的真题及题解的同学可以前往查看:CCF-CSP真题附题解大全 试题编号:202212-1试题名称:现值计算时间限制:1.0s内存限制:512.0MB问题描述: 问题描述 评估一个长期项目的投资收益,资金的…

中点BH算法对任意斜率的直线扫描转换方法

作者:非妃是公主 专栏:《计算机图形学》 博客地址:https://blog.csdn.net/myf_666 个性签:顺境不惰,逆境不馁,以心制境,万事可成。——曾国藩 文章目录专栏推荐专栏系列文章序一、算法原理二、…

六“元”数智增长模型,企业元宇宙时代的经营新范式

摘要:在中国传统哲学里,“元”表示最基本的、最根本的东西;在企业管理经营中,将“元”解释为企业的核心竞争力或者基础能力;元宇宙下,“元”就代表数智化下的新场景,来支撑企业的各种业务创新。 一、元宇宙下的“元” …

分享IDEA通过插件 【一键自动生成】 在线api接口文档

开发写代码已经很辛苦,相信每个开发人员都不想写接口文档,但是不写又不行。尤其现在开发的项目偏向于前后端分离,在没有接口的情况下,前后端很难对接联调,测试也无法很好的测试。现在IDEA的插件仓库里有款插件&#xf…

qt 内存泄漏处理办法

windows 版本windows msvc版本可以使用vld检测可以得到内存泄漏点的调用堆栈,如果可以的话,还可以得到其所在文件及行号;可以得到泄露内存的完整数据;可以设置内存泄露报告的级别。缺点:1.只针对 Visual C &#xff08…

VUE -- defineExpose

defineExpose定义demo定义 defineExpose定义:用于组件通信中父级组件调用操作子组建方法和响应式属性参数能力 在使用definExpose前需要了解两个拷贝对象函数 对象copy:shallowReactive 与 数据 copy:shallowRef 这两个都是vue包里面的 简…

图片文字识别OCR调研-中文

直接看效果对比 tesseract-ocr 该识别引擎最新版本tesseract4添加了支持神经网络(LSTM)的,该引擎专注于线条识别, 同时也保留了Tesseract OCR 引擎,该引擎通过识别字符模式来工作。 我们需求端的后台语言是go&#x…

时尚高级实用,零跑C01满足各种用车需求

零跑C01在新能源车市场上销量可观且口碑较好,为什么消费者会相中这个国产车全域自主研发的新能源车呢?下面的介绍会给出答案。就其外观而言,零跑C01的外观定位于中大型轿车,在外观设计上充分考虑到美学观念。零跑给出了七个车身颜…

扬帆优配|日均客运量恢复,民航业加速复苏,外资买入2股超亿元

春运民航客运量康复至疫情前七成。 2月16日,民航局举行2月例行新闻发布会。会上介绍,自1月7日至2月15日,春运40天,民航运送旅客5523万人次,日均客运量138万人次,同比去年春运添加39%,康复至2019…