文献笔记:LINE: Large-scale Information Network Embedding

news2025/1/10 6:09:50

paper 看完√

code复现ing


https://arxiv.org/pdf/1503.03578v1.pdf

本文研究了将非常大的信息网络嵌入到低维向量空间的问题,这在可视化、节点分类和链路预测等许多任务中都很有用。大多数现有的图形嵌入方法无法扩展到通常包含数百万个节点的现实世界信息网络。在本文中,我们提出了一种名为“LINE”的新型网络嵌入方法,适用于任意类型的信息网络:无向、定向和/或加权。该方法优化了精心设计的目标功能,保留了本地和全球网络结构。提出了一种边缘采样算法,解决了经典随机梯度下降的局限性,并提高了推理的有效性和效率。实证实验证明了LINE在各种现实世界信息网络上的有效性,包括语言网络、社交网络和引用网络。该算法非常高效,能够在几个小时内在典型的单台机器上学习具有数百万个顶点和数十亿个边缘的网络的嵌入。LINE的源代码可在线获取。

结构:第1节介绍。第2节总结了相关工作。第3节正式定义了大规模信息网络嵌入的问题。第4节详细介绍了LINE模型。第5节介绍了实验结果。在第6节总结。

论文研读问题

1.文章在解决什么问题?

将非常大的信息网络嵌入到低维向量空间,为下游任务做准备。提出能实现以下要求的信息网络嵌入:

  • 首先,它必须能够保持顶点之间的一阶接近度和二阶接近度;
  • 其次,它必须为非常大的网络扩展,例如数百万个顶点和边缘;
  • 第三,它可以处理具有任意类型边缘的网络:有向、无向和/或加权。

2.用了什么方法?

  1. 提出了Line模型,专门为网络设计的目标,实现保留一节接近度和二阶接近度的网络嵌入
  2. 提出边缘采样算法,使用与权重成正比的概率进行采样,解决随机梯度下降存在的梯度爆炸问题。
  3. 更类似于广度优先搜索来保留二阶接近度
  4. 在现实世界的信息网络上进行了广泛的实验,用实验结果证明了不同网络下的LINE模型的有效性和效率。

Line 模型提出一阶接近度和二阶接近度的定义,并通过组合实现一阶和二阶,提出Line(1st),Line(2sd),Line(1st+2nd),还有使用梯度随即下降版本的sgd,并进行实验探究在不同信息网络中的表现。

1. 一阶接近度的求解方法:

2. 二阶接近度求解方法:

3.得出了什么结论,有什么效果?

  • line模型可以适用任何类型网络,包括语言网络、社交网络和引用网络,具有通用性,可以保留了本地和全局网络结构。
  • 提出了一种边缘采样算法,解决了经典随机梯度下降的局限性,解决随机梯度下降存在的梯度爆炸问题。
  • 算法非常高效,能够在几个小时内在典型的单台机器上学习具有数百万个顶点和数十亿个边缘的网络的嵌入。

4.没完成的/新问题有哪些?

  1. low degree vector。一个实际问题是如何用小度来嵌入顶点。由于这种节点的邻居数量非常少,因此很难准确推断其表示,特别是基于二阶接近的方法在很大程度上依赖于“上下文”的数量。 解决方法,添加高阶邻居,邻居的邻居,Line加入了二阶邻居。
  2. 如何找到新出现的顶点的表示。如果观察到新顶点和现有顶点之间没有连接,我们必须求助于其他信息,例如顶点的文本信息,并将其作为我们未来的工作。辅助信息,比如side information.

5.为什么这篇文章很重要?

优点:适用于任意类型的信息网络,提出将一阶和二阶接近度结合出来,保留了本地和全球网络结构,提出了一种边缘采样算法,算法非常高效,性能好,能快速处理大量节点,可以处理稀疏和稠密网络。

特点:说明了一阶接近度和二阶接近度是互补的。

  1. 一般图嵌入和降维方法重点特征向量的矩阵分解,处理大规模网络效率低下。
  2. 图因子分解方法的目标不为了网络设计,不一定能保留全局网络结构,重点关注一阶接近度,只适合无向图。
  3. Deep walk加入截断随机游走,未设计目标来阐明保留哪些网络属性,重点关注二阶接近度,类似深搜,只适合未加权的。
  4. 而Line专为网络设计,将一阶和二阶接近度结合出来,保留了本地和全球网络结构,操作更类似广搜,用广搜来求二阶接近度更合理。

6.数据

(1)语言网络。用维基百科页面构建了一个单词共同出现网络。每个5个单词的滑动窗口中的单词都是相互并发的。

(2)社交网络。Flickr和Youtube2。Flickr网络的密度比Youtube网络。

(3)引文网络。author引文网络和纸质引文网络。用DBLP数据集构建作者之间和论文之间的引用网络。作者引用网络记录了一位作者撰写和另一位作者引用的论文数量。这些网络的详细统计数据汇总到表1中。它们代表各种信息网络:定向和非定向、二进制和加权。每个网络至少包含50万个节点和数百万个边缘。

7.能尝试新思路

异质信息网络嵌入。

动态信息网络嵌入更新。

多模态信息网络嵌入。

相关背景知识

1.一阶和二阶接近度定义:

一阶邻近性网络中的一阶邻近性是两个顶点之间的局部成对邻近性。对于每一对由边(u, v)连接的顶点,该边的权值wuv表示u和v之间的一级接近度。如果在u和v之间没有观察到边,则它们的一阶接近度为O。

二阶邻近性:网络中一对顶点(u,v)之间的二阶邻近性是它们的邻域网络结构之间的相似性。数学上,令pu = (wu.1,…, Wu.|v|)表示u与所有其他顶点的一阶接近度,则u与v的二阶接近度由pu与py的相似度决定。如果没有一个顶点连接到u和v,则u和v之间的二阶接近度为0。

2.binary and weighted network

在网络的上下文中,"二值网络"和"加权网络"分别指的是不同的表示节点之间关系的方式。让我们详细了解每个概念:

1. **二值网络**:

- 在二值网络中,节点之间的连接以二进制方式表示,通常为存在(1)或不存在(0)。这意味着网络只捕捉连接是否存在,而不考虑连接的强度或强度。

- 二值网络通常用于关系是纯粹二进制的情况,例如在社交网络中,友谊的存在或不存在。

2. **加权网络**:

- 在加权网络中,每个节点之间的连接被赋予一个数字权重或值,以表示关系的强度或强度。权重通常传达了有关节点之间关联程度的额外信息。

- 当连接的强度很重要时,使用加权网络是有益的。例如,在交通网络中,权重可以表示位置之间的行车距离或行车时间。

总的来说,关键的区别在于连接是如何表示的。二值网络关注连接是否存在,而加权网络则考虑连接的强度或强度。选择二值或加权表示取决于建模关系的性质以及特定网络的特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1481560.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C语言】指针初阶2.0版本

这篇博文我们来继续学习指针的其他内容 指针2.0 传值调用与传址调用传值调用传址调用 一维数组与指针理解数组名使用指针深入理解一维数组 二级指针指针数组二维数组与指针 传值调用与传址调用 在开始之前,我们需要先了解这个概念,后面才能够正常的学习…

成功解决‘OpenpyxlWriter’ object has no attribute ‘save’

成功解决‘OpenpyxlWriter’ object has no attribute ‘save’ 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希望得到…

在vue2中使用饼状图

1.引入vue2和echarts <script src"https://cdn.jsdelivr.net/npm/vue2.7.14/dist/vue.js"></script> <script src"https://cdn.jsdelivr.net/npm/echarts5.4.0/dist/echarts.min.js"></script> 2.1 补充基本的body内容 <div id…

在UniApp中引入大于40kb字体包的记录

因为项目UI需要特殊字体&#xff0c;所以给了一个80kb字体包&#xff0c;但是在正常的使用导入时候发现不生效 这是我的导入过程 1.把下载好的文件放入static/font目录中 2.在app.vue中引用 font-face { font-family: zitiming; src: url(/static/font/YouSheBiaoTiHei-2.t…

C++ //练习10.3 用accumulate求一个vector<int>中的元素之和。

C Primer&#xff08;第5版&#xff09; 练习 10.3 练习10.3 用accumulate求一个vector中的元素之和。 环境&#xff1a;Linux Ubuntu&#xff08;云服务器&#xff09; 工具&#xff1a;vim 代码块 /*******************************************************************…

【Pytorch】成功解决AttributeError: ‘tuple’ object has no attribute ‘dim’

【Pytorch】成功解决AttributeError: ‘tuple’ object has no attribute ‘dim’ &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;Matplotlib之旅&#xff1a;零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程&…

HTML---表单验证

文章目录 目录 本章目标 一.表单验证概述 二.表单选择器 属性过滤选择器 三.表单验证 表单验证的方法 总结 本章目标 掌握String对象的用法会使用表单选择器的选择页面元素会使用JQuery事件进行表单验证Ajax的概念和作用 一.表单验证概述 前端中的表单验证是在用户提交表…

《Spring Security 简易速速上手小册》第5章 高级认证技术(2024 最新版)

文章目录 5.1 OAuth2 和 OpenID Connect5.1.1 基础知识详解OAuth2OpenID Connect结合 OAuth2 和 OIDC 5.1.2 重点案例&#xff1a;使用 OAuth2 和 OpenID Connect 实现社交登录案例 Demo 5.1.3 拓展案例 1&#xff1a;访问受保护资源案例 Demo测试访问受保护资源 5.1.4 拓展案例…

HCIA-Datacom实验指导手册:7 构建简单 IPv6 网络

HCIA-Datacom实验指导手册&#xff1a;7 构建简单 IPv6 网络 一、实验介绍&#xff1a;二、实验拓扑&#xff1a;三、实验目的&#xff1a;四、配置步骤&#xff1a;步骤 1 设备基础配置设备命名 步骤 2 配置设备及接口 IPv6 功能步骤 3 配置接口的 link-local 地址&#xff0c…

c++数据结构算法复习基础-- 2 -- 线性表-单链表-常用操作接口-复杂度分析

1、链表 特点 每一个节点都是在堆内存上独立new出来的&#xff0c; 节点内存不连续优点 内存利用率高&#xff0c;不需要大块连续内存 插入和删除节点不需要移动其它节点&#xff0c;时间复杂度O(1)。 不需要专门进行扩容操作缺点 内存占用量大&#xff0c;每一个节点多出存…

使用 MongoDB Atlas 无服务器实例更高效地开发应用程序

使用 MongoDB Atlas无服务器实例更高效地开发应用程序 身为开发者&#xff0c;数据库并不一定需要您来操心。您可不想耗费时间来预配置集群或调整集群大小。同样地&#xff0c;您也不想操心因未能正确扩展而导致经费超标。 MongoDB Atlas 可为您提供多个数据库部署选项。虽然…

操作系统开篇

目录 一. 预备知识二. 操作系统的功能和目标2.1. 系统资源的管理者2.2 向上层提供方便易用的服务2.3 最接近硬件的软件 三. 操作系统的四个特征3.1 并发性3.2 共享性3.3 虚拟性3.4 异步性 四. 操作系统的发展与分类 \quad 一. 预备知识 \quad 计算机结构原理&#xff08;Intel …

《PyTorch深度学习实践》第十三讲RNN进阶

一、 双向循环神经网络&#xff08;Bidirectional Recurrent Neural Network&#xff0c;BiRNN&#xff09;是一种常见的循环神经网络结构。与传统的循环神经网络只考虑历史时刻的信息不同&#xff0c;双向循环神经网络不仅考虑历史时刻的信息&#xff0c;还考虑未来时刻的信息…

一【初识EMC】

在作为硬件行业相关从业者&#xff0c;经常接触到EMC相关问题&#xff0c;下面来简单介绍下EMC相关方面的知识 文章目录 前言一、生活中的EMC现象&#xff1f;二、EMC是什么三、EMC的三要素四、EMI与EMS的评估方式1.RE2.CE3.HAR4.FLICKER5.Rs6.CS7.ESD8.EFT9.DIP10.PMS11.surge…

常见外设学习以及无线通信频率

常见外设 UART UART&#xff08;Universal Asynchronous Receiver/Transmitter&#xff0c;通用异步收发器&#xff09;是一种异步、串行、全双工的通信总线。 UART 有3根线&#xff0c;分别是&#xff1a;发送线&#xff08;TX&#xff09;、接收线&#xff08;RX&#xff…

【LeetCode】一周中的第几天+ 一年中的第几天

2023-12-30 文章目录 一周中的第几天方法一&#xff1a;模拟思路步骤 方法二&#xff1a;调用库函数方法三&#xff1a;调用库函数 [1154. 一年中的第几天](https://leetcode.cn/problems/day-of-the-year/)方法一&#xff1a;直接计算思路&#xff1a; 方法二&#xff1a;调用…

rk3568 gamc0 控制器寄存器配置不了导致连接不上phy

系统启动 GMAC 的驱动开机 log 上出现打印&#xff1a;No PHY found 或者 Cannot attach to PHY。查阅rk 官方gmac 配置指导手册出现改问题的原因可能如下&#xff1a; 但反复检查硬件和软件发现都没问题。看内核启动日志发现gamc0 在启动过程中读取gmac0 的版本id是读取不到&a…

【golang】25、图片操作

用 “github.com/fogleman/gg” 可以画线, 框 用 “github.com/disintegration/imaging” 可以变换颜色 一、渲染 1.1 框和字 import "github.com/fogleman/gg"func DrawRectangles(inPath string, cRects []ColorTextRect, fnImgNameChange FnImgNameChange) (st…

Pinia使用

官方地址&#xff1a;Pinia | The intuitive store for Vue.js (vuejs.org)https://pinia.vuejs.org/ 1.安装 npm install pinia npm install pinia-plugin-persistedstate Pinia是一个基于Vue 3的状态管理库&#xff0c;它使得管理Vue的全局状态变得更加容易和直观。 而…

深度伪造,让网络钓鱼更加难以辨别

网络钓鱼一直是安全领域的一个突出话题&#xff0c;尽管这类诈骗形式已经存在了几十年&#xff0c;依旧是欺诈攻击或渗透组织的最有效方法之一。诈骗分子基于社会工程原理&#xff0c;通过邮件、网站以及电话、短信和社交媒体&#xff0c;利用人性&#xff08;如冲动、不满、好…