Deepwalk详解

news2024/11/24 19:51:10

算法思想

源于word2vec ,word2vec通过语料库中的句子序列来描述词与词之间的共现关系。进而学习到词语的向量表示,deepwalk则使用图中的节点与节点的共像现关系来学习节点的向量表示。这种借鉴的前提是点在图中的分布和词在句子中的分布都是幂律分布。

随机游走

在这里插入图片描述
通过构建 h i e r a r c h i c a l s o f t m a x hierarchical softmax hierarchicalsoftmax,第三步对每个结点做 y y y次随机游走。第四步打乱网络中的节点,可以加快随机梯度下降的速,
第五步:以每个节点为根节点生成长度为 t t t的随机游走。
第七步:根据生成的随机游走使用Skip-gran模型利用梯度的方法对参数进行更新。
这里得到的随机游走就相当于自然语言处理的语句,包含了点在图中的分布信息

如何把随机游走中得到的信息用点来表示学习。

在这里插入图片描述
在这里插入图片描述
概率的部分意思是:在一个随机游走中,当给定一个顶点 v i v_i vi时,
出现其的 w w w窗口范围内顶点的概率。
同时考虑左边窗口和右边窗口,不考虑顺序。

Softmax

为什么要使用Softmax?
P r ( u k ∣ ϕ ( v j ) ) Pr(u_k|\phi(v_j)) Pr(ukϕ(vj))
为了方便计算
基本思想:将词典中的每个词按照词频大小构建出一颗Huffman树,保证词频较大的词处于相对比较钱的层。词频较低的词相应处于Huffma树深层的叶子节点。每一词都处于这颗Huffman树上的某个叶子节点在这里插入图片描述
计算方法:

  • 在二叉树的每一个节点上都存放一个向量,需要通过学习得到,最后的叶子节点上没有向量,显而易见,整棵树共有 ∣ V ∣ |V| V个向量,
  • 规定在第 k k k层的节点做分类时,节点的左子树为正类别,节点的右子树是负类别,该节点的向量用 V ( k ) V(k) V(k)表示。
  • 那么正负累的分数如公式(2)(3)所示:在预测的时候,需要按照蓝色箭头方向做分类,第0层分类结果为负类,第一层分类结果为正类。第3层分类结果为正类,最后达到叶子节点 V ( 5 ) V(5) V(5),最后把所有节点的分类的分数累乘起来
    p k ( l e f t ) = s i g m o i d ( ϕ ( v 1 ) × v ( k ) ) p_k(left) = sigmoid(\phi(v_1) \times v(k)) pk(left)=sigmoid(ϕ(v1)×v(k))
    在这里插入图片描述

适用场景

  • 图表示学习,捕捉节点局部的结构信息
  • 适用于无权图,同构网络
  • 在图稀疏的时候也能取得较好的表现。
  • 对大型的图也能够取得较好的表现,也能够并行计算。

不足和改进

  • 无法对图中的边信息(权重和不同的关系)进行处理。
  • 随机游走是对节点选取的概率不够完善,没有区分广度优先和深度优先搜索,node2vec模型对此进行了改进。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/43180.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关于MuLoginWebGL介绍说明:

WebGL就是俗称的硬件显卡型号的意思,在MuLogin中我们提供了多个平台和品牌的显卡芯片指纹。 我们在做实验时,Chrome浏览器和Internet Explorer(Edge)测试取WebGL vendor 会有两种不同值 ,Chrome 取为 Google Inc. Int…

2023年湖北监理工程师考试科目有哪些?考试题型什么样子的?

2023年湖北监理工程师考试科目有哪些?考试题型什么样子的? 一、监理工程师考试科目: 监理工程师考试一共考四科 1. 《建设工程监理基本理论和相关法规》(客观题) 2. 《建设工程合同管理》(客观题) 3. 《建设工程目标控制》(客观题) 4. 《…

社交电商时代,切勿剑走偏锋,始终以产品为中心,模式为辅助

社交电商这个名词近期十分火,参与这个方式的人数以亿计,可以这样说“十亿人民九亿商,八亿人在做电商”。 我们感悟:“传统电商火热,社交电商更火”!那么什么是社交电商呢?社交电商概念&#xff…

必须了解的海外新闻稿写作要点 ️

随着经济全球化的发展,中国企业走向世界是必然的趋势。媒介易小编发现了全球的海外消费者一般了解一个品牌都是去搜索引擎搜索,所以确认海外媒体投放新闻稿是中国企业走向世界必经之路,是密不可分的哟。 新闻稿是公司或机构向媒体发送的手稿。…

Python学习基础笔记十四——函数参数

函数参数这块在前面的博客中没有展开,现在专门整理出来: 1、参数的数量: 1)没有参数:就是定义函数和调用函数的括号中都不写内容。 2)有一个参数:可以是任何数据类型。 3)有多个参…

学习python中的数据结构

数据结构 链表和数组 数组 Python的list是由数组来实现的 有序的元素序列, 在内存中表现为一块连续的内存区域; 链表 通过指针将无序的列表链接起来, 每个节点都存储着当前节点的值和下一个节点的内存地址 链表和数组有什么区别? 实现有序的方式是不一样的, 数组是连续的内…

[附源码]SSM计算机毕业设计网上鞋店管理系统JAVA

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

Pan-cancer image-based detection of clinically actionable genetic alternations

目录 摘要 前言 结果 深度学习模型优化 从组织病理图像预测泛癌基因突变 摘要 肿瘤的分子突变可导致肿瘤细胞及其微环境的表型变化。常规组织病理切片可以反映出这种形态学改变。本研究表明深度学习方法能直接从常规病理图像中推断出广泛的基因突变、肿瘤分子亚型、基因表达…

中纺集团×StarRocks:构建企业级数据资产管理的实践

中纺集团经过“十三五”信息化建设,生成了大量宝贵的数据资源,但也存在信息孤岛、系统壁垒、数据质量等问题。中纺结合企业实际需求,按照集团“十四五”信息化规划中有关数据中台的建设计划与目标要求,历经半年多的测试比选&#…

使用扩展有效对齐 SwiftUI 内容,创建自定义 SwiftUI 方法以快速对齐项目并使您的代码看起来简洁明了(教程含源码)

在开发 iOS 应用程序时,对齐内容可能是一个耗时的过程。如果应用程序有多个屏幕,则需要在不同的地方完成这件事,并可能导致看起来杂乱无章的视图。 作为一个始终致力于让我的代码看起来简单和流线型的人,实现目标所需的大量Spacer()元素常常让我恼火,这就是为什么当我发…

配置Nginx和其他应用的HTTPS访问

使用tomcat或者weblogic部署的应用默认都是http访问的,如果通过https访问,需要ssl证书。tomcat或者weblogic可以配置; 同时,另一种方法,https网站中,如果接口服务是http的,那么请求接口就会被拒…

[美国访问学者J1]签证的材料准备

对于美国访问学者J1签证材料的准备,在这里知识人网老师和大家分享一下: 1. 有效护照:如果您的护照将在距您预计抵美日期的六个月内过期、或已损坏、或护照上已无空白的签证签发页, 请在前来面谈之前先申请一本新护照。 2. DS-160表格确认页。…

vulnhub靶机darkhole

靶机下载地址:DarkHole: 1 ~ VulnHub Kali ip:192.168.174.128 靶机ip:192.168.174.135 靶机ip发现 sudo arp-scan -l 开放端口扫描 nmap -p- -sV -A 192.168.174.135 发现开启了22端口和80端口 目录扫描 gobuster dir -u http://192.168.174.135…

Seal库官方示例(一):bfv_basics.cpp解析

尽量理论来理解代码。 完整代码或者\native\examples里面 说到前面的话 两段官方的话 大致意思就是,这个库有门槛,需要先学会同态的概念,提供的例子必须要看要理解。必看的例子如下, 代码解析 基础加密 参数设置 三个核心…

flutter系列之:在flutter中使用流式布局

文章目录简介Flow和FlowDelegateFlow的应用总结简介 我们在开发web应用的时候,有时候为了适应浏览器大小的调整,需要动态对页面的组件进行位置的调整。这时候就会用到flow layout,也就是流式布局。 同样的,在flutter中也有流式布…

真题集P93---2017年计专真题

真题集P93---2017年计专真题六思路:模拟代码七思路一:哈希表法二:排序法 (利用排序去重)三:拓展代码(仅思路一)六 思路:模拟 1、接口介绍 int turnNum(int num[], int nums):拿来一…

数据库约束

约束概述 为什么需要约束 数据完整性(Data Integrity)是指数据的精准性(Accuracy)和可靠性(Reliability)。它是防止数据库中存在不符合语义规定的数据和防止因错误信息的输入输出造成无效操作或错误信息而…

种草软文怎么写?分享一些超实用的种草软文写作技巧。

一提起“种草”这个词语,想必很多小伙伴都不陌生,我们都有“被种草”的经历,指的就是把一件商品推荐给大家,分享给需要的人,然后促成销售转化的过程。 在一些主流的内容平台,比如知乎、小红书、得物、公众…

Android 9.0 MediaPlayer播放流程分析

1.MediaPlayer初始化流程 EventHandler是后面处理数据回调的handler. 在AudioFlinger.cpp中获取nextUniqueId: audio_unique_id_t AudioFlinger::nextUniqueId(audio_unique_id_use_t use) {// This is the internal API, so it is OK to assert on bad parameter.…

18-1、k8s 对外服务之ingress

一、什么是ingress 原来的项目是部署在一台电脑上的,这样爬取速度虽然很快,但是我们还能提升,联想到分布式的思想,我们是否可以通过多台电脑进行配合爬取,这样我们的爬取速度就能大幅度提升。 …