【CS224W】(task4)图嵌入表示学习

news2024/11/26 0:37:45

note

  • node2vec:
    • 计算随机游走概率
    • 从节点 u u u开始模拟 r r r条长度为 l l l的游走链路
    • 使用 Stochastic Gradient Descent 优化损失函数
  • Node2vec在节点分类方面表现更好;而其他方法在链路预测上效果更好,如random walk效率更高;
  • graph embeddings:
    • 方法1:对应子图or图的节点embedding进行sum或avg计算;
    • 方法2:创建横跨子图的super-node
  • deepwalk等价于对以下表达式进行矩阵分解: log ⁡ ( vol ⁡ ( G ) ( 1 T ∑ r = 1 T ( D − 1 A ) r ) D − 1 ) − log ⁡ b \log \left(\operatorname{vol}(G)\left(\frac{1}{T} \sum_{r=1}^T\left(D^{-1} A\right)^r\right) D^{-1}\right)-\log b log(vol(G)(T1r=1T(D1A)r)D1)logb
    在这里插入图片描述

文章目录

  • note
  • 一、Node embedding: Encoder + Decoder
    • 1.1 embedding-lookup
    • 1.2 节点相似的定义
    • 1.3 unsupervised/self-supervised
  • 二、Random Walk
    • 2.1 notation
    • 2.2 Algorithm:DeepWalk
      • (1)SkipGram
      • (2)Hierarchical Softmax
      • (3)Optimization
    • 2.3 代码实战
    • 2.4 小结
  • 三、在同质性和结构性间权衡:Node2vec
    • 3.1 同质性和结构性
    • 3.2 如何表达结构性和同质性
    • 3.3 实验证实+代码例子
  • 四、Embedding Entire Graphs
    • 4.1 得到子图或整图的embedding
    • 4.2 anonymous walks的应用
    • 4.3 小结
  • 附:思考题
  • 附:时间安排
  • Reference

一、Node embedding: Encoder + Decoder

本讲是图表示学习综述,介绍了图嵌入(节点嵌入)表示学习的基本框架和编码器-解码器架构,将节点嵌入映射为低维、连续、稠密向量。向量空间的相似度反映了对应节点在原图上的相似度。在同一个随机游走序列中共同出现的节点,视为相似节点,从而构建类似Word2Vec的自监督学习场景。衍生出DeepWalk、Node2Vec等基于随机游走的图嵌入方法。

从数学上,随机游走方法和矩阵分解是等价的。

进而讨论嵌入整张图的方法,可以通过所有节点嵌入向量聚合、引入虚拟节点、匿名随机游走等方法实现。

在这里插入图片描述

  • embedding编码网络中的信息,可用于下游任务, 图表示学习使得省去特征工程。
    在这里插入图片描述
  • G G G,节点集 V V V,邻接矩阵 A A A(二维,这里化简,不考虑节点的特征等信息)
  • node embedding:将节点信息编码为space中的embedding,使得embedding的相似度计算(如cos点积计算等)近似于节点之间真实的相似度

在这里插入图片描述

1.1 embedding-lookup

  • 注意两点:
    在这里插入图片描述
  • shallow encoding:encoder仅为embedding-lookup表 ENC ⁡ ( v ) = z v = Z ⋅ v \operatorname{ENC}(v)=\mathbf{z}_v=\mathbf{Z} \cdot v ENC(v)=zv=Zv
    • Z ∈ R d × ∣ V ∣ \mathbf{Z} \in \mathbb{R}^{d \times|\mathcal{V}|} ZRd×V矩阵中,每列是对应的节点的embedding
    • v ∈ I ∣ V ∣ v \in \mathbb{I}^{|\mathcal{V}|} vIV 是单位矩阵
    • 方法:deepwalk、node2vec等
    • goal:对于相似节点(u, v),优化参数,使得 similarity ⁡ ( u , v ) ≈ z v T z u \operatorname{similarity}(u, v) \approx \mathbf{z}_v^{\mathrm{T}} \mathbf{z}_u similarity(u,v)zvTzu

1.2 节点相似的定义

  • 有边
  • 共享邻居
  • 有相似的structural roles
  • 随机游走random walk定义的节点相似度

1.3 unsupervised/self-supervised

无监督or自监督学习:不使用节点的标签和特征,直接得到节点的度量(如embedding)

二、Random Walk

2.1 notation

  • z u \mathbf{z}_u zu:我们想学习到的节点u embedding
  • P ( v ∣ z u ) P\left(v \mid \mathbf{z}_u\right) P(vzu)条件概率:已知节点u embedding,基于random walk的要访问节点v的概率
  • 通过非线性函数得到预测概率:
    • softmax函数将数据归一化为和为1的结果: σ ( z ) [ i ] = e z [ i ] ∑ j = 1 K e z [ j ] \sigma(\mathbf{z})[i]=\frac{e^{z[i]}}{\sum_{j=1}^K e^{z[j]}} σ(z)[i]=j=1Kez[j]ez[i]
    • sigmoid函数:转为(0, 1)范围内,公式为 S ( x ) = 1 1 + e − x S(x)=\frac{1}{1+e^{-x}} S(x)=1+ex1

2.2 Algorithm:DeepWalk

在这里插入图片描述

算法由两部分组成:

  • (1)随机游走序列生成器;
  • (2)向量更新。

随机游走:对图G均匀地随机采样一个节点 v i v_i vi,并作为random walk的根结点 W v i W_{v_{i}} Wvi,然后一直向周围邻居采样,直到达到最大路径长度 t t t
随机游走的长度没有限制,但是在实验中设置最大步长是固定的。
在这里插入图片描述

  • 输出:一个顶点表示矩阵 Φ \Phi Φ,大小为 ∣ V ∣ × d |V|\times d V×d
  • 第二行:构建Hierarchical Softmax
  • 第三行:对每个节点做 γ \gamma γ次随机游走
  • 第四行:打乱网络中的节点
  • 第五行:以每个节点为根结点生成长度为 t t t的随机游走
  • 第七行:根据生成的随机游走使用skip-gram模型利用梯度的方法对参数进行更新。

其中SkipGram参数更新的细节如下:
在这里插入图片描述

(1)SkipGram

SkipGram参数更新的细节如下:
在这里插入图片描述
SkipGram算法是语言模型中,最大化窗口 w w w中出现的词的概率的方法(梯度下降),外层for循环是对这个序列中的每个词进行操作,内层for循环是对每个词的窗口大小为 w w w的词序列进行操作。具体操作是用一个似然函数 J ( Φ ) J(\Phi) J(Φ)表示 Φ \Phi Φ,通过梯度下降(对 J ( Φ ) J(\Phi) J(Φ)求导)更新参数( α \alpha α是学习速率)。

从词向量学习的角度看,基于神经网络语言模型的预训练方法存在缺点:当对t时刻词进行预测时,模型只利用了历史词序列作为输入,而损失了与“未来”上下文之间的共现信息。于是大佬们提出更强的词向量预训练模型Word2Vec,其中包括CBOW(Continuous Bag-of-Words)模型以及Skip-gram模型。

(2)Hierarchical Softmax

在这里插入图片描述
在计算 Pr ⁡ ( u k ∣ Φ ( v i ) ) \Pr(u_k|\Phi(v_i)) Pr(uk∣Φ(vi)) 时,可以利用Hierarchical Softmax二叉树[29, 30]加速。作者将所有节点作为二叉树的叶子节点,就可以用从根节点到叶子节点的路径来表示每个节点。二叉树若有 ∣ V ∣ |V| V个叶子节点,则深度至多为 log ⁡ ∣ V ∣ \log|V| logV。这样就会有:
Pr ⁡ ( u k ∣ Φ ( v j ) ) = ∏ l = 1 ⌈ log ⁡ ∣ V ∣ ⌉ Pr ⁡ ( b l ∣ Φ ( v j ) ) \Pr(u_k|\Phi(v_j))=\prod_{l=1}^{\lceil\log|V|\rceil}\Pr(b_l|\Phi(v_j)) Pr(uk∣Φ(vj))=l=1logVPr(bl∣Φ(vj))其中 b 0 , b 1 , . . . , b ⌈ log ⁡ ∣ V ∣ ⌉ b_0, b_1, ..., b_{\lceil\log|V|\rceil} b0,b1,...,blogV是一系列二叉树中的非叶子节点。这样就可以用较少的分类器完成这个任务,将计算复杂度由 O ( ∣ V ∣ ) O(|V|) O(V)降低至 O ( log ⁡ ∣ V ∣ ) O(\log|V|) O(logV)

更进一步,还可以结合节点出现频率,使用霍夫曼编码,为更频繁出现的节点分配稍短的路径,再次降低计算复杂度。

(3)Optimization

模型参数集是 { Φ , T } \{\Phi, T\} {Φ,T},使用随机梯度下降算法 S G D SGD SGD(一次训练一个样本)进行优化参数。通过方向传播计算损失函数关于参数的偏导数,SGD的学习率初始设置为2.5%,然后随着训练过程中看到的顶点数量的增加而线性减少。

  • 目标:使对每个节点 u , N R ( u ) u, N_R(u) u,NR(u) 的节点和 z u z_u zu 靠近, 即 P ( N R ( u ) ∣ z u ) P\left(N_R(u) \mid z_u\right) P(NR(u)zu) 值大。
  • f : u → R d : f ( u ) = z u \mathrm{f}: \mathrm{u} \rightarrow \mathbb{R}^{\mathrm{d}}: \mathrm{f}(\mathrm{u})=\mathbf{z}_{\mathrm{u}} f:uRd:f(u)=zu
  • 优化embedding的log-likelihood目标函数:
    max ⁡ f ∑ u ∈ V log ⁡ P ( N R ( u ) ∣ z u ) \max _f \sum_{u \in V} \log \mathrm{P}\left(N_{\mathrm{R}}(u) \mid \mathbf{z}_u\right) fmaxuVlogP(NR(u)zu)
    在这里插入图片描述
    【负采样优化】
    但是由于求解上面目标函数的时间复杂度很高,需要 O ( ∣ V ∣ 2 ) \mathrm{O}\left(|\mathrm{V}|^2\right) O(V2),可以通过负采样优化该公式的分母,即不用所有节点作为归一化的负样本。
    在这里插入图片描述

2.3 代码实战

# DiGraph with 100 nodes and 4961 edges
import networkx as nx
import numpy as np
from tqdm import tqdm
from gensim.models import word2vec

def walkOneTime(g, start_node, walk_length):
    walk = [str(start_node)]  # 初始化游走序列
    for _ in range(walk_length):  # 最大长度范围内进行采样
        current_node = int(walk[-1])
        successors = list(g.successors(current_node)) # graph.successor: 获取当前节点的后继邻居
        if len(successors) > 0:
            next_node = np.random.choice(successors, 1)
            walk.extend([str(n) for n in next_node])
        else:
            break
    return walk

def getDeepwalkSeqs(g, walk_length, num_walks):
    seqs=[]
    for _ in tqdm(range(num_walks)):
        start_node = np.random.choice(g.nodes)
        w = walkOneTime(g,start_node, walk_length)
        seqs.append(w)
    return seqs

def deepwalk( g, dimensions = 10, walk_length = 80, num_walks = 10, min_count = 3 ):
    seqs = getDeepwalkSeqs(g, walk_length = walk_length, num_walks = num_walks)
    model = word2vec.Word2Vec(seqs, vector_size = dimensions, min_count = min_count)
    return model

if __name__ == '__main__':
	#快速随机生成一个有向图
    g = nx.fast_gnp_random_graph(n = 100, p = 0.5,directed = True) 
    model = deepwalk( g, dimensions = 10, walk_length = 20, num_walks = 100, min_count = 3 )
    # 观察与节点2最相近的三个节点
    print(model.wv.most_similar('2',topn=3))
    # 可以把emd储存下来以便下游任务使用
    model.wv.save_word2vec_format('e.emd')
    # 可以把模型储存下来以便下游任务使用
    model.save('m.model')
  • 先利用networkx随机生成二项式有向图(如下图所示)
  • walk_length是每条random walk链路的长度,共有num_walks条链路,通过随机游走得到的seqs送入到gensim.models.word2vec中训练w2v,保存训练得到的embedding和模型m.model
  • 得到与节点2最接近的3个节点:[('77', 0.8721016049385071), ('65', 0.8555149435997009), ('66', 0.8495140671730042)]

在这里插入图片描述

2.4 小结

在这里插入图片描述

三、在同质性和结构性间权衡:Node2vec

2016 年,斯坦福大学大佬在 DeepWalk 的基础上提出了 Node2vec 模型。Node2vec 通过调整随机游走跳转概率的方法,让 Graph Embedding 的结果在网络的同质性(Homophily)和结构性(Structural Equivalence)中进行权衡,可以进一步把不同的 Embedding 输入推荐模型,让推荐系统学习到不同的网络结构特点。

3.1 同质性和结构性

网络的“同质性”指的是距离相近节点的 Embedding 应该尽量近似,如图 3 所示,节点 u 与其相连的节点 s1、s2、s3、s4的 Embedding 表达应该是接近的,这就是网络“同质性”的体现。在电商网站中,同质性的物品很可能是同品类、同属性,或者经常被一同购买的物品。

结构性”指的是结构上相似的节点的 Embedding 应该尽量接近,比如图 3 中节点 u 和节点 s6都是各自局域网络的中心节点,它们在结构上相似,所以它们的 Embedding 表达也应该近似,这就是“结构性”的体现。在电商网站中,结构性相似的物品一般是各品类的爆款、最佳凑单商品等拥有类似趋势或者结构性属性的物品。
在这里插入图片描述

图3 网络的BFS和DFS示意图

在这里插入图片描述
在这里插入图片描述

3.2 如何表达结构性和同质性

Graph Embedding 的结果究竟是怎么表达结构性和同质性的呢?

  • 首先,为了使 Graph Embedding 的结果能够表达网络的“结构性”,在随机游走的过程中,我们需要让游走的过程更倾向于 BFS(Breadth First Search,宽度优先搜索),因为 BFS 会更多地在当前节点的邻域中进行游走遍历,相当于对当前节点周边的网络结构进行一次“微观扫描”。(当前节点是“局部中心节点”,还是“边缘节点”,亦或是“连接性节点”,其生成的序列包含的节点数量和顺序必然是不同的,从而让最终的 Embedding 抓取到更多结构性信息。)

  • 而为了表达“同质性”,随机游走要更倾向于 DFS(Depth First Search,深度优先搜索)才行,因为 DFS 更有可能通过多次跳转,游走到远方的节点上。但无论怎样,DFS 的游走更大概率会在一个大的集团内部进行,这就使得一个集团或者社区内部节点的 Embedding 更为相似,从而更多地表达网络的“同质性”。

那在 Node2vec 算法中,究竟是怎样控制 BFS 和 DFS 的倾向性的呢?

  • 其实,它主要是通过节点间的跳转概率来控制跳转的倾向性。图 4 所示为 Node2vec 算法从节点 t 跳转到节点 v 后,再从节点 v 跳转到周围各点的跳转概率。这里,你要注意这几个节点的特点。比如,节点 t 是随机游走上一步访问的节点,节点 v 是当前访问的节点,节点 x1、x2、x3是与 v 相连的非 t 节点,但节点 x1还与节点 t 相连,这些不同的特点决定了随机游走时下一次跳转的概率。

在这里插入图片描述

图4 Node2vec的跳转概率

这些概率还可以用具体的公式来表示,从当前节点 v 跳转到下一个节点 x 的概率 π v x = α p q ( t , x ) ⋅ ω v x \pi_{v x}=\alpha_{p q}(t, x) \cdot \omega_{v x} πvx=αpq(t,x)ωvx其中 Wvx 是边 vx 的原始权重, α p q ( t , x ) \alpha_{p q}(t, x) αpq(t,x) 是 Node2vec 定义的一个跳转权重。到底是倾向于 DFS 还是 BFS,主要就与这个跳转权重的定义有关了:

α p q ( t , x ) = { 1 p  如果  d t x = 0 1  如果  d t x = 1 1 q  如果  d t x = 2 \alpha_{p q(t, x)=} \begin{cases}\frac{1}{p} & \text { 如果 } d_{t x}=0 \\ 1 & \text { 如果 } d_{t x}=1 \\ \frac{1}{q} & \text { 如果 } d_{t x}=2\end{cases} αpq(t,x)= p11q1 如果 dtx=0 如果 dtx=1 如果 dtx=2

α p q ( t , x ) \alpha_{p q}(t, x) αpq(t,x)里的 d t x d_{tx} dtx 是指节点 t 到节点 x 的距离,比如节点 x1其实是与节点 t 直接相连的,所以这个距离 d t x d_{tx} dtx就是 1,节点 t 到节点 t 自己的距离 d t t d_{tt} dtt就是 0,而 x2、x3这些不与 t 相连的节点, d t x d_{tx} dtx就是 2。

此外, α p q ( t , x ) \alpha_{p q}(t, x) αpq(t,x) 中的参数 p 和 q 共同控制着随机游走的倾向性。参数 p 被称为返回参数(Return Parameter),p 越小,随机游走回节点 t 的可能性越大,Node2vec 就更注重表达网络的结构性。参数 q 被称为进出参数(In-out Parameter),q 越小,随机游走到远方节点的可能性越大,Node2vec 更注重表达网络的同质性。

反之,当前节点更可能在附近节点游走。可以自己尝试给 p 和 q 设置不同大小的值,算一算从 v 跳转到 t、x1、x2和 x3的跳转概率。这样应该就能理解刚才所说的随机游走倾向性的问题啦。

3.3 实验证实+代码例子

Node2vec 这种灵活表达同质性和结构性的特点也得到了实验的证实,可以通过调整 p 和 q 参数让它产生不同的 Embedding 结果。

  • 图 5 上就是 Node2vec 更注重同质性的体现,从中可以看到,距离相近的节点颜色更为接近;
  • 图 5 下则是更注重结构性的体现,其中结构特点相近的节点的颜色更为接近。

在这里插入图片描述

图5 Node2vec实验结果

Node2vec 所体现的网络的同质性和结构性,在推荐系统中都是非常重要的特征表达。由于 Node2vec 的这种灵活性,以及发掘不同图特征的能力,可以把不同 Node2vec 生成的偏向“结构性”的 Embedding 结果,以及偏向“同质性”的 Embedding 结果共同输入后续深度学习网络,以保留物品的不同图特征信息。

【代码例子】通过Node2vec找到和节点2最接近的3个节点

import networkx as nx
from node2vec import Node2Vec

graph = nx.fast_gnp_random_graph(n=100, p=0.5)#快速随机生成一个无向图
node2vec = Node2Vec ( graph, dimensions=64, walk_length=30, num_walks=100, p=0.3,q=0.7,workers=4)#初始化模型
model = node2vec.fit()#训练模型
print(model.wv.most_similar('2',topn=3))# 观察与节点2最相近的三个节点
'''
[('43', 0.5867125988006592), ('41', 0.5798742175102234), ('33', 0.5246706008911133)]
'''

四、Embedding Entire Graphs

4.1 得到子图或整图的embedding

在这里插入图片描述

4.2 anonymous walks的应用

4.3 小结

在这里插入图片描述

附:思考题

机器学习中的“表示学习”是做什么的?为什么要做表示学习?

CS224W整门课程,都对哪些研究对象进行了嵌入编码的表示学习操作?

图嵌入有什么用?

图嵌入有哪几种技术方案?各有什么优劣?

如何理解图嵌入向量的“低维、连续、稠密”

如何衡量两个节点是否“相似”?

图嵌入中,Decoder为什么用两个向量的数量积?

如何理解图嵌入中的Shallow Encoder和Deep Encoder?有何区别?

随机游走序列包含了哪些信息?

图机器学习和自然语言处理存在怎样的对应关系?

简述DeepWalk算法原理

简述Node2Vec算法原理

除了DeepWalk和Node2Vec之外,还有哪些基于随机游走的图嵌入算法?

同济子豪兄论文精读视频中,DeepWalk和Node2Vec也留了不少思考题,去看看吧

你是否能想出更科学的随机游走策略?

基于随机游走的图嵌入方法,都可以被统一成什么样的数学形式?

重新思考:为什么要把图表示成矩阵的形式?

附:时间安排

任务任务内容截止时间注意事项
2月11日开始
task1图机器学习导论2月14日周二完成
task2图的表示和特征工程2月15、16日周四完成
task3NetworkX工具包实践2月17、18日周六完成
task4图嵌入表示2月19、20日周一完成
task5deepwalk、Node2vec论文精读2月21、22日周三
task6PageRank2月23、24日周五
task7标签传播与节点分类2月25、26日周日
task8图神经网络基础2月27、28日周二
task9图神经网络的表示能力3月1日周三
task10图卷积神经网络GCN3月2日周四
task11图神经网络GraphSAGE3月3日周五
task12图神经网络GAT3月4日周六

Reference

[1] 传统图机器学习的特征工程-节点【斯坦福CS224W】
[2] cs224w(图机器学习)2021冬季课程学习笔记2: Traditional Methods for ML on Graphs
[3] NetworkX入门教程
[4] https://github.com/TommyZihao/zihao_course/tree/main/CS224W
[5] 斯坦福官方课程:https://web.stanford.edu/class/cs224w/
[6] 子豪兄github:https://github.com/TommyZihao/zihao_course
[7] 子豪:随机游走的艺术-图嵌入表示学习【斯坦福CS224W图机器学习】
[8] Graph Embedding-Node2vec总结
[9] nx.draw报错 ‘_AxesStack‘ object is not callable
[10] Embedding技术在推荐系统中的应用
[11] cs224w(图机器学习)2021冬季课程学习笔记3: Node Embeddings
[12] networkx官方文档:fast_gnp_random_graph

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/345992.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

请注意,PDF正在传播恶意软件

据Bleeping Computer消息,安全研究人员发现了一种新型的恶意软件传播活动,攻击者通过使用PDF附件夹带恶意的Word文档,从而使用户感染恶意软件。 类似的恶意软件传播方式在以往可不多见。在大多数人的印象中,电子邮件是夹带加载了恶…

Redis-简单动态字符串

Redis中字符串应该是我们使用最多的一种数据类型了,但是有没有想过Redis是如何存储字符串的呢?Redis并没有用C语言传统的字符串(C语言中的字符串一般末尾采用空字符结尾,\0),而是采用它们自己实现的一种简单动态字符串(SDS)实现的…

若依ruoyi——手把手教你制作自己的管理系统【二、修改样式】

阿里图标一( ̄︶ ̄*)) 图片白嫖一((* ̄3 ̄)╭ ********* 专栏略长 爆肝万字 细节狂魔 请准备好一键三连 ********* 运行成功后: idea后台正常先挂着 我习惯用VScode操作 当然如果有两台机子 一个挂后台一个改前端就更好…

java中volatile与synchronized的区别,volatile为什么不能保证原子性

1.volatile与synchronized的区别 2.volatile为什么不能保证原子性 定义: 即一个操作或者多个操作 要么全部执行并且执行的过程不会被任何因素打断,要么就都不执行。 原子性是拒绝多线程操作的,不论是多核还是单核,具有原子性的量…

【C/C++】VS2019下C++生成DLL并且成功调用(金针菇般细)

目录 一,生成动态链接库 二,使用动态链接库 一,生成动态链接库 1.打开VS2019,创建新项目,选择 动态链接库(DLL) 模板后进行下一步 2.输入项目名称,其它默认就行(可自行选择),点击创建 3 工程…

hive开窗函数

hive开窗函数 窗口函数 数据准备 1 jx 20 2 zx 24 3 yx 18 4 wz 10 5 yy 34 6 wy 25create table t (> id int,> name string,> age int> )> row format delimited fields terminated by ; load data inpath /data/data.txt into table t;ROW_NUMBER ROW_N…

网上订餐项目(含后台管理界面)

项目开发环境 项目使用IDEA 2018.3.5进行开发。Maven版本为 3.6.2。Tomcat版本为 8.5.42。数据库为mysql 5.7。JDK版本为1.8_211。项目使用SpringSpringMVCMybits框架。 点餐前台功能 登陆界面如下 登陆后可添加菜品到餐车 餐车里可查看添加的菜品 提交后可查看已派送和未…

Zookeeper配置化中心

zookeeper的基本知识 zookeeper的数据结构:zookeeper提供的命名空间非常类似于标准的文件系统,key-value的形式存储,名称key由/分割的一系列路径元素,zookeeper名称空间中的每个节点都是一个路径标志。 windows下的zookeeper安装&#…

使用Docker快速部署ES单机

所有的操作都是基于Docker来的,没有装Docker的话请参照官方文档安装单机环境部署初始化相关目录mkdir -p /usr/local/elasticsearch/{config,plugins,data}准备配置文件vim /usr/local/elasticsearch/config/elasticsearch.yml将下面的内容粘贴到elasticsearch.yml#…

训练一个中文gpt2模型

前言 这是我的github上的一个介绍,关于如何训练中文版本的gpt2的。链接为: https://github.com/yuanzhoulvpi2017/zero_nlp 介绍 本文,将介绍如何使用中文语料,训练一个gpt2可以使用你自己的数据训练,用来:写新闻、…

linux中top命令分析

TOP命令是 比较常用的性能分析命令,可以看出服务器CPU 、负载、内存、磁盘、IO等数值,接下来就详细解读top命令 top命令 打开服务器终端,直接输入top,top命令中的数据显示的都是当前的实时数据 直接这样输入,回车即…

iptables防火墙屏蔽指定ip的端口

因为需要测试客户端程序与hadoop服务器之间正常通信需要开通的端口, 所以在hadoop各服务器上使用iptables防火墙屏蔽了测试客户端程序的ip和所有端口。然后,根据报错信息提示的端口号来逐步放开直到能正常通信下载文件。 在服务器端屏蔽指定ip访问所有端口 #查看…

UUID的弊端以及雪花算法

目录 一、问题 为什么需要分布式全局唯一ID以及分布式ID的业务需求 ID生成规则部分硬性要求 ID号生成系统的可用性要求 二、一般通用方案 (一)UUID (二)数据库自增主键 (三)Redis生成全局id策略 三…

与AI相遇 | 在ChatGPT中输入“情人节”,我们会得到......?

最近ChatGPT可谓是风靡全球,大家彼此的问候从“你吃饭了吗”变成“你玩ChatGPT了吗”。这款当今最火爆的AI语言模型,是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构&#xff…

校园创新创业基地管理系统(java,jsp,ssh,mysql)+全套视频教程

技术栈: JAVA,SSH, MYSQL, JQUERY,HTML,CSS, JAVASCRIPT首页访问 http://localhost:8080/Struts2.3.16.1Hibernate4.3.4Spring4.0.2/index_index.action管理员admin 123456用户 user1 123456代码功能演示: http://woc.xin/8C64kZ功能列表:本系统包含普通用户,后台管…

LeetCode(Java)—— 加一(简单)

加一概述:给定一个由整数组成的非空数组所表示的非负整数,在该数的基础上加一。最高位数字存放在数组的首位, 数组中每个元素只存储单个数字。你可以假设除了整数 0 之外,这个整数不会以零开头。输入:digits [1,2,3] …

如何设计一个API接口?

在日常开发中,总会接触到各种接口。前后端数据传输接口,第三方业务平台接口。一个平台的前后端数据传输接口一般都会在内网环境下通信,而且会使用安全框架,所以安全性可以得到很好的保护。这篇文章重点讨论一下提供给第三方平台的…

Python readline()和readlines()函数:按行读取文件

如果想读取用 open() 函数打开的文件中的内容,除了可以使用 read() 函数,还可以使用 readline() 和 readlines() 函数。和 read() 函数不同,这 2 个函数都以“行”作为读取单位,即每次都读取目标文件中的一行。对于读取以文本格式…

基于JAVA+SpringBoot+VUE的心理健康测试系统的设计与实现

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取项目下载方式🍅 一、项目背景介绍: 随着现代社会的不断发…

写给小白,Python 爬虫学习思路

爬虫是Python是一个很经典的方向,大多数的小伙伴看到的是Python爬虫的就业效果,确实Python爬虫学习成本低(学习快),就业效果好,特别适合新手入门,但是也要关注另外一个点,就是Python…