Day 21 Self- Attention
选修部分
data:image/s3,"s3://crabby-images/13c33/13c33ad8b5a0687a09ec4494798c75cba711d6e3" alt="image-20240417184829593"
data:image/s3,"s3://crabby-images/70318/703182aef170a7ef1fb158df331726691bab2e69" alt="image-20240417190658276"
data:image/s3,"s3://crabby-images/8f4b4/8f4b42faa970b0e04d09e81c9429cf87e086cb41" alt="image-20240417190749226"
学完自适应 再回来看看
Sequence Labling
data:image/s3,"s3://crabby-images/0a5d2/0a5d2aead086a87494a9969c4c3f994d5a59665e" alt="image-20240419164301252"
假如我们现在有一个需要读完全部句子才能解的问题, 那么red window 就需要变得是最大的(最长的句子);
其实这里大家有没有想过,这个玩意儿就是个卷积网络CNN,所谓的window 就是卷积核
data:image/s3,"s3://crabby-images/42d3b/42d3b8fe94a2a2208227d9be382b758f3e4d648c" alt="image-20240419164705272"
what is self Attention?
how self-attention work
主要考虑 Dot -product
实际操作自己也要做关联计算qk
如果b1 和 v2 比较接近的话,那么我们就说这a1 和a2 比较像
b1 --b4 是同时产生的
矩阵运算的角度
你也可以不做softmax(Relu 也行)
(小bug是 a_head 换成 ')
data:image/s3,"s3://crabby-images/8d563/8d563bfe1e21236d3c8ad51e62b8658aac970eb5" alt="image-20240419183338095"
Multi-head -self-attention
Positional Encoding
hand - crafted (s to s 的规则使得不会超过位置信息)
can learned from data
这里感觉不到数学的巧妙,只是感到了工程的流水线的简洁和高效
Applicantions
Self -attention vs CNN
弹性较大,数据较小的时候容易过拟合
提问:
- 我们知道 fc 和cnn差不多(无非是fc更宽一些,如果你把cnn当初fc做的话有可能丢失位置信息,或可能需要postion encode),那么问你为什么不把windows变得很大去卷积呢?
- 如果说像老师说的
- 无法得知最长的sequerence
- 参数量大(这里不太明白参数量大在什么地方)
Self-Attention vs RNN
- 这里和我理解的差不多,就是特征彼此离得太远有点记不住了
- RNN 无法进行并行计算
Self - Attention for Graph
可以做智能知识图谱哎,相关性度量;this is one type of Graph Neural Network(GNN)