看了那么多还没有讲特别好的,GPT老师讲的不错关于三角函数编码。
一、 手撕transformer常用三角位置编码
GPT说:“低维度的编码(例如,第一个维度)可以捕捉到大的位置差异,而高维度的编码则可以捕捉到小的细节差异”,好像是错的(说反了),我重新整理了下。
Query: 频率怎么看? 如果sin(wx) 那么i越小代表低维是吧,分母就越小 那么整体w就越大 w是不是频率 如果是 拿小维度频率更高呢 有可能我理解错了
Answer:
13 【大模型面试 | 位置编码PE - 草莓师姐 | 小红书 - 你的生活指南】 😆 mO58Egl5lGXSLX9 😆 https://www.xiaohongshu.com/discovery/item/67ac12e4000000002802aa9e?source=webshare&xhsshare=pc_web&xsec_token=ABecXaiAShhTEnyF7pb2o-V49ONyIegFjiTjRo5qdXHUo=&xsec_source=pc_share
是不是有这个说法 如果用这种(三角)编码不方便LLM外推?
二、 手撕RoPE编码
无痛理解旋转位置编码RoPE
[通俗易读]无痛理解旋转位置编码RoPE(数学基础,理论(复数的指数表达,矩阵,几何意义),代码,分析) - 知乎
RoPE:旋转位置编码增强模型的输入长度外推能力 # 我艾神制作,必属精品