MQA (multi query attention)
Fast Transformer Decoding: One Write-Head is All You Need MQA 是 19 年提出的一种新的 Attention 机制,其能够在保证模型效果的同时加快 decoder 生成 token 的速度。 那到底能提升多少的速度呢,我们来看论文中给出的结…
现象
最近收到一个慢sql工单,慢sql大概是这样:“select xxx from tabel where type 1”。
咦,type字段明明有索引啊,为啥是慢sql呢?
原因
通过执行explain,发现实际上数据库执行了全表扫描,从而被系统…