每日推荐一篇专注于解决实际问题的外文,精准翻译并深入解读其要点,助力读者培养实际问题解决和代码动手的能力。
欢迎关注公众号(NLP Research)
原文标题:How to Cut RAG Costs by 80% Using Prompt Compression
原文地址:https://medium.com/towards-data-science/how-to-cut-rag-costs-by-80-using-prompt-compression-877a07c6bedb
利用提示压缩加速推理
推理过程是极大增加使用大型语言模型的金钱和时间成本的原因之一。对于较长的输入,这个问题会显著增加。下面是模型性能与推理时间之间的关系。
在 Open LLM 排行榜上,每秒生成更多token的快速模型往往得分较低。扩大模型