个人随想-一个有意思的鼠标截屏RAG

news2025/3/29 9:05:55

在这里插入图片描述

multi-model rag现在的技术已经比较成熟了，我们也落地了很多公司的rag和agent项目。今天先不说项目落地，今天给大家分享一个有意思的需求。

广州的一家公司，当我们rag搭建完成后，他们的一个产品经理提了一个需求。他们说，虽然你们的应用，可以通过打字，语音和上传图片实现rag，但是还不是很方便。他说，我们很多时候浏览的都是pdf或者一些加密的信息，这些加密的信息，我是不能复制粘贴的，也就没有办法把文字内容直接复制到我的聊天框，截图再上传，也太麻烦了。

我说，这很简单啊，现在qq、微信的截图，都自带ocr识别功能，能把图片的内容，直接给你识别出来，然后你再复制到聊天框不就行了？

他说，这还是比较麻烦。我是希望，我直接截图，你这里直接调用rag或者agent，也就是，屏幕截图接入大模型。比如：我截图一个复杂的公式，你直接帮我翻译出来。我截图一个数学问题，你直接给我计算出答案。我截图一个内容，你直接调用rag给我找到知识库的内容并总结，等等把。

不知道大家有没有听懂他的意思。

不可否认，这人真的是个人才。。。一般人还真想不出来。现在截图功能，已经越来越普及，一个截图，不需要保存截图，然后找到这个截图，再发送给大模型，而是我一个截图，直接调用大模型，这个产品经理，确实让我刮目相看。

ok，开干。
系统接入，比较简单，加入一个屏幕截图快捷键，第一版，我们直接mss+image+imageTK+bytesIO，搞定，通过鼠标监听、获取选定区域、将图像保存到内存中。

接下来，我们会在截屏旁边，提供rag和agent入口，它可以选择要执行的操作，如果是rag，我们就会调用chatprompttemplete+ocr这个image的内容，发送到agent，同时带上图片的原始值，做multi-model的rag。如果用户选择的是agent，会默认预定义几个agent给他用，比如：计算、解释等(记得前一节我们说的，限定agent范围)。

ok，搞定。我们觉得还行，接下来，用户继续提需求，你这个屏幕截图快捷键，很多员工不想重新设置，就想用微信电脑版的截图，比如alt+A，也要达到截图不保存，直接发大模型。。。

ok，我们继续做，具体怎么做的，怎么跟客户沟通的，等我们做好了，再跟大家分享。

所以，跟传统软件开发一样，用户的需求，真的是千奇百怪，但是还是一句话，如果真的是可以解决业务痛点的问题，就大家一起努力干吧。

关注我，每天带你开发一个AI应用。

每周二四六直播，欢迎多多交流。
在这里插入图片描述