对于天天查找论文的小伙伴来说,有一个好用的搜索工具,那简直不要太开心,效率妥妥的上升。
但现实结果却是,要么搜索工具不给力,要么自己输入的关键词不起作用,反正,自己脑海里想找寻的论文和搜索出来的结果不能说毫无关系,简直是天差地别。
下面我们将要介绍的这个网站,可以帮你搞定论文搜索遇到的难题,网站名为 arXiv Xplorer,专门用于对 arXiv 上的论文进行语义搜索。根据项目作者介绍,该网站的内部算法使用了 OpenAI 的最新嵌入模型,可以为用户进行搜索查询,从而找到最相关的论文。
arXiv Xplorer地址:https://arxivxplorer.com/
项目作者表示:OpenAI 新的嵌入 API 给他留下了深刻的印象,因此他想看看该嵌入是如何在实践中使用的。所以他花了几天时间来构建这个项目,到目前为止,它工作得非常好。除此以外,他还用 ChatGPT 编写了 80% 的 UI,用 pinecone 来存储向量数据库,并用 googlecloud 函数来嵌入查询并执行查找。
想要了解嵌入模型更多内容,可以前去网站查看。
嵌入模型:https://openai.com/blog/new-and-improved-embedding-model/
借助 arXiv Xplorer,你可以找到所需论文,即使是你的描述非常模糊,甚至只是输入「有趣的 ML 论文」这种没有信息含量的描述,该引擎也能帮你完成。如下所示,输入几个关键字后该网站展示的查询结果。
在此过程中,相比谷歌或 arXiv 自己的搜索等传统搜索工具来说,你还能发现以前从未见过的有趣论文,相比来说,似乎 arXiv Xplorer 效果更胜一筹。
你也可以通过粘贴 arxiv url 直接搜索类似的论文,举例来说,下图的输入是论文《A Generalist Agent》的地址,搜索结果显示(红框),A Generalist Agent 相似度为 100%,其他的搜索结果按照得分依次展开。
除此以外,你还可以点击上图红框中的小三角,之后界面变成下图所示,显示论文参与者和摘要,下面还有两个功能:「More Like This」将会显示更多相似论文;「View」会链接到论文在 arXiv 的主页。
看到这个功能齐全的网站,网友的好奇心也是憋不住了,问道「你用到了 OpenAI 的嵌入技术,但是这项技术是收费的,那你为此交了多少钱?」。项目作者表示:「将所有论文嵌入 CS 类别(约 50 万篇)需要 40 美元。」
还有网友对技术展开了一系列问题,例如:「这个网站是嵌入了所有 arXiv 的标题吗?」项目作者表示:「他把所有论文的标题和摘要都嵌入了,最初手动做余弦相似度和排序,但 pinecone 使它超级简单!」
还有网友建议到:「这个工具搜索功能做得很好!如果能够按发布日期查看和排序,那就太酷了。」对于这一点,项目作者表示之后会不断优化,争取实现更完美的功能。