arXiv
arXiv是国际上最有影响力的论文预发平台,在arXiv发表论文,已经成为科研圈的“潜规则”。arXiv创建于1991年,论文主要是理工科论文,包括数学、物理、计算机、统计、金融等领域。
目前收录论文数量已达200万篇。研究人员每个月会向arXiv提交约8000篇论文,平均每天提交250余篇。
arXiv每天更新量级已经不是普通人可以追更的体量了。
提到大量的信息,肯定有读者会想到用LLM来处理论文。
假设每天我们需要处理100篇英文论文,那需要消耗多少Token呢?需要消耗5百万Token,费用大约在1.25 ~ 600美元(不同模型价格不一样)。
计算逻辑:
假设一篇文档大概需要消耗4000Token(约等于3k单词),LLM每一轮输出消耗400 Token(输出约300字),那么10轮交互下来最少需要消耗5W Token。(每次交互都会把上下文输入LLM)。20篇需要消耗100W Token,如果是每天100篇,需要消耗500w Token。
不同模型的定价:
gpt-3.5-turbo-instruct
每百万Token 输入价1.5美元、输出价2美元。
gpt-4-32k
每百万Token 输入价60美元、输出价120美元。
claude opus
每百万Token 输入15美元、输出75美元
claude Haiku
每百万Token 输入0.25美元、输出1.25美元
100篇论文需要消耗1.25 ~ 600美元。
有没有更为经济(省钱)的方式?
使用本地的LLM,进行批量化处理,可以节省Token开支。
MixCopilot 提供了本地化解决方案,下载lm studio和通义千问-7B(Qwen-7B)模型,启动本地LLM服务,在MixCopilot接入后使用。
参考教程:
如何在个人电脑上使用千问大模型[教程]
如何使用谷歌的gemma新模型?
论文解读
使用MixCopilot最新功能,配置Arxiv论文、一键启动、使用本地LLM加工处理。
处理效率:128篇16分钟完成。
论文的知识加工
除了使用本地LLM来加工处理论文,还可以把pdf论文转为html。
为什么要转为html?
由于arXiv上的论文都是pdf格式,对视障人士的阅读产生不便。在去年12月,arXiv开始提供HTML格式的论文版本,HTML 格式的论文可以通过屏幕阅读器和其他技术更轻松、更准确地阅读,这可以帮助有阅读障碍(包括失明、视力低下等)的研究人员。
arXiv上的html服务 ar5iv.org
blog.arxiv.org/2023/12/21/accessibility-update-arxiv-now-offers-papers-in-html-format
有了html版本,我们就可以轻松地使用LLM来进行信息处理。
把论文的url在MixCopilot打开,右键调用chatbot,支持2种格式,pdf和html 。
( html有个好处就是可以直接拷贝图片 )
加工论文,转为markdown格式,生产内容,编辑后导出为pdf。
论文的可信度
由于arXiv平台并没有纠正科学性错误的义务。这意味着,我们在阅读arXiv论文时,需要有足够的甄别能力,对一些存在明显科学性错误的论文应该能够鉴别。
我们可以从哪些方面得到论文的可信度?
作者、著名期刊收录、搜索引擎
在知识库,可以点击作者直接调用搜索引擎,方便甄别信息。
通过chatbot总结搜索引擎的结果。我们还可以把这个prompt,制作成一个角色。
通过编辑器制作角色-搜索引擎助手,完成信息汇总,保留索引的角色设定,直接在chatbot种通过角色即可一键调用。
最佳实践
作为研究人员,你可以使用此方法制作技术趋势报告。
如果你是知识博主,你可以提供更为系统的论文解读给你的读者们。
如果你正在学习,你可以通过MixCopilot的帮助,高效率地完成最新论文的追踪和阅读。
入群交流
入群备注:MC