目前推出深度研究和深度检索的AI大模型有四家:
OpenAI和Gemini 的deep research,以及Perplexity 和Grok的deep search,都能生成带参考文献引用的主题报告。
致力于“几分钟之内生成一份完整的主题调研报告,解决人力几小时甚至几天的工作量。大大提升研究效率。”
本文娜姐会针对一个文献综述主题,来测试对比一下这四家的实际生成效果。
首先,这几款工具技术参数和价格对比如下:
2 各家效果测试对比:
下面娜姐以一篇综述主题“炎症相关脂肪因子与痴呆的研究进展”为例,详细对比一下各家的输出效果:
我要求按照如下框架内容展开,并包含一个总结性表格:
1 炎症相关脂肪因子的具体分类;2 脂肪因子在神经炎症中的作用机制;3 脂肪因子与不同类型痴呆的关系;4 临床研究和动物实验的最新进展;5 潜在的治疗靶点及干预策略
2.1 Perplexity:
为防止用中文对话,Perplexity查找的都是中文信息源,我强调要查找英文文献,并用中文撰写综述,Perplexity听懂了:
但是,对于不同脂肪因子与痴呆症的作用机制,并没有深入讨论,只列举了相关性:
最后听话照做输出了总结性表格,只是内容总结的不够全面:
总结一下:
Perplexity deep search的优点是生成带参考文献引文的报告。内容的准确度还可以(对比刚上线时候功能似乎有改进),但是不够全面,对于研究型主题来说,深度也不够。好在它末尾的“关联问题”很有启发性,你可以继续深挖,补全信息,比如继续让它深度思考机制问题:
2.2 Grok3 deep search:
虽然我强调了检索英文文献,但是最后用中文输出报告,但是Grok还是检索的中文信息源:
然后换成用英文提问,要求中文回复,这下可以了。
Grok的深度搜索检索了20篇学术文献,并汇总结果用中文呈现给我。对比Perplexity的文献大多来自Pubmed、Semantic Scholar,Grok的文献来源更学术和多样化:包括ScienceDirect、Wiley、Oxford Academic等学术出版机构。
但是它的参考文献没有在报告中引用,不好确认相关性:
Grok表格总结和Perplexity总结的主要脂肪因子种类一样,但其他类目不同。Perlexity比Grok的总结更符合学术论文风格:
2.3 Gemini deep research:
Gemini和OpenAI的深度研究都是智能体驱动的,Gemini的底层模型是1.5 pro,在输出报告之前,都会先出一个内容框架,和你对齐需求,最终生成一份带参考文献来源的3000多字综述报告。
脂肪因子和痴呆的作用机制探讨,Gemini比Perplexity和Grok深入一点,但是对于学术论文的文献综述,还太浅了:
表格总结方面,Gemini总结的是所有炎症相关脂肪因子,而不是和痴呆相关的,对主题的理解有偏差:
2.4 OpenAI deep research:
用时7分钟,调研了35篇文献后,deep research给我输出了一份2万多字的完整综述:
毫无疑问,这份报告的质量是最高的,不是因为字数最多,而是它的报告足够有深度、准确性高、文献是最新的。
表格总结,OpenAI deep research是最全面准确和最有深度的,并且全部带有引文链接:
相比之下,Perplexity和Grok deep search脂肪因子总结不够全面,且分析较浅;Gemini Deep Research总结更全面,但是准确度有待核实,有一些不相关的脂肪因子总结进来。且表格其他项目没有OpenAI总结深入。
总结一下:
Perplexity和Grok的深度搜索工具重在搜索和汇总信息,两者结果呈现相当。Groq搜索来源更广泛,但是文中不带引文,不好核实来源;Perplexity会在文中和文末同时附带参考文献。
Gemini和OpenAI的深度研究相比,Gemini虽然背靠谷歌搜索,但是由于底层大模型1.5 pro不够给力,充其量只能算deep search的升级版,因为一份深度的研究报告除了对信息的检索,还包括对信息的判断、分析和汇总。
OpenAI deep research胜在其底层模型o3,专门针对深度研究的使用场景,采用 “端到端的强化训练”方法,获得了很好的效果。
3 OpenAI deep research特点分析
该智能体从用户的问题出发,直接学习每一步该怎么办:例如应该搜索什么关键词、点击哪个链接、在页面中寻找哪些信息、何时结束搜索开始撰写报告等等。整个决策链条都是通过强化学习一体化学得的。
不需要人为告诉它该搜索什么关键词、点击哪个链接、在页面中寻找哪些信息、什么时候结束搜索开始撰写报告等等 。
(OpenAI deep research自主创建关键词,检索、分析、汇总信息的过程)
正因为o3模型在信息判断和分析综合能力的提升,它特别适合学术类文献综述任务。
当然,正如娜姐之前那篇关于OpenAI deep research文章的总结,它也不是没有缺点的:
OpenAI deep research全面开放:如何更好的用它进行文献综述?(深度使用经验分享)
1 完成一个任务要多次尝试,速度慢,deep research完成一份报告要5-30分钟;且需要较高的算力支持(所以收费贵,plus用户每月才10次)。
2 在文献来源方面,存在单篇文献过度引用和引用不全面的问题。在阐述某一个观点时,找到契合观点的文献可能一整段都会只引用1-2篇文献。所以,deep research出的报告一般都是20-30篇参考文献。即使你要求更多,也不会超出50篇。
你看它的智能体运行过程,会发现,它在找到某一个观点的支撑文献之后,就会进入下一个任务,并不会就这个关键词继续全面检索文献。
但是,不同于Gemini的一次性深度研究报告,OpenAI的deep research可以在同一个对话框继续对话,你可以针对报告中的某一个主题继续拓展,还能添加附件资料让它学习。
4 学员群提问关于deep research的问题汇总:
4.1 怎么样算是调用了deep research,我的是不是被降智了?
Deep research的回复分为两步,第一步对齐需求,第二步开始研究。进度条开启就是成功调用deep research,就会算一次(plus每月10次额度),最后生成的报告一定是带参考文献引用的。
如果没有分两步进行,直接在第一次就回答了你的问题,且没有进度条展示和参考文献。那就是被降智了。概率问题,无解。
4.2 该如何选择运行deep research的大模型?
现在ChatGPT也有五六款模型可以选择了,用哪一个模型进行深度研究效果最好呢?
deep research的回答分为两步:第一步是根据你的提问和你对其需求,这一步可以自由选择模型,默认是4o,还可以选择其他推理模型o1;第二步是启动深度分析,这一步是调用专门训练用于深度研究的o3来完成的,选其他的也没用。
4.3 报告怎么下载?
不同于Gemini的deep research,可以直接生成谷歌文档,以附件形式下载。OpenAI的深度研究报告不能以附件形式下载,只能在报告末尾左下角点“复制”按钮,复制到word文档查看。
并且,参考文献都是附在文中,链接有时候还不能跳转。好在,有标题信息,都能溯源。
好了,以上就是近期四款主流的AI大模型ChatGPT/ Gemini/ Perplexity/ Grok的深度搜索和深度研究功能对比。我们可以根据场景和自己的需求选择不同的深度研究工具,提升科研效率。