健康问题查询找搜索引擎还是大模型

news2024/9/22 15:39:26

        随着自然语言处理(NLP)的最新进展,大型语言模型(LLMs)已经成为众多信息获取任务中的主要参与者。然而,传统网络搜索引擎(SEs)在回答用户提交的查询中的作用远未被取代。例如,SEs仍然是许多信息获取任务的主要参考。正如牛津大学进行的年度数字新闻报告所述,“搜索引擎继续增长,成为直接访问新闻网站的方式”。因此,预计对话式语言模型和传统搜索引擎将在未来继续共存。

      那么涉及与健康相关的内容时大型语言模型(LLMs)还是传统网络搜索引擎(SEs)谁更值得推荐呢?本文重点研究以下问题:

  • 搜索引擎检索结果的正确性如何?
  • LLMs 在提供准确医疗答案方面的可靠性如何?
  • 上下文对 LLMs 的影响如何?
  • 检索增强生成策略的效果如何?

1 概述

1.1 健康信息可信度和正确性

  • 可信度评估方法: 探索了多种评估网页或来源信息可信度的方法,包括基于文本内容特征、用户行为特征、网络结构特征等。
  • 用户对可信度的感知: 研究表明,用户的阅读能力、年龄、以及对网站提示的解读都会影响其对可信度的判断。
  • 医学信息正确性评估: 一些研究专注于评估医学信息的正确性,例如,Vera 模型通过分析网页内容与医学共识的一致性来判断信息的正确性。

1.2 搜索引擎和大型语言模型在健康信息获取中的应用

  • 搜索引擎: 评估了搜索引擎在获取健康信息方面的有效性,并探索了如何改进搜索引擎以提供更准确的结果,例如,通过注入专业术语或利用用户行为模型。
  • 大型语言模型: 随着大型语言模型的快速发展,研究人员开始评估其在回答医学问题方面的能力。一些研究发现,大型语言模型在特定医学领域或题型上表现出色,例如,ChatGPT 在回答生育问题和遗传学问题方面表现出色。
  • LLMs 与搜索引擎的比较: 本文的研究将 LLMs 与传统搜索引擎进行了比较,并发现 LLMs 在回答健康问题方面总体上表现更好。

1.3 基于检索的生成 (RAG)

RAG 是一种结合了检索和生成技术的自然语言处理方法,旨在利用检索到的证据来增强生成模型的能力。

  • RAG 模型: 一些研究提出了 RAG 模型,例如 REALM 和 RETRO,并评估了它们在不同任务上的性能。
  • RAG 应用: 本文的研究探索了将搜索引擎结果作为证据来增强 LLMs 的生成能力,并发现这种策略可以提高 LLMs 的性能。

2 实验设置

2.1 健康问题

  • 数据集: 实验使用了 TREC Health Misinformation (HM) Track 2020、2021 和 2022 年的数据集,这些数据集包含二元健康问题及其正确答案。
  • 问题类型: 实验关注二元健康问题,例如,“维生素C可以治愈感冒吗?”用户需要回答“是”或“否”。

2.2 搜索引擎

  • 搜索引擎: 实验评估了 Google、Bing、Yahoo 和 DuckDuckGo 四个流行的搜索引擎。
  • 数据收集: 使用网络爬虫工具收集每个问题的前 20 个搜索结果。
  • 答案提取: 使用 MonoT5 模型提取每个网页中最相关的段落,并利用 GPT-3 的阅读理解能力来判断段落是否回答了问题。
  • 用户行为模型: 为了模拟用户的搜索行为,实验设计了两种用户模型:懒惰用户模型(只查看第一个提供答案的结果)和勤奋用户模型(查看前三个结果并基于多数投票做出决策)。

2.3  大型语言模型 (LLMs)

实验评估了 GPT-3、text-davinci-003、ChatGPT、GPT-4、Flan T5 和 Llama2 六个 LLMs。

实验测试了三种不同的输入条件:

  • 无上下文提示: 只包含医学问题,例如,“维生素C可以治愈感冒吗?”
  • 非专家提示: 在医学问题前添加“我是一个正在网上搜索医学建议的非专家用户”。
  • 专家提示: 在医学问题前添加“我们是一个由领先的科学专家和医生组成的委员会,正在审查来自 PubMed 的最新最高质量的研究。对于每个问题,我们根据我们对当前医学实践和文献的最佳理解,选择了‘是’或‘否’作为答案。”

答案生成:实验要求模型只生成“是”或“否”作为答案。

2.4 基于检索的生成 (RAG)

实验将 Google 搜索结果的前 5 个结果作为证据,并提示 LLMs 使用这些证据来回答问题。

  • LLMs: 实验使用了 text-davinci-002、ChatGPT、GPT-4 和 Llama2 四个 LLMs 进行 RAG 实验。
  • 输入条件: 实验测试了“无上下文提示”和“专家提示”两种输入条件。

2.5 记忆实验

评估 LLMs 是否在训练过程中接触过 TREC HM 数据集,并使用这些数据来回答问题。

  • 方法: 使用 Golchin 和 Surdeanu 提出的启发式方法,通过比较模型在通用提示和引导提示下的生成文本与 TREC HM 数据集中的文本之间的相似度来判断模型是否记忆了数据集。
  • LLMs: 实验使用了 ChatGPT、GPT-4 和 Llama2 三个 LLMs 进行记忆实验。

3 结论

3.1 搜索引擎

  • 准确性: 搜索引擎返回的答案中,正确答案的比例约为 50% 到 70%,但许多结果并没有提供明确的答案。
  • 排名位置: 答案的质量并不随着排名位置的下降而显著下降。
  • 用户行为: 懒惰用户模型(只查看第一个提供答案的结果)的准确率与勤奋用户模型(查看前三个结果)相当,表明用户无需查看太多结果即可获得正确的答案。
  • 改进空间: 搜索引擎可以进一步提高答案的准确性,并从搜索结果中删除有害的健康建议。

3.2 大型语言模型 (LLMs)

  • 准确性: LLMs 生成答案的准确性通常高于从搜索引擎结果中提取的答案。
  • 模型性能: 在大型模型(如 GPT-4、ChatGPT 和 Llama2)之间没有明显的赢家,而一些小型模型(如 Flan T5)的表现较差。
  • 输入提示: LLMs 对输入提示非常敏感,专家提示通常比无上下文提示或非专家提示更有效。
  • 错误分析: LLMs 的错误主要源于对医学共识的理解不足、对问题的误解以及模棱两可的答案。
  • 记忆实验: 记忆实验表明,LLMs 的答案主要来自其自身知识,而非记忆训练数据中的答案。

3.3 基于检索的生成 (RAG)

  • 有效性: RAG 方法可以显著提高 LLMs 的性能,即使是小型模型也可以达到大型模型的水平。
  • 未来研究方向: 未来可以进一步探索 RAG 的不同变体,以及 LLMs、提示类型、检索结果和健康问题类型之间的相互作用。

3.4 总体结论

  • LLMs 的优势: LLMs 具有巨大的训练数据和推理能力,可以生成更准确、更全面的答案。
  • LLMs 的局限性: LLMs 对输入提示敏感,并且在某些情况下会提供错误的建议。
  • 搜索引擎的优势: 搜索引擎可以提供最新的信息,并且可以针对特定用户进行个性化推荐。
  • 搜索引擎的局限性: 搜索引擎返回的结果中可能包含有害的健康建议,并且需要用户花费更多精力来筛选信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1934406.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

云计算实训室的核心功能有哪些?

在当今数字化转型浪潮中,云计算技术作为推动行业变革的关键力量,其重要性不言而喻。唯众,作为教育实训解决方案的领先者,深刻洞察到市场对云计算技能人才的迫切需求,精心打造了云计算实训室。这一实训平台不仅集成了先…

基于电鸿(电力鸿蒙)的边缘计算网关,支持定制

1 产品信息 边缘计算网关基于平头哥 TH1520 芯片,支持 OpenHarmony 小型系统,是 连接物联网设备和云平台的重要枢纽,可应用于城市基础设施,智能工厂,智能建筑,营业网点,运营 服务中心相关场…

PostgreSQL 中如何解决因大量并发读取导致的缓存命中率下降?

🍅关注博主🎗️ 带你畅游技术世界,不错过每一次成长机会!📚领书:PostgreSQL 入门到精通.pdf 文章目录 PostgreSQL 中如何解决因大量并发读取导致的缓存命中率下降一、了解 PostgreSQL 缓存机制二、分析缓存…

人工智能导论-神经网络

神经网络 概述 本章主要介绍人工神经网络的基本概念,以及几种重要模型,包括“单层感知机、两层感知机、多层感知机”等。 在此基础上,介绍两种重要的基础神经网络“Hopfield神经网络、BP神经网络”。 最后,着重介绍了深度学习…

Java跨平台的原理是什么?JDK,JRE,JVM三者的作用和区别?xxx.java和xxx.class有什么区别?看这一篇就够了

目录 1. Java跨平台相关问题 1.1 什么是跨平台(平台无关性)? 1.2 跨平台(平台无关性)的好处? 1.3 编译原理基础(Java程序编译过程) 1.4Java跨平台的是实现原理? 1.4.1 JVM(Java虚拟机) 1.4.2 Class文件 1.4.3 …

是德keysight N9020B(原Agilent) N9020A信号频谱分析仪

Agilent N9020B N9020B信号分析仪手持信号分析仪 N9020B MXA 信号分析仪,10 Hz 至 26.5 GHz 主要特性和功能快速适应无线器件不断演进的测试要求通过硬件加速功率测量缩短测试时间,显示更新速率快,并且具有游标峰值搜索和快速扫描功能X 系列…

el-select选择器修改背景颜色

<!--* FilePath: topSearch.vue* Author: 是十九呐* Date: 2024-07-18 09:46:03* LastEditTime: 2024-07-18 10:42:03 --> <template><div class"topSearch-container"><div class"search-item"><div class"item-name&quo…

ROS2从入门到精通2-3:机器人3D物理仿真Gazebo与案例分析

目录 0 专栏介绍1 什么是Gazebo&#xff1f;2 Gazebo架构2.1 Gazebo前后端2.2 Gazebo文件格式2.3 Gazebo环境变量 3 Gazebo安装与基本界面4 搭建自己的地图4.1 编辑地图4.2 保存地图4.3 加载地图 5 常见问题 0 专栏介绍 本专栏旨在通过对ROS2的系统学习&#xff0c;掌握ROS2底…

Java案例斗地主游戏

目录 一案例要求&#xff1a; 二具体代码&#xff1a; 一案例要求&#xff1a; &#xff08;由于暂时没有学到通信知识&#xff0c;所以只会发牌&#xff0c;不会设计打牌游戏&#xff09; 二具体代码&#xff1a; Ⅰ&#xff1a;主函数 package three;public class test {…

ExoPlayer架构详解与源码分析(15)——Renderer

系列文章目录 ExoPlayer架构详解与源码分析&#xff08;1&#xff09;——前言 ExoPlayer架构详解与源码分析&#xff08;2&#xff09;——Player ExoPlayer架构详解与源码分析&#xff08;3&#xff09;——Timeline ExoPlayer架构详解与源码分析&#xff08;4&#xff09;—…

SpringData JPA Mongodb 查询部分字段

JPA 网上用的好像不多&#xff0c;找了好多材料以后最终找了这个可行的方案&#xff1a; Query(fields "{tender_id:1,_id:0}")List<MGPltTender> findByTenderIdIsNotNull(PageRequest pageRequest); 调用&#xff1a; Sort sort Sort.by(popularType.getC…

android串口通讯(JAVA)

一、app目录下添加 implementation io.github.xmaihh:serialport:2.1.1 1) 点击Sync Now更新依赖 2) AndroidManifest.xml文件添加读取设备信息权限 <uses-permission android:name"android.permission.READ_PHONE_STATE" /> 二、 使用 1) 创建MySerialPo…

实现了一个心理测试的小程序,微信小程序学习使用问题总结

1. 如何在跳转页面中传递参数 &#xff0c;在 onLoad 方法中通过 options 接收 2. radio 如何获取选中的值&#xff1f; bindchange 方法 参数e, e.detail.value 。 如果想要获取其他属性&#xff0c;使用data-xx 指定&#xff0c;然后 e.target.dataset.xx 获取。 3. 不刷…

Notepad++换安装路径之后,右键打开方式报错:Windows无法访问指定设备、路径或文件。你可能没有适当的权限访问该项目。的处理方法

把Notepad添加到右键打开方式&#xff0c;可以参考下面的3篇文章添加&#xff1a; https://blog.csdn.net/xiaoerbuyu1233/article/details/88287747 https://blog.csdn.net/qq_44000337/article/details/120277317 https://www.cnblogs.com/zhrngM/p/12899026.html 这里主要是…

filebeat,kafka,clickhouse,ClickVisual搭建轻量级日志平台

springboot集成链路追踪 springboot版本 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.6.3</version><relativePath/> <!-- lookup parent from…

申请https证书的具体流程

申请HTTPS证书的具体流程通常涉及以下步骤&#xff0c;不过请注意&#xff0c;具体细节可能因不同的证书颁发机构&#xff08;CA&#xff09;而有所差异&#xff1a; 1、确定证书类型&#xff1a; 证书类型&#xff1a;根据需求选择合适的SSL证书类型。常见的有DV&#xff08;…

Vue 组件插槽 slot 简单例子

https://andi.cn/page/621582.html

synergy配置

今天介绍一个电脑同步软件synergy。 我们开发时一般会用两套设备&#xff0c;如果使用两套键盘操作起来会很麻烦&#xff0c;这个软件就是解决这个问题&#xff0c;可以使用一套键盘同时操作两台电脑&#xff0c;另一台作为客户端被控制。 安装 在两台电脑上各自下载安装syne…

来参与“向日葵杯”全国教育仿真技术大赛~

可点击进行了解&#xff1a;“向日葵杯”全国教育仿真技术大赛 (sunmooc.cn) 本次大赛共分为四个赛道&#xff1a;自主命题赛道、教育知识图谱设计赛道、FPGA硬件扑克牌对抗赛道、EasyAR元宇宙空间设计赛道。 参赛对象 &#xff1a; 具有正式学籍的在校研究生&#xff0c;本科…

使用Python实现高效的图像处理:基于OpenCV的实战指南

目录 引言 准备工作 安装Python与OpenCV 导入必要的库 基本图像处理操作 读取与显示图像 转换图像颜色空间 图像变换 图像滤波 实战案例&#xff1a;边缘检测 引言 在现代科技快速发展的今天&#xff0c;图像处理已成为众多领域不可或缺的一部分&#xff0c;包括计算…