作者:来自 Elastic Hayley Sutherland
人工智能与搜索的结合使企业智能达到了新的水平,自然语言处理 (NLP)、基于机器学习 (ML) 的相关性、向量/语义搜索和大型语言模型 (LLMs) 等技术帮助组织最终释放未分析数据的价值。组织需要搜索和知识发现技术来发现、分析和利用关键数据。然而,数据泛滥意味着传统搜索系统难以帮助业务用户快速找到所需内容。作为回应,现代搜索系统通过利用基于人工智能的功能,在结果的准确性、相关性和实用性方面取得了巨大飞跃。现在,人工智能的新浪潮 —— 生成式人工智能 (generative AI - GenAI) —— 正在改变前瞻性组织处理搜索、知识管理和其他形式的知识发现的方式。
通过从企业数据源检索相关信息,搜索被证明是将 GenAI 与业务和现实世界数据连接起来的基础,这一过程称为检索增强生成 (retrieval augmented generation - RAG)。通过为 GenAI 模型添加相关信息,搜索系统可以确保答案和见解准确、相关且实用。现实世界的问题和可操作的见解是 AI 与实际业务环境的交汇点,而 RAG 中的检索步骤的重要性不容小觑。
在深入研究 RAG 之前,让我们先回顾一下,了解我们是如何走到这一步的。这有助于了解在何处最好地利用不同形式的 AI 和信息检索,以充分利用技术投资并加速成为 AI 优先组织的道路。
我们是如何走到这一步的?
在过去 10 多年里,IDC 定期对组织进行调查,了解企业搜索和知识发现的挑战和好处。调查问题侧重于 “隐藏” 或未分析数据所代表的一些未开发价值。我们对知识工作者进行调查,了解他们每周在搜索相关活动上浪费了多少时间,例如寻找他们从未真正找到的信息、在多个数据源中搜索一条信息,或者将多条信息连接起来以得出见解或答案。
从 2013 年、2015 年、2019 年和 2023 年的总体来看,这些问题的数据显示,过去五年没有取得显著进步的传统搜索引擎一直在努力跟上组织数据不断增加的数量和种类。这些传统引擎通常使用传统的关键字搜索和脆弱的基于规则的系统,而不是自适应、智能、语义和混合搜索。因此,使用这些工具的组织必须应对相关性排名不佳、查询理解过时或不准确以及基本的可查找性挑战。
另一方面,研究表明,与人工智能创新保持同步的搜索系统在过去五年中取得了显著进步。人工智能带来了更好的搜索、翻译和组合信息的能力。这些能力包括:
- 日益复杂的自然语言理解,允许更多用户以更自然的语言提问
- 基于机器学习的相关性排名,改善结果显示顺序,实现个性化以及基于受欢迎程度的重新排名
- 语义/向量搜索,通过扩展搜索系统的语义理解,超越精确的关键字匹配,进一步增强自然语言搜索功能。关键字和向量搜索的组合(又称混合搜索)在电子商务搜索用例中特别受欢迎,因为它能够找到精确的 SKU/产品名称以及推荐或类似的产品,从而提高转化率、交叉销售和追加销售
使用现代搜索意味着与 2019 年相比,2023 年员工每周在搜索相关活动上浪费的时间减少了 12 个小时 —— 这是一项显着的生产力提高 【1】。与此同时,客户也更加满意,更愿意消费。采用现代人工智能搜索的零售组织报告了诸多好处,例如成本节约(39%)、利润(35%)、客户满意度和参与度(34%)的提高,以及将资源引导至更高价值和/或创收任务的能力(25%)。
新要求:从搜索到搜索 AI(Search AI)
几乎每个行业的领导者都面临着利用 AI 实现业务优势的需求,并且必须加速其组织向 AI 优先转型。IDC 发现,83% 的 IT 领导者认为,利用自身业务数据的 GenAI 模型将为他们带来显著的竞争优势【2】。然而,到 2024 年 1 月,只有 24% 的组织认为他们的资源已为 GenAI 做好了充分准备【3】。过去一到两年的试验、错误和成功表明,搜索技术有助于通过 RAG 弥合 GenAI 与企业数据之间的差距。与需要重新训练 AI 模型的微调相比,RAG 是一种更具成本效益且更省时的方法,用于用特定和/或专有数据补充 LLM:
如上图所示,RAG 在索引/预处理和查询管道中涉及许多步骤和技术。根据数据类型和所涉及的用例,可能需要向量搜索或向量和关键字的组合(又称混合)搜索。公司应该评估其资源,以确定他们想要自己构建和维护哪些部分。IDC 建议如下:
- 确保组织在 RAG 的检索步骤中利用具有高准确度和相关性的强大搜索技术。要寻找的方面包括混合搜索(关键字和语义/向量)、自动重新排名和低代码/无代码工具,这些工具可让各种用户轻松进行测试和调整。此步骤对于确保 LLM 提供最相关、最有用和最可操作的摘要和答案至关重要。
- 评估数据源的准确性和新鲜度,并考虑将使用哪些工具来连接、过滤或将数据提取到管道中。确保数据治理和业务规则(例如访问权限)不会在此过程中丢失,并且系统具有强大的安全防护。
- 确定哪种类型的 AI 最适合不同的用例。应战略性地应用 GenAI,以确保其使用可行、有价值且负责任。如果需要,请选择具有必要经验的提供商来协助确定用例和 AI 使用的优先级。
- 寻找可以协助完成将企业数据连接到 LLM 所需的部分或全部步骤的合作伙伴,包括解析、分块、嵌入、存储以及使用向量或混合搜索来检索要提供给 LLM 的关键信息。
Hayley Sutherland
IDC 对话式人工智能和智能知识发现研究经理
Hayley Sutherland 是 IDC 软件市场研究和咨询小组的对话式人工智能和智能知识发现研究经理。她的核心研究范围包括对话式人工智能和搜索,重点关注聊天机器人和数字助理的人工智能软件开发工具和技术、语音人工智能和文本人工智能、机器翻译、嵌入式知识图谱创建、智能知识发现和情感计算(也称为情绪人工智能)。
赞助商寄语
Elastic 完整的基于云的搜索、可观察性和安全性解决方案建立在 Elastic Search Al 平台上,超过 50% 的财富 500 强企业都在使用该平台。通过利用所有结构化和非结构化数据并保护和保护私人信息,Elastic 可帮助组织利用搜索的精确性来兑现 Al 的承诺。
IDC 信息简报:人工智能的进步如何改变游戏规则
了解人工智能如何改变搜索游戏规则 — 此外,还可获得使用专有数据构建现代搜索的基本指导。获取简介
- IDC 的北美知识发现调查,2023 年 2 月,n = 522
- IDC 的 GenAI ARC 调查,2023 年 8 月,n = 1,363
- IDC 的未来企业弹性和支出调查,第 1 波,2024 年 1 月,n = 881
本文中描述的任何特性或功能的发布和时间均由 Elastic 自行决定。任何当前不可用的特性或功能可能无法按时交付或根本无法交付。
在这篇博文中,我们可能使用或提到了第三方生成 AI 工具,这些工具由其各自的所有者拥有和运营。Elastic 无法控制第三方工具,我们对其内容、操作或使用不承担任何责任,也不对您使用此类工具可能产生的任何损失或损害承担任何责任。将 AI 工具用于个人、敏感或机密信息时请谨慎。您提交的任何数据都可能用于 AI 培训或其他目的。无法保证您提供的信息将得到安全或保密。在使用任何生成式 AI 工具之前,您应熟悉其隐私惯例和使用条款。
Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 和相关标志是 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。
原文:How search accelerates your path to "AI first" | Elastic Blog