从制造/金融/教育/医疗行业实战场景里,了解如何基于亚马逊云科技LLM相关工具打造知识库

news2024/11/17 10:23:26

背景

 本篇将为大家阐述亚马逊云科技大语言模型下沉到具体行业进行场景以及实施案例的介绍,是亚马逊云科技官方《基于智能搜索和大模型打造企业下一代知识库》系列的第四篇博客。感兴趣的小伙伴可以进入官网深入了解其核心组件、快速部署指南以及LangChain集成及其在电商的应用场景。

  • 通用场景:基于企业内部知识库例如IT/HR信息的问答

  • 制造行业:装备维保知识库问答和售后客服

  • 金融行业:智能客服和智能报告生成

  • 教育行业:面向学生和面向学校的智能问答机器人

  • 医疗行业:医疗论文论文信息检索

 方案架构图如下:

 通用场景:基于企业内部知识库例如IT/HR信息的问答

 在该场景下,企业可利用IT手册,员工手册,销售手册等构建企业知识库。使用人员为所有的内部员工,帮助员工提升信息获取的效率,从而提升工作效率。

 提问与员工手册相关的问题,搜索引擎会首先获得相关的预料,然后使用LLM对预料进行信息抽取,过滤和总结,然后直接给出问题答案。

 例1:查询年假时间

 例2:查询上下班时间

 制造行业

 行业场景

 制造行业中相对来说是一个传统的行业,因为历史积累,拥有众多的原始文档,但是由于大部分企业处于数字化转型的初期,无法有效利用这些文档。因此,其主要诉求为建立一个企业级的知识库平台,利用散落各处的文档提升企业运行效率。例如随着制造业的发展,企业对装备的维护和保养变得更加重视。装备维保知识库问答系统可以提供实时的维护指导,帮助操作员和维修人员解决各种故障和技术问题。售后客服对于提供优质的客户支持至关重要。装备的故障和技术问题可能会对客户的生产线造成重大影响,因此快速响应和解决问题是必要的。

 客户选择此方案出于三个考虑:

  • 制造行业中,许多文档描述都是比较专业的知识,所有的描述都需要严谨,因此大语言模型的幻觉问题会导致内容输出不可信,反而出现更多不可控的风险;

  • 所有的回答必须精确到具体出处,避免大语言模型生成内容出现偏差;

  • 存在大量敏感数据,包括维保记录,机械设计图纸等,使用第三方API调用的大语言模型有可能存在数据泄漏,造成违规和安全隐患。

 典型的使用场景为装备维保知识库问答和售后客服。

 行业场景实践

 装备维保知识库问答和售后客服

 在该场景下,企业可利用历史维保记录,例如故障现象、故障原因、维修手册、用户手册等构建企业知识库。使用人员为一线维保工程师或者售后客服,结合检索和大语言模型,可以直接针对用户的故障现象,给出具体的原因分析。

 例1:装备维保场景——提问某零件生锈的原因(中文场景)

 例2:产品售后场景-提问某指示灯状态意义(英文场景)

 金融行业

 行业场景

 金融行业分为银行、保险、资本市场以及支付多个子垂直行业,基于智能搜索和大模型的知识库,银行可以快速准确地回答客户的各类问题,提供个性化的金融产品推荐和投资建议;保险机构可以赋能用户快速找到适合自己需求的保险产品,并了解保险条款和理赔流程;资本市场成员可以借助其帮助投资者快速获取和理解市场动态、公司财务数据和分析报告等信息;支付机构则建立智能客服系统,帮助用户快速解决支付相关的问题。

 客户选择此方案出于三个考虑:

  • 金融行业中所有的描述都需要严谨,数据需要精确,因此大语言模型的幻觉问题会导致内容输出不可信,严重则损坏企业形象以及客户流失;

  • 金融机构(如银行、保险)会提供相关的咨询服务,所涉及到的回复必须精确到具体出处,尤其法律法规相关内容需要和法规文件完全一致;

  • 金融数据存在大量敏感数据,包括交易、企业营收、内部资产以及个人信息,使用公开的大语言模型有可能在不经意间泄漏相关数据,造成违规和安全隐患。

 典型的使用场景为智能客服与智能报告生成。

 行业场景实践

 智能客服

 智能客服在金融行业中具有广泛的应用和场景,包括:

  • 产品和服务咨询:帮助客户查询和了解金融机构提供的各类产品和服务。通过自然语言处理和机器学习技术,智能客服可以回答关于金融产品特性、利率、费用等方面的问题,为客户提供个性化的产品咨询。

  • 交易指导和操作支持:智能客服可以指导客户进行各类金融交易操作,如转账、存款、理财产品购买等。客户可以通过与智能客服进行交互,获取操作步骤和操作指导,提高交易的便捷性和准确性。

  • 投诉和问题解决:智能客服可以处理客户的投诉和问题,并提供相应的解决方案。通过对客户问题的分析和分类,智能客服可以快速回答常见问题,同时也可以转接给人工客服处理更复杂的问题,提高问题解决的效率和客户满意度。

 例 1:金融产品的咨询

 通过提问(如下例)关于金融产品营收数据的分析,搜索引擎会搜索获得相关语料,并作为大语言模型的输入,进行汇总和总结。

 例2:金融专业知识的咨询

 对于某些金融知识(如GDR,存托凭证等)存在专业性强、不易理解的特点,传统客服无法快速理解、整理并得出相关的结论来回应该类型的客户咨询,造成用户体验差。同时对于专业知识的回应,需要准确且严谨的材料中获得,因此参考资料的出处也是本场景重要的指标。使用智能搜索和大模型方案可以有效提高内容总结的效果,同时列举出清晰的数据出处,精确到文档的句和段。

 智能报告生成

 金融行业中尤其是资本市场,无论是券商还是二级市场机构分析员,均需要对大量的数据和报告进行阅读和分析,同时需要对外输出各类型的报告,如行研、个股分析、市场分析和展望、投资建议分析等。他们会遇到以下痛点:

  • 时间压力:分析员通常需要在短时间内完成大量的报告撰写工作,以满足客户和市场对即时信息的需求。这给他们带来了时间上的压力,可能导致报告的质量和深度受到影响。

  • 数据整理和处理:撰写报告需要分析员从各种来源收集、整理和处理大量的市场数据、财务数据和新闻资讯等信息。手动处理和整理这些数据可能耗费大量时间和精力,并且容易出现错误。

  • 分析和解释复杂数据:分析员需要深入理解和解释复杂的金融数据、财务指标和市场趋势。这需要投入大量的研究和分析工作,以便提供准确、全面的分析和评估。

  • 信息获取和更新:分析员需要不断跟踪和获取最新的市场信息、行业动态和公司公告等。信息的获取和更新可能比较困难和耗时,尤其是当信息来源庞杂且分散时。

  • 语言表达和报告风格:撰写高质量的报告需要良好的语言表达能力和清晰的报告风格。然而,分析员可能面临语言表达的挑战,以及如何将复杂的金融概念和数据以简洁明了的方式传达给读者。

 通过使用智能搜索和大模型方案,可以在资讯整理理解以及基础报告生成两个方面减轻上述问题带来的成本。

 以下例子以大宗商品中的原油为例子,需要写一篇“关于原油上涨带来的风险“的报告:

 通过提交相关的任务指引,包括(但不仅限于):1)任务描述;2)文章规定的格式、标题和段落;3)文章规定的分段内容和主旨。智能搜索引擎会先进行从已经加载的数据中获得相关内容,并将内容传递到大语言模型,并要求大语言模型按照指引进行内容生成和输出。输出的报告可以作为基础内容提供给报告撰写和分析团队进行二次加工,从而提高生成效率。

 教育行业

 行业场景

 针对教育领域和智能教育产品的行业场景,可以从以下两个角度来说明,包括学校/老师角度、学生/家长角度。

 学校/老师:本方案为基础来提供创新的在线教育工具,例如AI Class Bot,助力学校和培训机构快速建立在线学习课程,帮助学校提高教学质量和效率,也能够节省教学资源和成本,减轻老师课程设计和辅导的负担,拓展教学内容和形式,增强教学创新和竞争力。

 学生/家长:以本方案为基础来构建智能辅导系统,根据每个学生的水平和进度,生成适合他们的学习内容和方法,自适应地生成不同难度和类型的问题和解析,做到实现因材施教和自适应教育。同时还可以构建学校与家长之间的智能问答系统,可以帮助家长了解孩子的学习情况和需求,提供更多的学习支持和指导。

 在教育行业中,客户选择此方案出于三个考虑:

  • 通过本方案可以快速、方便的将课程内容导入到知识库,利用大语言模型形成课程问答机器人。结合数字人技术还可以提供多轮对话的功能,让教育过程增加更多的趣味性。

  • 通过本方案利用AI/ML技术实现的用户正向反馈功能,可以帮助每个学生实时反馈搜索结果的权重,从而优化自己的知识库模型,以便实现自适应学习的目标。

  • 通过本方案可以把学校已知的资料以及散落在互联网的资料统一汇集到知识库,包括各种非结构化和半结构化数据,让家长更加快捷的查找所要的信息。

 典型场景为面向学生的问答机器人和面向学校的问答机器人。

 行业场景实践

 例1:学生场景的问答机器人(AI Class Bot)-英文单词学习的AI客服机器人

 针对英文单词学习领域,将现有英文单词学习过程中的相关FAQ知识库导入现有方案中,该知识库文件中包含了众多在英文单词学习过程中的客户问题以及处理办法,通过本方案的知识库上传功能,将数据导入到知识库系统中。

 本例中,我们希望客服机器人的答案一定是要基于知识库的范围内进行作答,如果不在知识库的范围,要回答“根据已知知识无法回答该问题”,也就是说我们要避免大语言模型的幻觉问题。基于这个要求,普通的大预言模型在回答用户问题时可以有一定的创新性,也就是模型可以设置temperature值,以控制大语言模型的创新性。但是就算设置非常低的值,也不能保证大语言模型不自己创新的回答用户问题。

 本方案针对该需求增加了置信度(evidence)的判断,对于大语言模型给出的答案与用户的问题、知识库的搜索结果都做了相似度计算,低于某个值就返回用户“无法回答该问题”。如下图所示:

 有一些问题在知识库的范畴内,问答机器人就可以回答,如下图:

 例2:学校场景的问答机器人(AI School Bot)–报考志愿问答机器人

 面临中考、高考的考生家长相对比较焦虑,他们需要掌握更多的学校信息以便和自己孩子的学习情况做比较,选择更加适合自身的学校和未来的报考专业。以下是一个询问中学信息的问答场景,我们仅仅导入了几个国际学校的数据到知识库,希望问答机器人在知识库的范畴内回答问题,同时需要给出答案的置信度。如下图所示:

 当问询某个国际学校的课程信息时,问答机器人将做如下回答:

 医疗行业

 行业场景

 医疗行业有大量文档,其中既包括敏感资料如药物临床研究数据,患者健康数据,药研实验数据,也包括大量的公开数据集如基因数据,医学论文等。然而,作为一个历史悠久等行业,很多医院与企业仍然处于数字化转型的初期,存在数据量大,格式不统一,阅读理解难等问题。医疗健康领域数字化转型,降低医学数据的使用门槛一直是该领域的重要方向。具体来看:

  • 药物研发:通过整合药物设计的公开论文与内部文档为药企提供药物设计的知识库,通过关键词快速了解药理活性,作用位点,毒理,适用病理等信息,帮助企业提高研发迭代速度、提升研发效率、降低研发成本和提升项目整体成功率。

  • 就医知识库:整合FAQ咨询数据、药品说明书、患者病历、医学指南、医学书籍、医学论文、专业网站、专家录入数据等数据源,构建“疾病-症状-药品-诊断-人群”的私有知识库以及基于知识库的医药大健康智能专家虚拟助理。

 典型场景是医疗论文信息检索。

 

 行业场景实践

 医疗论文信息检索

 本次场景演示中,我们从亚马逊云科技的公开数据集中选取大家非常最常使用的NCBI数据集,并选择2023年度的一个子数据集作为样本数据,供测试。

 为了方便测试,我们清洗一部分血液病相关的论文作为测试数据集,使用一些常见的血液病问题进行提问,平台将会从相应的数据集中进行召回,并根据prompt来生成相应的内容。考虑到医疗相关的论文都为英文,我们本次测试中,都使用的是擅长英文的开源大模型进行测试。

 由于论文数据多样、还会有历史等不同信息等,所以在实际使用中,有可能需要通过不同的关键词、句来召回最适合您使用场景的结果。

 而对于知识库没有的数据,平台将会召回“Not found answer” 或者“I don’t know”。这是确保在医疗、生命科学场景,对于不确认的信息,规避无效数据的回复。

 由于论文数据的庞大,新旧数据的冲突等各种原因,在实际使用过程,我们建议用户您根据自己的实际情况、使用场景的需求,对于论文、内部科研数据、任何您需要使用的数据做一次提前的清理,比如,最保留最新数据等。这样保证数据在召回时候更符合您的需求。

 总结

 在日常使用大语言模型的过程中,两个比较突出的问题是不能被忽视的。它们分别是:

  • 幻觉问题(Hallucination)

  • 数据泄露(Data Leakage)

 幻觉问题是自然语言处理领域中的基础问题之一,指文本生成模型的生成结果中含有与输入事实上冲突的内容,即结果可能出现虚构和捏造事实的情况。数据泄露问题是指用户在使用市面上大语言模型过程中,会主动或不经意间传入的可能涉及到商业机密、个人隐私、企业管理等敏感数据,造成数据泄露的问题。本方案的架构设计能够有效解决上述两个问题。

 综上所述,基于智能搜索和大语言模型结合方案为不同行业场景构建GAI应用,达到:

  • 制造行业:通过构建智能企业知识库,有效整合制造业中的各类资料,并应用AI技术,将其快速转化为可信、准确的知识资源,提供给内部员工,从而极大地提升他们获取专业信息的效率。

  • 金融行业:精准的命中金融行业中多种过去只能依靠人工处理的场景,使用AI/ML的技术为金融客户降本增效,并助力客户主动挖掘更多业务场景,在保证数据安全可控的前提下加速AI/ML对业务创新的效率;

  • 教育行业:通过GAI技术,我们可以根据每个学生的水平和进度,生成适合他们的学习内容和方法,自适应地生成不同难度和类型的问题和解析,做到实现因材施教和自适应教育。

  • 医疗行业:通过生成式AI技术,我们可以让更多生命科学的工作者,可以从海量的知识信息中,更容易获取、提取所需要的临床、科研等信息,更好的为我们每个人的身体健康保驾护航。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1242634.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

字符串匹配算法——KMP

有文本串aabaabaaf,模式串aabaaf问文本串中是否出现过模式串 暴力解法 最不用动脑子的,直接两层for循环,逐个匹配,匹配到不相等的值时把文本串后移一位,再重新比较。这种方法的复杂度是O(mn),该方法低效的…

软件开发及交付的项目管理角色

在软件开发及交付过程中,通常会涉及不同的角色和职责,包括业务角色、技术角色和管理角色。这些角色在项目管理中发挥着不同的作用,以确保项目的成功和交付高质量的产品。 业务角色:包括产品经理、业务分析师和业务运营人员等职位…

Confluence Server Webwork 预身份验证 OGNL 注入 (CVE-2021-26084)

漏洞描述 Confluence 是由澳大利亚软件公司 Atlassian 开发的基于 Web 的企业 wiki。 存在一个 OGNL 注入漏洞,允许未经身份验证的攻击者在 Confluence Server 或 Data Center 实例上执行任意代码。 漏洞环境及利用 搭建docker环境 Confluence搭建见前文 Atlas…

网络层协议-IP协议

目录 基本概念IP协议格式分片与组装分片组装 网段划分特殊的IP地址IP地址的数量限制私有IP地址和公网IP地址路由 基本概念 TCP作为传输层控制协议,其保证的是数据传输的可靠性和传输效率,但TCP提供的仅仅是数据传输的策略,而真正负责数据在网…

Android JNI 异常定位(2)—— addr2line

Android native报错有时候只有一句 signal 11 (SIGSEGV),这种情况仅通过log是很难定位到问题的。不过Android 在/data/tombstones目录保存了错误的堆栈信息,为定位bug提供了路径。不过一般这里的log都无法像java一样直接定位的出错的行数。如下图&#x…

Python“牵手”淘宝商品详情接口运营场景,淘宝商品详情接口调用指南

淘宝商品详情数据接口是淘宝开放平台提供的一个API接口,用于获取商品详细信息。通过这个接口,开发者可以根据商品ID或商品链接,获取该商品的详细信息,包括标题、价格、销量、描述等。 要使用淘宝商品详情接口,首先需要…

为什么程序员不直接用线上环境写代码呢?

为什么程序员不直接用线上环境写代码呢? 有的,我就是直接用Linux作为主力电脑使用,大概从201 6年起,我就开始这样干了。无论是编 程、画电路板、画UI、剪视频.... 都在Linux上面完成。 编程工具大部分都有Linux版本,…

Python接口自动化测试——如何搭建测试环境

前言 接口测试的方式有很多,比如可以用工具(jmeter,postman)之类,也可以自己写代码进行接口测试,工具的使用相对来说都比较简单,重点是要搞清楚项目接口的协议是什么,然后有针对性的进行选择&a…

YOLOv5分割训练,从数据集标注到训练一条龙解决

最近进行了分割标注,感觉非常好玩,也遇到了很多坑,来跟大家分享一下,老样子有问题评论区留言,我会的就会回答你。 第一步:准备数据集 1、安装标注软件labelme如果要在计算机视觉领域深入的同学&#xff0…

轻松记录收支明细,一键打印,财务无忧!

作为现代人,管理好个人财务是非常重要的。但是,如何记录收支明细并打印出来呢?今天,我们向您推荐一款财务软件,帮助您轻松解决这个问题。 首先第一步,我们要打开【晨曦记账本】,并登录账号。 第…

2020年09月 Scratch(三级)真题解析#中国电子学会#全国青少年软件编程等级考试

Scratch等级考试(1~4级)全部真题・点这里 一、单选题(共25题,每题2分,共50分) 第1题 执行下面程序,屏幕上最多会看到多少个苹果? A:10个 B:11个 C:1个 D:无法确定 答案:B 第2题 关于下面程序,说法正确的是 ? A:执行 后,马上执行

国内怎么投资黄金,炒黄金有哪些好方法?

随着我国综合实力的不断强大,投资市场的发展也日臻完善,现已成为了国际黄金市场的重要组成部分,人们想要精准判断金市走向,就离不开对我国经济等信息的仔细分析。而想要有效提升盈利概率,人们还需要掌握国内黄金投资的…

加速软件开发:自动化测试在持续集成中的重要作用!

持续集成的自动化测试 如今互联网软件的开发、测试和发布,已经形成了一套非常标准的流程,最重要的组成部分就是持续集成(Continuous integration,简称CI,目前主要的持续集成系统是Jenkins)。 那么什么是持…

Redis Stream消息队列

什么是Stream? Stream 实际上是一个具有消息发布/订阅功能的组件,也就常说的消息队列。其实这种类似于 broker/consumer(生产者/消费者)的数据结构很常见,比如 RabbitMQ 消息中间件、Celery 消息中间件,以及 Kafka 分布式消息系统等&#x…

2023年跨界融合创新应用合作发展大会-核心PPT资料下载

一、峰会简介 本次大会主题为“创新地理信息价值 服务数字中国建设”。1天主论坛和6场专题论坛的报告,围绕主题深入探讨地理信息产业与相关重要应用领域的跨界融合和深化合作。 本届大会将搭建地理信息产业与旅游、林业、环保、气象、住建、水利、农业农村、电力等…

2023亚太杯数学建模竞赛C题新能源电动汽车数据分析与代码讲解

C题论文包括摘要、问题重述、问题分析、模型假设、符号说明、模型的建立和求解(问题1模型的建立和求解、问题2模型的建立和求解、问题3模型的建立和求解、问题4模型的建立和求解、问题5模型的建立和求解)、模型的评价等等, 视频讲解如下&…

MySQL-01-MySQL基础架构

1-MySQL逻辑结构 如果能在头脑中构建一幅MySQL各组件之间如何协同工作的架构图,有助于深入理解MySQL服务器。下图展示了MySQL的逻辑架构图。 MySQL逻辑架构整体分为三层,最上层为客户端层,并非MySQL所独有,诸如:连接处…

驯服大数据的超强利器——PySpark数据处理引擎

你是否曾经为了处理大规模数据而烦恼?是否曾经为了解决日常的数据科学挑战而彻夜难眠?现在,Spark数据处理引擎正在向你敞开大门。这是一个惊人的分析工厂,输入原始数据,输出洞察。 PySpark,作为Spark的核心…

一文掌握 Spring Boot 常用注解,保姆级整理,建议收藏!

亲兄弟篇: SpringBoot注解大全(超详细)_Maiko Star的博客-CSDN博客 一、SpringBoot常用注解 二、Bean处理注解 2.1 Resource 依赖注入,自动导入标注的对象到当前类中,比如我们的 Controller 类通常要导入 Service 类…

java中BigDecimal的介绍及使用(二)

系列文章目录 java中BigDecimal的介绍及使用,BigDecimal格式化,BigDecimal常见问题java中BigDecimal的介绍及使用(二) 文章目录 系列文章目录一、前言二、BigDecimal提供的方法2.1、stripTrailingZeros() 去除小数尾部所有的02.2、int signum()2.3、int…