图观 | ChatGTP是如何通过知识图谱回答问题的?

news2024/9/19 10:50:27

文/Emma Z

1950年,图灵发表了具有里程碑意义的论文《计算机器与智能》(Computing Machinery and Intelligence),提出了一个关于机器人的著名判断原则——图灵测试,也被称为图灵判断,它指出如果第三者无法辨别人类与AI机器反应的差别, 则可以论断该机器具备人工智能

2008年,漫威《钢铁侠》中的AI管家贾维斯,让人们知道了AI是如何精准地帮助人类(托尼)解决丢过来的各种事务的……

图1:AI管家 贾维斯(图片来源网络)

2023年初,以2C的方式从科技界火爆破圈的免费聊天机器人ChatGPT浪翻全球。

据瑞银的研报,其月活用户在1月份就达到了1亿,目前还在增长着,它已成为史上增长最快的消费者应用。此外,其东家OpenAI继前期发布了每月42美元的专业版Pro后,马上就要推出Plus版,据说每月20美元左右。

当一件新事物,月活上亿,流量上来,并且开启商业变现之后,你是否对它背后的各种技术感到好奇?比如,聊天机器人是如何处理和查询海量数据的?

体验过ChatGPT的朋友都有同感,它显然比天猫精灵或小爱童鞋要更加智能——是一个“有着无敌话术”聊天机器人,一个自然语言处理工具,一个大型语言模型,也是一个人工智能应用。它可以根据提问素材的上下文与人类互动,可以进行推理和创作,甚至还会拒绝(它认为)不当的问题,不只是完成拟人化的交流。

虽然目前对它的评价褒贬不一,但从技术发展的视角来说,它甚至有可能通过图灵测试。试问,在我们与它交流的时候,其(对于小白而言)广博的知识,可甜可油的回答,如果在我们完全不知情的前提下,是很难辨别出对方是人类还是机器(或许这才是它危险的地方——ChatGPT 的内核依然是属于深度学习范畴,存在大量黑盒与不可解释性!)。

那么,聊天机器人是怎么做到将来自3000 亿单词的训练语料库和 1750 亿的参数,快速地进行整理和输出的呢,同时还能做到结合上下文,根据它“掌握”的知识,自由应对与人类的交流的呢?其实,聊天机器人也有大脑,它跟我们人类一样,需要学习+训练。

图2:ChatGPT 学习训练图(来源官网)

它将海量的文本、图片等等非结构化的文件,通过NLP(自然语言处理)、目标识别、多模态识别等,按其语义结构化成知识图谱,这个知识图谱就是聊天机器人的大脑了。

图3:以医疗为例,人工智能将多来源的数据转化在问答、搜索、药物研发等场景的知识图谱中

知识图谱是由什么组成的呢?它是由(实体)和(关系)组成的,能够将人、事、物等相关信息进行整合,形成一个全面的图,如下图。

图4:由人物的点和属性边构成的图谱(子图)

当提问“OpenAI 的创始人是谁呀?”,聊天机器人的大脑就开始迅速地在自己的知识库里搜索、查找,先从用户的问句中,锁定目标“penAI”,再根据用户的提问,连锁出另一个——创始人“山姆·阿尔特曼”。

图5:从点“OpenAI”通过一条边连接到另一个点“山姆·阿尔特曼”

其实,当我们在提“OpenAI的创始人是谁"的时候,聊天机器人就会在自己的知识库中,把所有围绕该的图都关联出来。所以,当我们问及相关问题的时候,它其实早已预判了我们的预判。比如当我们问:“马斯克是OpenAI的创始团队成员吗?”仅仅一个命令的发出,它已经将所有的成员都查询了(举千反一),见下图。

图6:由点“OpenAI”关联到其他人物

此外,在它的库里如果还收录过其他的“学习资料”,那么在其的“大脑”中还会关联着诸如“人工智能机器人的产品有哪些?”等相关的图,如下图。

图7:常见的AI机器人产品图谱

当然,聊天机器人和人一样,回答问题会受到自身知识储备的局限,如见下图:

我们知道,决定一个人大脑快不快、聪明不聪明的判断是什么呢?从人类的视角来看,最简单的一个标准就是是否具备举一反三的能力。

子曰:“不愤不启,不悱不发,举一隅不以三隅反,则不复也。”——论语·述而篇

早在两千年前,孔子就强调过善于举一反三、由此及彼、触类旁通的重要性。而对于聊天机器人来说,其答案的质量取决于构建知识图谱的算力

我们知道,通用的知识图谱的建设在很长一段时间内都着重在 NLP和可视化呈现等方面,但忽略了计算时效性、数据建模灵活性、查询(计算)过程与结果可解释性等问题。尤其是在整个世界从大数据时代向深数据时代转型的当下,过去传统的基于SQL或 NoSQL构建的图谱的缺陷,已无法高效去处理海量、复杂、动态的数据的能力,更何谈进行关联、挖掘和分析的洞察力?

那么,传统知识图谱面临的挑战都有什么特性呢?

一是,低算力(低效)。采用SQL 或 NoSQL 数据库系统构建的知识图谱底层架构效率低下,无法高速地处理高维数据。

二是,灵活性差。基于关系型数据库、文档数据库或低性能图数据库构建的知识图谱通常受制于底层架构而无法高效地还原实体间的真实关系。诸如,它们有些只支持简单图,录入多边图数据时要么信息容易丢失,要么花高代价来构图。

三是,徒有其表。在2020 年之前, 极少有人真正关注底层算力,几乎所有的知识图谱系统建设,都仅仅是围绕 NLP 和可视化这两部分。而没有底层算力支撑的知识图谱,只是在本体与三元组的抽取和构建,并不具备解决深度的查询、速度和可解释性等问题的能力。【注:在这里,我们不展开讲传统关系型数据库与图数据库之间的性能对比,感兴趣的读者可阅读:图数据库与关系型数据库的区别?和 图数据库解决了什么问题?】行文至此,我们已经从聊天机器人的智能知识图谱话题,聊到了另一个前沿技术——图数据库(图计算)技术领域了。

图数据库【见参考资料1】是一种应用图理论,可以存储实体的属性信息和实体之间的关系信息,在定义方面,(Graph)是以节【见参考资料2】和【见参考资料2】定义的数据结构。

图是知识图谱存储与应用服务的基础,拥有强大的数据关联及知识表达能力,因此倍受学术界和工业界的推崇。

图8:图数据库与知识图谱在市场营销、犯罪调查、金融监管、教育生态、公共卫生和能源等领域中的应用场景

如上图所示,我们看到,在实时图数据库(图计算)引擎的帮助下,产业界可以实时地在不同数据间找到深度关联的各种关系,甚至可以找到最优的、人脑都无法企及的智能途径——这就是源于图数据库的高维性。何为高维性?图不仅仅作为一种符合人类大脑思维习惯、能对现实世界进行直观建模的工具,同时能够建立起深刻的洞察(深图遍历)力。诸如大家都知道“蝴蝶效应”,就是在海量的数据和信息的中,去捕捉看似毫无关系的两个以上的实体之间的微妙关系,这从数据处理架构的角度来看,如果没有图数据库(图计算)技术的帮助是极难实现的。【注:对图数据库与图计算到底如何区分的话题,此处不展开,感兴趣的朋友可阅读:来自“图”的挑战是什么?如何区分图数据库与图计算? 一文速解】

图9:过去40年来,数据处理技术的发展趋势是从关系型到大数据再到图数据

风控就是典型的场景之一。2008年的金融危机,其导火索仅仅是美国第四大投行雷曼兄弟倒闭了,但谁也没有料到,一家拥有158年历史的投行的倒闭,会引起国际银行业后续的一系列倒闭风潮……其影响之广、范围之大,让人始料未及;而实时图数据库(图计算)技术,就可以找到关于风险的所有关键的节点、风险因子,风险传播路径……进而对整个金融风险进行提前预警。

图10:雷曼兄弟(Lehman Brothers)破产传播路径以及风险客群图谱

【注:以上构图,均在Ultipa Manager上完成。愿意进一步学习和探索的朋友,可以阅读系列文章之一: 走进 Ultipa Manager之高可视化】

需要指出的是,时下,尽管很多厂家都可以构造知识图谱,但现实是每 100 家图谱公司中,用(高性能)图数据库来做算力支撑的不足 5 家(低于 5%)。Ultipa嬴图数据库是目前全球唯一的第四代实时图数据库,通过高密度并发、动态剪枝、多级存储计算加速等创新性的专利技术实现了对任意量级数据集的超深度实时下钻。【感兴趣的朋友可扩展阅读:为什么选择 Ultipa?以及专家观察 | 高并发图数据库系统如何实现?】

一是,高算力。以查找企业最终受益人(又名实际控制人、大股东)为例。此类问题的挑战在于,现实世界中,最终受益人与被检查公司实体之间,经常相隔许多节点(空壳公司实体),又或者多个自然人或公司实体之间通过多条投资、参股路径对其它公司进行控制。传统的关系型数据库或文档数据库,甚至多数的图数据库,都无法实时解决这类图谱穿透问题。Ultipa嬴图实时图数据库系统解决了以上诸多挑战。其高并发数据结构和高性能计算与存储引擎,相较于其他图系统能以 100 倍甚至更快的速度进行深度挖掘,实时(微秒级以内)找到最终受益人或发现一个庞大的投资关系网络。另一方面,微秒级的时延意味着更高的并发性和系统吞吐量,相比于那些宣称毫秒级延迟的系统,这是 1000 倍的性能提升!以现实场景为例,原中信银行行长孙德顺利用开设多个“影子公司”的方式,借助金融手段来完成利益输送。

图11:孙德顺设计了结构极为复杂的重重“防火墙”,多层影子公司层层嵌套,以规避监管,获取利益

图12:关联:孙德顺——中信银行——企业老板——(空壳公司)投资平台公司——孙德顺

如上图所示,孙德顺利用中信银行的公权力为企业老板批贷款;与此对应,企业老板们或以投资名义或送上优质的投资项目、投资机会等等方式;双方通过各自成立的空壳公司完成直接交易;或者企业老板将巨资注入孙德顺实控的投资平台公司,然后平台公司再用这些资金投到老板提供的项目内,从而以钱生钱,大家共同获利分红,最终形成利益共同体。

Ultipa嬴图实时图数据库系统,通过白盒穿透的方式,挖掘出层层错综的人与人、人与企业、企业与企业之间的复杂关系,并实时锁定最终的幕后人。

二是,灵活性。图谱系统的灵活性可以是个非常广泛的话题,大体包含数据建模、查询与计算逻辑、结果呈现、接口支持、可扩展性等几个部分。

数据建模是所有关系图谱的基础,与图系统(图数据库)的底层能力息息相关。例如,基于ClickHouse 这种列数据库构建的图数据库系统,根本无法承载金融交易图谱,因为交易网络最典型的特征就是两个账户间存在多次转账,但 ClickHouse 倾向于将多次转账合并为一,这种不合理的做法会导致数据混淆(失真)。有些基于单边图理念构建的图数据库系统,则倾向于用顶点(实体)来表达交易,结果是数据量被放大(存储浪费),并且造成图谱查询的复杂度指数级增大(时效性变差)。

接口支持层面则与用户体验相关。举个简单的例子,如果一个生产环境下的图系统仅支持CSV格式,那么所有的数据格式都要先转换为CSV格式才能入图,效率显然太低,然而这在很多图谱系统中却是真实存在的。

查询与计算逻辑的灵活性又如何呢?我们仍以“蝴蝶效应”为例:图谱中任意两个人、事或物之间是否存在某种冥冥中的因果(强关联)效应?如果只是简单的 1 步关联,任何传统的搜索引擎、大数据 NoSQL 框架甚至关系型数据库都可以解决,但如果是深度的关联关系,例如牛顿和成吉思汗之间有什么关联关系,这又该如何计算呢?

Ultipa嬴图实时图数据系统,可以提供不止一种方法来解决以上问题。比如点到点的深度路径搜索、多点间的组网搜索、基于某种模糊搜索条件的模板匹配搜索,还有类似于Web搜索引擎的面向图谱的模糊文本路径搜索。

图13:某大图中实时组网的可视化结果(形成子图)搜索深度≥ 6跳

图谱上还有其它很多必须依赖高灵活性与算力才可以完成的工作,比如依据灵活的过滤条件寻找点、边、路径;模式识别,社区、客群发现;寻找节点的全部或特定邻居(或递归地发现更深的邻居);找到图中具有相似属性的实体或关联关系……总之,没有图算力支撑的知识图谱就像是没有灵魂的躯壳,空有其表。无法完成种种具有挑战性、深度搜索能力的事务。

三是,低代码,所见即所得。图谱系统除了上面提到的高算力与灵活性以外,还需要有白盒化(可解释性)、表单化(低代码、无代码)以及以所见即所得的方式赋能业务的能力。

图14:零代码一键查找,仅需填入搜索范围的数值即可,且2D、3D 、列表、表格甚至是异构数据融合的多种可视模式灵活转化

在Ultipa嬴图实时图数据库系统中,开发人员只需敲1句 Ultipa GQL就可以完成操作,而业务人员则是使用预置的表单化插件通过零代码的方式就可以实现对业务的查询。这种方式,极大地助力员工提高了工作效率,同时赋能机构降低了运营成本,并打通了部门之间的沟通壁垒。

综上所述,知识图谱与图数据库的结合将会帮助各行各业加速实现数据中台的业务建设,但诸如金融行业这种需要专业性、安全性、稳定性、实时性、精准性的行业,采用关系型数据库来支撑上层应用并不能提供良好的数据处理性能,甚至无法完成数据处理任务,因此只有实现具有实时、全面、深度穿透、逐笔追溯、精准计量的监测和预警性能的图数据库(图计算)技术,才可能赋能组织更好地运筹帷幄且决胜千里!

行文至此,突然想起了热播的《三体》,其中提到了一个非常有意思的点——智子锁死。大概意思是说,三体文明为了防止地球科技超过它,就通过锁死人类基础科学的方式进行各种阻碍。因为人类文明的飞跃,取决于基础科学的发展和重大突破,锁死人类的基础科学就等于堵塞住了地球提升文明等级的道路……当然,笔者想告诉大家的是,图技术就属于人工智能的基础设施之一,准确的说是图技术=增强智能+可解释 AI,它是 AI 与大数据发展过程中融合的必然产物。

图15:图数据库(图计算)技术,属于人工智能基础设施

[1] 图数据https://www.ultipa.cn/document/ultipa-graph-query-language/basic-concepts/v4.0库;

[2] 什么是点; https://www.ultipa.cn/document/ultipa-graph-query-language/basic-concepts/v4.0

[3] 什么是边:https://www.ultipa.cn/document/ultipa-graph-query-language/basic-concepts/v4.0

{4]《图数据库原理、架构与应用》; 孙宇熙,嬴图团队;2022-8;机械工业出版社.

《图数据库原理、架构与应用》是国内第一本全面系统地详解有关图数据库、图计算技术的专著。全书围绕8大维度以帮助技术爱好者、从业者及高校师生快速实现对图数据库技术的入门、认知与实践指导。

·专家观察 | 高并发图数据库系统是如何实现的?

·图数据库知识点 | 图数据库与关系型数据库的区别

·专家观察 | 图计算引发银行流动性风险管理变

·文库 | 为什么选择 Ultipa?

·嬴图系列之一:走进 Ultipa Manager之高可视化

·CNBC专访 | Ultipa Graph,构建全球主流图数据库市场的底层系统


关于嬴图数据库(Ultipa Graph)

嬴图实时图数据库是第四代图数据库产品。通过一系列技术创新实现了对动态、海量数据的深下钻、科学计量、多维度归因分析。数据加载、更新、查询、分析、聚合、计算等维度,通过构建应用产品,深度赋能客户。相比与传统的关系型数据库或数仓、数湖产品,嬴图数据库在数据建模的灵活性、计算时效性、充分满足业务需求等多个维度。更多关于嬴图数据库的探索,请关注www.ultipa.cn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/378303.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nacos的安装指南

1.Windows安装开发阶段采用单机安装即可。1.1.下载安装包在Nacos的GitHub页面,提供有下载链接,可以下载编译好的Nacos服务端或者源代码:GitHub主页:https://github.com/alibaba/nacosGitHub的Release下载页:https://gi…

JAVA线程池原理详解一

JAVA线程池原理详解一 一. 线程池的优点 线程是稀缺资源,使用线程池可以减少创建和销毁线程的次数,每个工作线程都可以重复使用。可以根据系统的承受能力,调整线程池中工作线程的数量,防止因为消耗过多内存导致服务器崩溃。 二…

Mysql索引优化解决方案

一、索引介绍 1、什么是索引 索引就是帮助mysql高效获取数据的数据结构 mysql 除了存储数据,还有数据结构,我们可以通过数据结构的查找算法快速找到数据,这种数据结构就是索引。类似于 字典中的目录,帮助我们快速查找数据。 2、…

Netty核心组件EventLoop源码解析

源码解析目标 分析最核心组件EventLoop在Netty运行过程中所参与的事情,以及具体实现 源码解析 依然用netty包example下Echo目录下的案例代码,单我们写一个NettyServer时候,第一句话就是 EventLoopGroup bossGroup new NioEventLoopGroup(…

html2canvas将页面dom元素内容渲染成图片保存至本地

html2canvas:https://html2canvas.hertzen.com/configuration/ github:https://github.com/niklasvh/html2canvas 效果 代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compa…

VR直播丨颠覆性技术革命,新型直播已经到来

细数当下最火热的营销手段&#xff0c;首先浮现脑海的无疑是“直播”。前有罗永浩、李佳琦&#xff0c;后有刘畊宏和东方甄选&#xff0c;直播如日中天&#xff0c;俨然成了大众足不出户就能休闲娱乐的重要途径。 而随着虚拟现实在“十四五规划”中被列入“建设数字中国”数字…

一文了解GPU并行计算CUDA

了解GPU并行计算CUDA一、CUDA和GPU简介二、GPU工作原理与结构2.1、基础GPU架构2.2、GPU编程模型2.3、软件和硬件的对应关系三、GPU应用领域四、GPUCPU异构计算五、MPI与CUDA的区别一、CUDA和GPU简介 CUDA&#xff08;Compute Unified Device Architecture&#xff09;&#xf…

Java 常用 API

文章目录一、Math二、System三、Object1. toString() 方法2. equals() 方法四、Arrays1. 冒泡排序2. Arrays 常用方法五、基本类型包装类1. Integer2. int 和 String 相互转换3. 字符串中数据排序4. 自动装箱和拆箱六、日期类1. Date2. SimpleDateFormat3. Calendar4. 二月天一…

(四十七)大白话表锁和行锁互相之间的关系以及互斥规则是什么呢?

今天我们接着讲&#xff0c;MySQL里是如何加表锁的。这个MySQL的表锁&#xff0c;其实是极为鸡肋的一个东西&#xff0c;几乎一般很少会用到&#xff0c;表锁分为两种&#xff0c;一种就是表锁&#xff0c;一种是表级的意向锁&#xff0c;我们分别来看看。 首先说表锁&#xf…

如何使用Arsenal快速部署功能强大的Bug Bounty工具

关于Arsenal Arsenal是一个功能强大且使用简单的Shell脚本&#xff08;Bash&#xff09;&#xff0c;该工具专为漏洞赏金猎人设计&#xff0c;在该工具的帮助下&#xff0c;我们可以轻松在自己环境中安装并部署目前社区中功能最为强大的网络侦查工具、漏洞扫描工具和其他安全研…

企业活动直播如何设置VIP观看席?

阿酷tony / 2023-2-28 / 长沙 / 多图内容企业活动直播如何设置VIP观看席&#xff1f;有意思吧&#xff0c;直播也能设vip席位。在直播间可以分设尊享嘉宾席、特邀VIP以及观众席三个区域&#xff0c;为企业提供多种用户接待模式&#xff0c;不仅能为嘉宾营造尊享VIP体验&#xf…

Git学习(1)pro git阅读

目录 目录&#xff1a; 1. 起步 2. Git 基础 3. Git 分支 4. 服务器上的 Git 5. 分布式 Git 第一章 1.3 Git是什么 1.6运行git前的配置 该开源图书网站 Git - Book (git-scm.com) 目录&#xff1a; 1. 起步 1.1 关于版本控制1.2 Git 简史1.3 Git 是什么&#xff1f;1…

Fedora系统安装KubeVela

话不多说直接看命令 Docker安装 Vela安装需要先安装Docker sudo yum -y install docker只需这行命令便可以自动添加 yum和dnf理论上都能成功&#xff0c;但是很看网速&#xff0c;&#xff0c;&#xff0c;实践证明yum是最好的。 如果发生报错mirrors trieds大概率就是网速超…

[oeasy]python0096_游戏娱乐行业_雅达利_米洛华_四人赛马_影视结合游戏

游戏娱乐行业 回忆上次内容 游戏机行业从无到有 雅达利 公司 一枝独秀并且带领 行业 发展起来 雅达利公司 优秀员工 乔布斯 在 朋友 帮助下完成了《pong》 Jobs 黑了 Woz 一部分收入 然后拿着钱 去印度禅修了 游戏行业 会如何继续 呢&#xff1f;?&#x1f914; 灵修 乔布…

常见损失函数Loss Function的选择(regression problem)

损失函数Loss Function的设计是机器学习模型的核心问题&#xff0c;一般情况下函数式子会分成两项&#xff1a;衡量预估值和目标间的差距、正则项式。其中正则项式子一般用于衡量模型的复杂度&#xff0c;可以避免模型过拟合&#xff08;奥卡姆剃刀原理&#xff09;。 另一部分…

【Node.js】MySQL数据库的第三方模块(mysql)

mysql安装操作MySQL数据库的第三方模块&#xff08;mysql&#xff09;通过第三方模块&#xff08;mysql2&#xff09;连接到MySQL数据库mysql插入数据mysql插入数据的便捷方式mysql更新数据mysql更新数据的便捷方式mysql删除数据安装操作MySQL数据库的第三方模块&#xff08;my…

Direct IO

目录 一、基本介绍 二、使用方法与Demo 三、O_DIRECT 与 O_SYNC 一、基本介绍 如上图所示&#xff0c;普通的 IO 读写&#xff0c;会先将内容保存在缓冲区中&#xff0c;文件落盘需要调用 fflush 、fsync 等方法。 而 DirectIO 是无缓冲 IO&#xff0c;&#xff0c;使用无缓…

>>数据管理:DAMA简介「考试和续期」

关于DAMA,这里就不再多做描述,可以参考以前写的一些简介或官方介绍。下面就考试再做一些详细介绍。 1 区别 CDGA:数据治理工程师(Certified Data Governance Associate),“DAMA中国”组织的数据治理方面的职业认证考试。 CDGP:数据治理专家(Certified Data Governa…

数学小课堂:无穷小(用动态和极限的眼光看世界)

文章目录 引言I 极限1.1 柯西对极限的认知1.2 极限准确的定义1.3 数列极限的定义1.4 函数极限的定义1.5 无穷小(特殊的极限)1.6 定量和逆向思维1.7 认知升级的过程引言 身处于渐变世界的人类,难以理解瞬间突变。 老师的作用,就是用大白话,把数学语言所写的知识,翻译成大…

基于ANN以使用有监督和无监督的学习将其分为不同的类别或识别模式(Matlab代码实现)

目录 &#x1f4a5;1 概述 &#x1f4da;2 运行结果 &#x1f389;3 参考文献 &#x1f468;‍&#x1f4bb;4 Matlab代码 &#x1f4a5;1 概述 人工神经网络&#xff08;ANN&#xff09;在包括技术或统计在内的每一个分支中都变得越来越有用&#xff0c;以分析一些社会或非…