七个很酷的GenAI LLM技术性面试问题

news2025/1/6 20:12:39

不同于互联网上随处可见的传统问题库,这些问题需要跳出常规思维。

大语言模型(LLM)在数据科学、生成式人工智能(GenAI)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升,成为企业保持竞争力的关键。

然而,尽管GenAI和LLM越来越常见,但我们依然缺少能深入理解其复杂性的详细资源。职场新人在进行GenAI和LLM功能以及实际应用的面试时,往往会觉得自己像是陷入了未知领域。

为此,我们编写了这份指导手册,收录了7个有关GenAI & LLM的技术性面试问题。这份指南配有深入的答案,旨在帮助您更好地迎接面试,以充足的信心来应对挑战,以及更深层次地理解GenAI & LLM在塑造人工智能和数据科学未来方面的影响和潜力。

1. 如何在Python中使用嵌入式字典构建知识图谱?

一种方法是使用哈希(Python中的字典,也称为键-值表),其中键(key)是单词、令牌、概念或类别,例如“数学”(mathematics)。每个键(key)对应一个值(value),这个值本身就是一个哈希:嵌套哈希(nested hash)。嵌套哈希中的键也是一个与父哈希中的父键相关的单词,例如“微积分”(calculus)之类的单词。该值是一个权重:“微积分”的值高,因为“微积分”和“数学”是相关的,并且经常出现在一起;相反地,“餐馆”(restaurants)的值低,因为“餐馆”和“数学”很少出现在一起。

在LLM中,嵌套哈希可能是embedding(一种将高维数据映射到低维空间的方法,通常用于将离散的、非连续的数据转换为连续的向量表示,以便于计算机进行处理)。由于嵌套哈希没有固定数量的元素,因此它处理离散图谱的效果远远好于矢量数据库或矩阵。它带来了更快的算法,且只需要很少的内存。

2. 当数据包含1亿个关键字时,如何进行分层聚类?

如果想要聚类关键字,那么对于每一对关键字{A, B},你可以计算A和B之间的相似度,获悉这两个词有多相似。目标是生成相似关键字的集群。

Sklearn等标准Python库提供凝聚聚类(agglomerative clustering),也称为分层聚类(hierarchical clustering)。然而,在这个例子中,它们通常需要一个1亿x 1亿的距离矩阵。这显然行不通。在实践中,随机单词A和B很少同时出现,因此距离矩阵是非常离散的。解决方案包括使用适合离散图谱的方法,例如使用问题1中讨论的嵌套哈希。其中一种方法是基于检测底层图中的连接组件的聚类。

3. 如何抓取像Wikipedia这样的大型存储库,以检索底层结构,而不仅仅是单独的条目?

这些存储库都将结构化元素嵌入到网页中,使内容比乍一看更加结构化。有些结构元素是肉眼看不见的,比如元数据。有些是可见的,并且也出现在抓取的数据中,例如索引、相关项、面包屑或分类。您可以单独检索这些元素,以构建良好的知识图谱或分类法。但是您可能需要从头开始编写自己的爬虫程序,而不是依赖Beautiful Soup之类的工具。富含结构信息的LLM(如xLLM)提供了更好的结果。此外,如果您的存储库确实缺乏任何结构,您可以使用从外部源检索的结构来扩展您的抓取数据。这一过程称为“结构增强”(structure augmentation)。

4. 如何用上下文令牌增强LLM embeddings?

Embeddings由令牌组成;这些是您可以在任何文档中找到的最小的文本元素。你不一定要有两个令牌,比如“数据”和“科学”,你可以有四个令牌:“数据^科学”、“数据”、“科学”和“数据~科学”。最后一个表示发现了“数据科学”这个词。第一个意思是“数据”和“科学”都被发现了,但是在一个给定段落的随机位置,而不是在相邻的位置。这样的令牌称为多令牌(multi-tokens)或上下文令牌。它们提供了一些很好的冗余,但如果不小心,您可能会得到巨大的embeddings。解决方案包括清除无用的令牌(保留最长的一个)和使用可变大小的embeddings。上下文内容可以帮助减少LLM幻觉。

5. 如何实现自校正(self-tuning)以消除与模型评估和训练相关的许多问题?

这适用于基于可解释人工智能的系统,而不是神经网络黑匣子。允许应用程序的用户选择超参数并标记他喜欢的那些。使用该信息查找理想的超参数并将其设置为默认值。这是基于用户输入的自动强化学习。它还允许用户根据期望的结果选择他最喜欢的套装,使您的应用程序可定制。在LLM中,允许用户选择特定的子LLM(例如基于搜索类型或类别),可以进一步提高性能。为输出结果中的每个项目添加相关性评分,也有助于微调您的系统。

6. 如何将矢量搜索的速度提高几个数量级?

在LLM中,使用可变长度(variable-length)embeddings极大地减少了embeddings的大小。因此,它可以加速搜索,以查找与前端提示符中捕获到的相似的后端embeddings。但是,它可能需要不同类型的数据库,例如键-值表(key-value tables)。减少令牌的大小和embeddings表是另一个解决方案:在一个万亿令牌系统中,95%的令牌永远不会被提取来回答提示。它们只是噪音,因此可以摆脱它们。使用上下文令牌(参见问题4)是另一种以更紧凑的方式存储信息的方法。最后,在压缩embeddings上使用近似最近邻搜索(approximate nearest neighbor,ANN)来进行搜索。概率版本(pANN)可以运行得快得多,见下图。最后,使用缓存机制来存储访问最频繁的embeddings 或查询,以获得更好的实时性能。

概率近似最近邻搜索(pANN)

根据经验来看,将训练集的大小减少50%会得到更好的结果,过度拟合效果也会大打折扣。在LLM中,选择几个好的输入源比搜索整个互联网要好。对于每个顶级类别都有一个专门的LLM,而不是一刀切,这进一步减少了embeddings的数量:每个提示针对特定的子LLM,而非整个数据库。

7. 从你的模型中获得最佳结果的理想损失函数是什么?

最好的解决方案是使用模型评估指标作为损失函数。之所以很少这样做,是因为您需要一个损失函数,它可以在神经网络中每次神经元被激活时非常快地更新。在神经网络环境下,另一种解决方案是在每个epoch之后计算评估指标,并保持在具有最佳评估分数的epoch生成解决方案上,而不是在具有最小损失的epoch生成解决方案上。

我目前正在研究一个系统,其中的评价指标和损失函数是相同的。不是基于神经网络的。最初,我的评估指标是多元Kolmogorov-Smirnov距离(KS)。但如果没有大量的计算,在大数据上对KS进行原子更新(atomic update)是极其困难的。这使得KS不适合作为损失函数,因为你需要数十亿次原子更新。但是通过将累积分布函数(cumulative distribution)改变为具有数百万个bins参数的概率密度函数(probability density function),我能够想出一个很好的评估指标,它也可以作为损失函数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1693172.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

阿里云产品DTU评测报告(一)

阿里云产品DTU评测报告(一) 名词解释物联网平台控制台产品设备 DTU设备模拟器 体验评价针对业务场景,您觉得该产品还有哪些可改进的地方?什么场景下使用该产品产品的优势是什么个人建议 在正式进行DTU测评之前,说一点题…

【LeetCode】【2】两数相加(1411字)

文章目录 [toc]题目描述样例输入输出与解释样例1样例2样例3 提示Python实现模拟 个人主页:丷从心 系列专栏:LeetCode 刷题指南:LeetCode刷题指南 题目描述 给两个非空的链表,表示两个非负的整数,它们每位数字都是按…

SpringBoot + Redis实现对接口的限流

目录 前言 什么是限流? 实现限流 创建一个注解类 接着创建一个切面类 前言 在项目中,对于接口的限流,是任何项目都必不可少的一部分,主要是为了防止用户频繁的发送请求,对服务器造成压力。 另外一点就是防止外来攻…

齐护K210系列教程(三十)_多任务切换

多任务切换 1,任务1的设定2,任务2的设定3,主程序4, 课程资源联系我们 在开发项目时,我们常会用到AIstart的多个任务来切换应用,比如当我识别到某种卡片时,要切换到别的任务,这样就要…

ClickHouse vs. Elasticsearch: 计数聚合的工作原理

本文字数:7875;估计阅读时间:20 分钟 审校:庄晓东(魏庄) 介绍 在另一篇博客文章中,我们对 ClickHouse 和 Elasticsearch 在大规模数据分析和可观测性用例中的性能进行了比较,特别是对…

【Linux】LAMP集群分布式安全方案

LAMP集群分布式安全方案主要涉及确保Linux、Apache、MySQL和PHP(LAMP)组合构成的集群环境的安全性和稳定性。 本次实验通过网络层安全对防火墙配置:使用防火墙(如iptables或firewalld)来限制对集群的访问,只…

CSDN 访问量增加脚本

在脚本猴中新建脚本并使用: // ==UserScript== // @name CSDN Blog Visitor // @namespace http://tampermonkey.net/ // @version 2024-05-25 // @description Automated visits to CSDN blog pages to simulate user interaction. // @author FontTi…

力扣--字符串58.最后一个单词的长度

思路分析 初始化变量: num 用于记录当前单词的长度。before 用于记录上一个单词的长度。 遍历字符串: 如果字符不是空格,增加 num 计数。如果字符是空格,检查 num 是否为 0: 如果 num 为 0,说明之前没有记录到单词,所以…

无人机支持下的自然灾害风险评估技术应用

张老师(副教授),长期从事无人机遥感技术与应用,主持多项国家级科研项目,编写著作2部,第一作者发表科研论文20余篇。对无人机遥感的多平台、多传感应用现状以及涉及的核心技术具有很深的理解,精通…

Spring 模拟管理Web应用程序

MVC:Model View Controller 1)controller:控制层(Servlet是运行服务器端,处理请求响应java语言编写技术) 2)service:业务层(事务,异常) 3&#xf…

linux系统防火墙开放端口命令

目录 linux相关命令参考文章1.开放端口1.1 开发单个端口1.2 一次性开放多个端口 2.保存设置3.查看所有开放的端口4.查看防火墙状态 linux相关命令参考文章 管理、设置防火墙规则(firewalld): https://download.csdn.net/blog/column/8489557/137911049 i…

如何参与github开源项目并提交PR

👽System.out.println(“👋🏼嗨,大家好,我是代码不会敲的小符,目前工作于上海某电商服务公司…”); 📚System.out.println(“🎈如果文章中有错误的地方,恳请大家指正&…

编程式路由导航

之前的导航区都是使用<RouterLink>实现路由跳转的 但是很多时候我们希望不需要用户点击就能实现页面跳转&#xff0c;比如首页待三秒自动跳转到新闻页等&#xff0c;有时候需要点击按钮执行函数然后实现跳转&#xff0c;这时候函数是在脚本中&#xff0c;不在结构中&…

2.Redis之Redis的背景知识

Redis 是一个在内存中存储数据的中间件 用于作为数据库,用于作为数据缓存. 在分布式系统中能够大展拳脚~ 1.Redis的特性介绍(优点) 1.1 在内存中存储数据 MySQL 主要是通过"表"的方式来存储组织数据的,"关系型数据库" Redis 主要是通过“键值对" 的…

SpringMVC流程

1、SpringMVC常用组件&#xff1a; DispatcherServlet&#xff08;请求分发器&#xff09;&#xff1a;Spring MVC的核心组件之一&#xff0c;负责处理全局配置和将用户请求分发给其他组件进行处理。Controller&#xff08;处理器&#xff09;&#xff1a; 实际处理业务逻辑的…

链接物化视图在 ClickHouse 中的应用

本文字数&#xff1a;7728&#xff1b;估计阅读时间&#xff1a;20 分钟 作者&#xff1a;Mark Needham 审校&#xff1a;庄晓东&#xff08;魏庄&#xff09; 本文在公众号【ClickHouseInc】首发 在 ClickHouse 中&#xff0c;物化视图【https://clickhouse.com/docs/en/guide…

uni-app App端实现文字语音播报(Ba-TTS)

前言 最近在遇到消息提示语音播放出来&#xff0c;查了一圈文档发现并没有自带api 后面想起支付宝收钱播报&#xff0c;不受限与系统环境和版本环境&#xff08;后面查阅他是音频实现的&#xff09; 如果是由安卓端需要语音播放功能-直接使用Ba-TTs救急&#xff08;需要付费2…

tcpdump源码分析

进入tcpdump.c&#xff08;函数入口&#xff09;之前&#xff0c;先看一些头文件netdissect.h里定义了一个数据结构struct netdissect_options来描述tcdpump支持的所有参数动作&#xff0c;每一个参数有对应的flag, 在tcpdump 的main 里面&#xff0c; 会根据用户的传入的参数来…

SK6812-RGBW是一个集控制电路与发光电路于一体的智能外控LED光源

产品概述: SK6812-RGBW是一个集控制电路与发光电路于一体的智能外控LED光源。其外型与一个5050LED灯珠相同&#xff0c;每个元件即为一个像素点。像素点内部包含了智能数字接口数据锁存信号整形放大驱动电路&#xff0c;电源稳压电路&#xff0c;内置恒流电路&#xff0…

最新ChatGpt Desktop for Mac 安装使用教程

1. 下载地址 请点击链接下载 ChatGPT Desktop for MacOS 2. 使用要求 MacOS 版本 14需要时M1芯片的&#xff0c;如果你是因特尔的暂时还还不行 就算下载了也会出现下面的异常 3. 获取权限资格 目前 ChatGPT MacOS Desktop还不是全量开放的, 如果你没有收到通知说明你还没…