搜索是过拟合的生成;生成是欠拟合的搜索

news2025/1/24 2:22:55

9b4a5eaadd347c82196eef47644992a2.png

神经搜索的最大竞争者可能来自于一种甚至不需要向量嵌入作为中间表示的技术 —— 一种直接返回你想要的结果的端到端技术。

"那么,谁将是神经搜索最大的竞争对手?"

 本文作者:肖涵,Jina AI 创始人兼 CEO 

谁将是神经搜索最大的竞争对手?

就在 2019 年的圣诞节前几天,我坐在一个狭小的会议室里,周围是我们种子风投公司的投资委员会。我们已经在办公室待了几个小时,来回地讨论。这是最后一轮令人紧张的路演,以确保我的神经搜索倡议获得所需的 200 万美元的孵化资金:Jina AI 的诞生就悬在一线,这是一个成败攸关的时刻。

其中一位从 2005 年就在纽约谷歌工作的合伙人问了我一个我永远不会忘记的问题:

"谁将是您最大的竞争者?"

“谷歌,Elastic,Algolia,……” 我自信地回答道,这是我早前准备过的问题。然后我咬紧牙关,只是等着他们问我那些无聊的陈词滥调的问题,比如“你怎么与谷歌竞争?”在他们回答之前,我补充说:“但更严峻的竞争可能来自一项不需要嵌入作为中间表示的技术 —— 一项端到端技术,它能直接返回您想要的结果。”

但他们没有听懂我的意思,他们坚持着那些老套问题。一直在追问我如何与谷歌竞争。

3 年过去,时间和“常识”都已经发生改变,他们理解了我所说的技术。

这项技术就是 生成式人工智能而 神经搜索是判别式人工智能

在那时,也就是在谷歌发布 BERT 的 15 个月后,生成式人工智能还不是可扩展且高质量搜索的答案。而神经搜索是一个灵活的框架,它可以轻松地使用密集的嵌入表示,并结合多个子任务,是当时搜索多模态数据的唯一现实的方法。

多模态人工智能异军突起

自 2021 年以来,我们在行业中看到了从单模态人工智能到多模态人工智能的巨大范式变革:

633f0ebe6a216efdae384f9c42ec4334.png

Jina AI愿景中的未来AI应用

多模态人工智能的兴起归功于近几年机器学习技术的进步:表征学习和迁移学习。

  • • 表征学习使模型为所有模态创建共同的表征。

  • • 迁移学习使模型首先学习基本知识,然后在特定领域进行微调来改进学习。

2021 年,我们看到了 CLIP,一种捕获图像和文本之间对齐关系的模型;2022 年,DALL·E 2 和 Imgen 通过文本提示生成了高质量的图像。由 Stable Diffusion 领导的 AI 生成艺术从一个社区嘉年华开始,现在已经演变成一场工业革命。这是一座刚刚探出头的巨大冰山。在未来,我们将看到更多 AI 应用超越单一数据模态,利用不同模态之间的关系。临时方法正在像恐龙一样消失,因为数据模态之间的界限变得模糊无意义。

但是,在开始想象花哨的高级人工智能应用之前,有两个基本问题我们必须先解决:搜索和生成。

或者我应该说,搜索,还是生成?

搜索和生成的二元性

搜索和生成是一枚硬币的两面,是一种二元性。

为了理解这一点,让我们以 text-to-image 和 image-to-image 为例,看看以下两个函数:

def foo(query: str) -> List[Image]:
  ...

def bar(query: Image) -> List[Image]:
  ...

那么,foo 和 bar 是什么?

  • • 当它们是搜索时, foo 表示以文搜图(CBIR),bar表示以图搜图。

  • • 当它们是生成时, foo 表示从文本提示 Prompt 到 AI 生成图像,bar 指的是从初始图片到 AI 生成图像。

那么,你能分辨下面的区别吗?搜索结果是哪个,AI 生成的结果是哪个?以及这真的重要吗?搜索是找到你需要的东西;AI 生成是制作你需要的东西。如果一个系统返回了你需要的结果,它是来自搜索还是 AI 生成,这真的重要呢?

930ee200cd8dfff401a6a9aa538c400a.png

"嗯,但是数据库的完整性确实很重要," 你可能会反驳。"因为我不想在我的商品搜索结果中看到虚构的商品图像。" 有时人们确实关心数据库的准确性,但解决它很容易,我们只需要过拟合一个生成式人工智能模型。我们可以让模型记住它在训练数据中看到的所有内容,失去所有普遍性和泛化能力。它只会返回训练数据中的内容。你看,这样你就拥有了一个可靠的搜索系统。

生成式人工智能会使这种压抑性限制得到缓解。让模型即兴创作,让我们拥抱随机性,让感觉胜过保真性。生成式 AI 只是一个欠拟合的搜索系统。

50f67270fdb00fd94f305f8981a46548.gif

硬币不断旋转着,它最终会落在哪边?它还重要吗?

总结

随着越来越多的大型语言模型(LLM)和生成人工智能的兴起,使用 LLM,特别是预训练的语言模型(PTLM),已经成为一种流行的机制,可以根据需要从自由形式文本中提取知识。尽管语料库中存在报告偏差问题,并且对查询缺乏鲁棒性,但 LLM 在一些相当成功的下游任务,比如基于人格的对话、叙事故事生成和隐喻生成。COLING 2022 最近也有一项工作,探索了像 CLIP 这样的跨模态模型作为常识知识库。你可以在这里找到我关于这篇论文的笔记。https://jina.ai/news/coling2022/

e0c85a284463f9a3158704c9143f8800.png

Are Visual-Linguistic Models Commonsense Knowledge Bases?

在写这篇文章的前一天,我读到 Yann LeCun 的推文,讲述了 Galactica —— 一个具有搜索界面的生成式人工智能:

b5f3f01c4c083bf95ac99341a362f63d.png

从快速测试的效果来看,它在模仿学术语气方面做得不错,但很快就偏离了主题,并且领域知识有限。 尽管如此,这对于生成人工智能来说仍是一个里程碑。

我们抛出硬币,看着它在空中翻滚,一端接着一端翻转。我们的目光从未从它的轨迹上移开。当它到达弧线的顶点时,我们都知道结果不再重要。

拓展资料

💻 GitHub: get.jina.ai

📖 文档docs.jina.ai

🔗 原文链https://jina.ai/news/search-is-overfitted-create-create-is-underfitted-search/

更多技术文章

📖 Jina AI创始人肖涵博士解读多模态AI的范式变革

🎨 语音生成图像任务|🚀 模型微调神器Finetuner

💨 DocArray + Redis:快到飞起来的推荐系统

😎 Jina AI正式将DocArray捐赠给Linux基金会

78319324c54b9d1e6ad3ea6db12a1248.png

点击“阅读原文”,即刻了解 Jina

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/74008.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis框架(二):SpringDataRedis入门和序列化方式解决内存占用问题

SpringDataRedis入门和序列化方式解决内存占用问题基本介绍实例Demo自定义RedisTemplate序列化自定义的RestTemplate的内存占用问题StringRedisTemplate解决内存占用问题总结SpringCloud章节复习已经过去,新的章节Redis开始了,这个章节中将会回顾Redis 主…

c#入门-可选参数,不定长参数

可选参数 声明可选参数 函数的参数在声明时,可以同时为其赋值一个常量。 但是所有这样的参数,需要在所有必填参数的后面。 void Any(int i 10) {Console.WriteLine(i); }使用可选参数 稍后,在调用函数时,你可以不填可选参数。…

1 - 线程池的基础用法

参考:线程池的基本用法 - 简书 1、为什么要用线程池? 在java中,开启线程的方式一般分为以下三种: a. 继承Thread,实现其run方法; b. 实现Runnabler接口,通过Thread来实现线程; …

法的概念与大纲

一、法的概念 法是由国家制定或认可并由国家强制力保证实施的,反映特定物质生活条件所决定的统治阶级意志,以权利和义务为内容,以确认、保护和发展对统治阶级有利的社会关系和社会秩序为目的的规范系统。 二、法的特征 规范性 国家意志性 权…

微信恢复大师花了200多,套路一环接一环!

数据恢复本是一个科技进步的体现,让误操作导致的重要数据可以找回来。但是近年来数据恢复跟诈骗挂钩,数据恢复本是利好的事情,为什么会跟诈骗挂钩。究竟是什么原因呢?最近小编发现,百度推荐词出现:“微信恢…

Neural Network-神经网络算法本质

1. Word2vec~single CBOW算法推导BP word2vec主要实现方式有:skip-gram和CBOW。 CBOW的目的是根据上下文contextual words来预测当前中心词的概率,且上下文所有单词对当前中心词出现的概率影响权重是一样的,如在袋子中取词,取出…

痞子衡嵌入式:国内外串行NOR Flash厂商官网Cross Reference功能使用体验

大家好,我是痞子衡,是正经搞技术的痞子。今天痞子衡给大家讲的是国内外串行NOR Flash厂商官网Cross Reference功能。 串行 NOR Flash 是一个相对发展稳定的市场,目前全球市场约 90% 的份额被中国的三家厂商(Winbond华邦/MXIC旺宏/GigaDevice兆…

Java入门教程(26)——继承

文章目录1.继承的作用2.继承的关键字3.继承的特点4.实例5.instanceof 运算符继承是面向对象三大特征之一,继承可以让我们减少代码量,实现类的复用1.继承的作用 代码复用,更加容易实现类的扩展方便建模 2.继承的关键字 extends,…

网站都变灰了,几行代码可以实现

前言 这两天,我们经常逛的好多网站、app首页都变灰了,原因大家应该都知道了 网站变灰 ①B站 ②爱奇艺 ③ 腾讯视频 ④ csdn ⑤百度 怎么实现的呢? 难道这些网站开发商在网站开发的时候都准备一套灰色主题的UI么? 好奇心…

端水or信仰?ChatGPT“点评”Web3未来

近日,OpenAI发布了人工智能聊天机器人模型 ChatGPT,产品自11月30日发布到现在仅一周时间,就积累了上百万用户,广受大家好评。有人让它写代码,有人拿高考题目考验它,这些“难题”似乎都难不倒它,…

vue3 教程(上)

学 vue3 通过官方文档更详细,不过阅读本博客,可以更容易理解,且帮你速成! 官方文档(记得将API风格偏好切换为 组合式 否则你学的是vue2) https://cn.vuejs.org/guide/introduction.html 学习前的准备 创建…

[synchronized ]关键字详解

目录 1.synchronized 特性 1.1互斥性 1.2内存刷新 1.3可重入 2.Java 标准库中的线程安全类 3.死锁问题 3.1 一个线程,一把锁 3.2 两个线程,两把锁 3.3 多个线程,多把锁 4.死锁的条件 1.synchronized 特性 1.1互斥性 synchronized 关键字会起到互斥效果,当某个线程执…

【C语言】字符串函数(一)

目录 一、strlen函数(计算字符串长度) 1、strlen函数的用途 2、strlen函数的使用 3、strlen函数的模拟实现 二、strcpy函数(字符串拷贝) 1、strcpy函数的用途 2、strcpy函数的使用 3、strcpy函数的模拟实现 三、strcat函数(字符串追加) 1、strcat函数的用途 2、strcat函数的使用…

【JavaSE】接口剩余内容

目录 1、接口使用实例 📕逐步分析学生数组排序的写法 ✨思路: ✨代码实现 ✨弊端 📕、改进 改进思路: 代码实现: 2、Cloneable接口和深拷贝 2.1、cloneable接口的作用 2.2、深拷贝和浅拷贝 2.2.1、浅拷贝 …

yum安装openldap2.4.44,并配置增量复制(Delta-syncrepl)环境

本文是在centos7环境下通过yum安装openldap2.4.44,并配置增量复制(Delta-syncrepl)环境 官网对于增量复制介绍:https://www.openldap.org/doc/admin24/replication.html#Delta-syncrepl%20replication Delta-syncrepl 是 syncrep…

ADI Blackfin DSP处理器-BF533的开发详解3:GPIO(含源代码)

我们从最基础的GPIO开始,先讲外设,这玩意不管是单片机,还是ARM,又或是FPGA,甚至SOC的芯片,都有GPIO,有共性,就好理解,让我们看看在ADI的DSP里头,GPIO是怎么一…

MySQL数据库学习(2)

一.MySQL语法书写规范: (1).SQL语句要以分号;结尾 在 RDBMS(关系型数据库)当中,SQL语句是逐条执行的,一条 SQL语句代表着数据库的一个操作。SQL语句是使用英文分号;结尾。 (2).SQL语句不区分大小写 SQL不区分关键字的大小写。例如&#xff0c…

CentOS7下mysql主从复制搭建

mysql安装 CentOS7安装MySql5.7完整教程_长头发的程序猿的博客-CSDN博客_centos7 mysql5.7安装 1、配置主机 1.1、修改my.cnf配置文件 vim /etc/my.cnf 最后一行添加: #主服务器唯一ID server-id1 #启用二进制日志 log-binmysql-bin #设置不要复制的数据库(可…

C++之虚函数

都说面向对象的三大特性是封装、继承、多态。C作为一门面向对象编程语言,肯定也是具备了面向对象的三大特性,那么在C中是如何实现多态的呢? 在C中是通过虚函数动态绑定的方式实现多态的。 虚函数与纯虚函数 首先我们来回顾一下虚函数&…

DAX:GROUPBY函数

DAX 中的 SUMMARIZE 函数功能强大,但同时也很难使用。 它可用于执行表之间的分组和连接,正如我们之前在分组数据一文中描述的那样。 不幸的是,它在计算聚合值时存在一些众所周知的性能问题。除了性能之外,SUMMARIZE 的计算限制是它…