搜索团队的技术小结

news2024/11/25 12:41:19

搜索业务形态

          CSDN作为开发者内容中心,主要通过分发博客和商业产品(下载资源)满足用户碎片化学习需求;产品形态上通过以下3种方式来承接用户需求
          1.  站内搜索框             

          2. 博客相关推荐               

           3. 下载相关推荐                  

         3种产品形态通过站内流量或者外部搜索引擎流量触达;因此本质都是解决用户query的需求。基于此相关推荐产品定位首要是搜索场景的延伸,持续解决当前博客没有解决的问题。

主要挑战

     用户体验维度, 全网搜索面临的技术维度调整在CSDN搜索都会遇到,从qu、文本/语义召回、时效性排序、权威性排序、阿拉丁异构混排等等都是CSDN搜索需要解决的;同时CSDN的搜索词更长尾词,且中英文混杂,

     商业收入维度, 历史对外部SEO导流CSDN站内搜推的依赖较强,而从去年开始国内主流网页搜索对CSDN商业产品的做打压,导致其曝光巨幅下滑以及对应收入下滑。

     同时AIGC大行其道今日,传统的分发在满足用户需求维度已经落后生成式答案,3月份研发团队对各家大模型在代码生成以及troubleshooting能力维度做了评估, 站内的需求 chatgpt的满足度基本接近满分。

整体规划

         长期以来,搜索系统一直在持续改进,基于人工标注(GSB)驱动从 “智正简优”4个维度迭代优化搜索体验。搜索系统一直在致力于给用户交付的一种 优质&权威&时鲜的 答案,尽可能快速满足用户需求,让用户快速离开搜索。

         目前主流搜索引擎而言, 对于模糊需求 通过智能聚合满足多样性需求, 

          

 

        精准需求 通过首条问答 “找出答案”:

          搜索系统一直都是nlp和rank的“重镇”,典型的算法架构如下图:

      整体上CSDN搜索系统也会遵循这套架构迭代,同时需要结合实际做适当取舍。核心投入方向:

            query理解: 分词 (以及开发者领域的词典建设)、意图识别 以及乏时效性识别

            内容理解: 内容标签 、 质量分 以及 领域权威 

            上层排序: 点调 & 相关性排序以及时效性排序以及商业产品排序  以及 融合排序。目前在博客相关推荐(本质搜索),我们已经开始相关实践 博客相关推荐在线排序学习实践_CSDN搜索的博客-CSDN博客

       同时对于语言模型,也会是一个重点投入方向

           

     Why Chat + Search:

         ChatGPT出现后,从找答案 变成 生成答案;且大部分时候能满足用户需求较 DeepQA答案内容精度更好!内部研发专门评估各主流模型,

       非专业级的代码生成需求以及troubleshooting需求chatgpt的方案已经接近满分了。但是有以下几个无法根治的缺陷:

        1.  答案的时效性 (比如: 编程语言相关的问题, 期望 给出基于 最新版本python语言标准的 答案)  

       2.   事实性的答复 (比如:CSDN创始人是?chatgpt会极度 幻觉)

       3.   细粒度答复  

       4.  答案优质率以及领域权威性 

       基于此,WebGPT/WebGLM 做了很好的探索,尝试接近上面问题。典型流程参考 webglm paper 如下:       

 

            核心思想: 搜索结果页提供后续参考内容,让LLM基于参考内容来生成内容。

             效果也是比较惊讶的:   答案精度已经接近于人类了; 目前团队已经这块这块展开实践,后续再汇报相关工作!

       

         另外惊讶于chatgpt效果,搜推团队也快速尝鲜了基于Ada的深度语义重排, 收益非常显著,参见博客我的小流量“转正”心得 --- 下载下方深度语义重排的实践_CSDN搜索的博客-CSDN博客 

参考:   

     webglm   https://arxiv.org/abs/2306.07906

     webgpt    WebGPT: Improving the factual accuracy of language models through web browsing

  

  作者: 王品 李颖  邹欣   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/722872.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端基础知识学习——滑动门(利用背景图像的可层叠性 创造特殊效果)

滑动门&#xff1a;利用背景图像的可层叠性&#xff0c;并允许他们在彼此之上进行滑动&#xff0c;以创造一些特殊的效果。 举例&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"…

Linux快速搭建Java环境

1. 安装JDK运行与调试 搭建Java环境 1. 安装JDK 打开命令行执行 sudo apt install default-jdk 有确定的选项直接y就行 安装拓展: 1 . 有时候vscode会自动弹出消息叫你安装拓展,直接点击全部安装就行了 2 . 未弹出或安装失败解决: 打开拓展搜索,把下面的,全部安装就行 这样就可…

适合小企业的小型CRM软件如何选择

市场上有很多小型CRM软件&#xff0c;但很多企业在选型时不知道如何选择&#xff0c;应该考虑哪些因素&#xff0c;什么样的小型CRM软件好&#xff1f;推荐您选择专为小企业设计的CRM客户管理系统。 1、适合初学者&#xff1a; 适合没有使用过CRM软件的企业或个人&#xff0c…

ApiJson json转sql部分示例

ApiJson json转sql部分示例&#xff08;关于json较多&#xff0c;仅供自己快速回顾&#xff09; 首先提供腾讯的APIJSON文档的网址&#xff0c;内容来自于此&#xff1a;部分示例图片 首先提供腾讯的APIJSON文档的网址&#xff0c;内容来自于此&#xff1a; 链接: APIJSON文档…

Matlab隐藏彩蛋

Matlab中的彩蛋实现与Matlab的版本有着重要关系&#xff0c;像Android一样&#xff0c;不同的版本对应不同的彩蛋。这里以Matlab 2016A为例。 1.最著名的一个&#xff0c;命令行窗口输入“image”&#xff0c;就会出现一张倒置的小孩脸&#xff0c;不知情的使用者很可能会被吓…

Solved: “The unsigned image‘s hash is not allowed (DB)“

Solved: “The unsigned image’s hash is not allowed (DB)” 原因是 Secure Boot 的锅 In Hyper-V Manager, make sure the virtual machine is turned off. Select the virtual machine.Right click and select “Settings”Go to “Security”Uncheck “Enable Secure Boo…

【算法系列】滑动窗口

计算长度为k的连续子数组的最大总和 给定一个整数数组&#xff0c;计算长度为k的连续子数组的最大总和。 输入&#xff1a;arr [] {100,200,300,400} k 2输出&#xff1a;700解释&#xff1a;300 400 700解决思路 暴力解法&#xff1a;从k到n-k1&#xff0c;计算k长度大…

短视频seo矩阵系统+抖音小程序源码开源部署(二)

一、短视频矩阵源码系统开发要则&#xff1a; 1. 需求分析&#xff1a;对短视频平台的需求进行全面分析&#xff0c;确立系统开发目标和方向。 2. 技术选型&#xff1a;选用最适合的技术开发短视频矩阵系统&#xff0c;如前端框架、数据库、服务器等。 3. 系统设计&#xff…

Parseval’s theorem

一、Parseval’s theorem介绍 帕塞瓦尔定理Parseval’s theorem表明了信号的能量在时域和频域相等。 ∫ − ∞ ∞ ∣ f ( t ) ∣ 2 d t 1 2 π ∫ − ∞ ∞ ∣ F ( ω ) ∣ 2 d ω ∫ − ∞ ∞ ∣ F ^ ( f ) ∣ 2 d f \int_{-\infty}^{\infty}|f(t)|^{2} \mathrm{~d} t\frac…

Android Studio实现内容丰富的安卓美食管理发布平台

如需源码可以添加q-------3290510686&#xff0c;也有演示视频演示具体功能&#xff0c;源码不免费&#xff0c;尊重创作&#xff0c;尊重劳动。 项目编号079 1.开发环境 android stuido jdk1.8 eclipse mysql tomcat 2.功能介绍 安卓端&#xff1a; 1.注册登录 2.查看公告 3.查…

web安全php基础_php数据类型

PHP 数据类型 PHP 支持以下几种数据类型: String&#xff08;字符串&#xff09;Integer&#xff08;整型&#xff09;Float&#xff08;浮点型&#xff09;Boolean&#xff08;布尔型&#xff09;Array&#xff08;数组&#xff09;Object&#xff08;对象&#xff09;NULL&…

2023 亚马逊云科技中国峰会:全面加码 AIGC、深耕中国下一个十年

编辑 | 宋慧 出品 | CSDN 云计算 亚马逊云科技每年在中国的顶级会议——2023亚马逊云科技中国峰会如期而至。今年中国峰会回归线下举办&#xff0c;主会场和分论坛几乎全部爆满&#xff0c;技术展区人头攒动&#xff0c;现场技术赛事与开发者大讲堂活动丰富精彩&#xff0c;可…

基于SSM的高校专业信息管理系统的设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;采用JSP技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#x…

【UE】通过滑条放大子画面

在文章&#xff08;【UE4 第一人称射击游戏】33-创建一个小地图&#xff09; 基础上实现通过滑条放大子画面 效果 步骤 在控件蓝图中拖入滑条组件 主要的思想就是当滑条的值变更时去改变摄像机相对位置

图片框架Glide学习总结及插件实现

一.前言 图片加载框架个人选择的是Glide&#xff0c;该框架非常优秀&#xff0c;其知识体系很庞大&#xff0c;个人就对Glide部分知识的学习做一下总结&#xff0c;同时对框架的使用做一下封装&#xff0c;做成插件。 二.知识主干 知识主干如下&#xff0c;每一部分的知识会…

Selenium基础 — Selenium自动化测试框架介绍

1、什么是selenium Selenium是一个用于Web应用程序测试的工具。只要在测试用例中把预期的用户行为与结果都描述出来&#xff0c;我们就得到了一个可以自动化运行的功能测试套件。Selenium测试套件直接运行在浏览器中&#xff0c;就像真正的用户在操作浏览器一样。Selenium也是…

TPU-MLIR实战——ResNet18部署

1.编译ONNX模型 本章以 resnet18.onnx 为例, 介绍如何编译迁移一个onnx模型至BM1684X TPU平台运行。 该模型来自onnx的官网: models/vision/classification/resnet/model/resnet18-v1-7.onnx at main onnx/models GitHub 本例模型和代码在 http://219.142.246.77:65000//…

MySQL密码授权

目录 更改密码策略 方法1:临时修改​编辑 方法2:初始化时不启用​编辑 方法3:修改配置文件 远程登录 法一&#xff1a; 1、配置root密码&#xff08;或 use mysql&#xff09; 2、更新为所有主机 3、刷新权限表 法二&#xff1a;添加权限 更改密码策略 方法1:临时修改…

github中Mermaid的用法

这个东西是最近推出&#xff0c;首先是自己的repository中新建一个readme.md文件 需要一点前端的知识&#xff0c;就是先导入一个依赖文件&#xff0c;然后再写甘特图&#xff0c;如下&#xff1a; ### 甘特图 [<a href"https://mermaid-js.github.io/mermaid/#/gant…

【macOS 系列】如何在mac 邮件客户端配置QQ邮箱和第二个账号

文章目录 一、配置QQ邮箱二、添加新的账户 一、配置QQ邮箱 需要在QQ邮箱账户设置中开启&#xff1a; 开启时&#xff0c;会让你发短信到指定号码&#xff0c;然后就会弹出一个验证码 也就是添加邮箱的密码不是QQ密码&#xff0c;而是这个验证码&#xff0c;这个可以生成多个&…