搜索团队的技术小结

搜索团队的技术小结

news2025/4/8 22:19:10

搜索业务形态

CSDN作为开发者内容中心，主要通过分发博客和商业产品（下载资源）满足用户碎片化学习需求；产品形态上通过以下3种方式来承接用户需求
1. 站内搜索框

2. 博客相关推荐

3. 下载相关推荐

3种产品形态通过站内流量或者外部搜索引擎流量触达；因此本质都是解决用户query的需求。基于此相关推荐产品定位首要是搜索场景的延伸，持续解决当前博客没有解决的问题。

主要挑战

用户体验维度，全网搜索面临的技术维度调整在CSDN搜索都会遇到，从qu、文本/语义召回、时效性排序、权威性排序、阿拉丁异构混排等等都是CSDN搜索需要解决的；同时CSDN的搜索词更长尾词，且中英文混杂，

商业收入维度，历史对外部SEO导流CSDN站内搜推的依赖较强，而从去年开始国内主流网页搜索对CSDN商业产品的做打压，导致其曝光巨幅下滑以及对应收入下滑。

同时AIGC大行其道今日，传统的分发在满足用户需求维度已经落后生成式答案，3月份研发团队对各家大模型在代码生成以及troubleshooting能力维度做了评估，站内的需求 chatgpt的满足度基本接近满分。

整体规划

长期以来，搜索系统一直在持续改进，基于人工标注（GSB）驱动从 “智正简优”4个维度迭代优化搜索体验。搜索系统一直在致力于给用户交付的一种优质&权威&时鲜的 答案，尽可能快速满足用户需求，让用户快速离开搜索。

目前主流搜索引擎而言，对于模糊需求通过智能聚合满足多样性需求，

精准需求通过首条问答 “找出答案”：

搜索系统一直都是nlp和rank的“重镇”，典型的算法架构如下图：

整体上CSDN搜索系统也会遵循这套架构迭代，同时需要结合实际做适当取舍。核心投入方向：

query理解：分词（以及开发者领域的词典建设）、意图识别以及乏时效性识别

内容理解：内容标签、质量分以及领域权威

上层排序：点调 & 相关性排序以及时效性排序以及商业产品排序以及融合排序。目前在博客相关推荐（本质搜索），我们已经开始相关实践博客相关推荐在线排序学习实践_CSDN搜索的博客-CSDN博客

同时对于语言模型，也会是一个重点投入方向

Why Chat + Search：

ChatGPT出现后，从找答案变成生成答案；且大部分时候能满足用户需求较 DeepQA答案内容精度更好！内部研发专门评估各主流模型，

非专业级的代码生成需求以及troubleshooting需求chatgpt的方案已经接近满分了。但是有以下几个无法根治的缺陷：

1. 答案的时效性（比如：编程语言相关的问题，期望给出基于最新版本python语言标准的答案）

2. 事实性的答复（比如：CSDN创始人是？chatgpt会极度幻觉）

3. 细粒度答复

4. 答案优质率以及领域权威性

基于此，WebGPT/WebGLM 做了很好的探索，尝试接近上面问题。典型流程参考 webglm paper 如下：

核心思想：搜索结果页提供后续参考内容，让LLM基于参考内容来生成内容。

效果也是比较惊讶的：答案精度已经接近于人类了；目前团队已经这块这块展开实践，后续再汇报相关工作！

另外惊讶于chatgpt效果，搜推团队也快速尝鲜了基于Ada的深度语义重排，收益非常显著，参见博客我的小流量“转正”心得 --- 下载下方深度语义重排的实践_CSDN搜索的博客-CSDN博客

参考：

webglm https://arxiv.org/abs/2306.07906

webgpt WebGPT: Improving the factual accuracy of language models through web browsing

作者：王品李颖邹欣

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/722872.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

前端基础知识学习——滑动门（利用背景图像的可层叠性创造特殊效果）

前端基础知识学习——滑动门（利用背景图像的可层叠性创造特殊效果）

滑动门：利用背景图像的可层叠性，并允许他们在彼此之上进行滑动，以创造一些特殊的效果。举例： <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"…

阅读更多...

Linux快速搭建Java环境

Linux快速搭建Java环境

1. 安装JDK运行与调试搭建Java环境 1. 安装JDK 打开命令行执行 sudo apt install default-jdk 有确定的选项直接y就行安装拓展: 1 . 有时候vscode会自动弹出消息叫你安装拓展,直接点击全部安装就行了 2 . 未弹出或安装失败解决: 打开拓展搜索,把下面的,全部安装就行这样就可…

阅读更多...

适合小企业的小型CRM软件如何选择

适合小企业的小型CRM软件如何选择

市场上有很多小型CRM软件，但很多企业在选型时不知道如何选择，应该考虑哪些因素，什么样的小型CRM软件好？推荐您选择专为小企业设计的CRM客户管理系统。 1、适合初学者： 适合没有使用过CRM软件的企业或个人&#xff0c…

阅读更多...

ApiJson json转sql部分示例

ApiJson json转sql部分示例

ApiJson json转sql部分示例（关于json较多，仅供自己快速回顾） 首先提供腾讯的APIJSON文档的网址，内容来自于此：部分示例图片首先提供腾讯的APIJSON文档的网址，内容来自于此： 链接: APIJSON文档…

阅读更多...

$Matlab隐藏彩蛋$

Matlab隐藏彩蛋

Matlab中的彩蛋实现与Matlab的版本有着重要关系，像Android一样，不同的版本对应不同的彩蛋。这里以Matlab 2016A为例。 1.最著名的一个，命令行窗口输入“image”，就会出现一张倒置的小孩脸，不知情的使用者很可能会被吓…

阅读更多...

Solved: “The unsigned image‘s hash is not allowed (DB)“

Solved: “The unsigned image‘s hash is not allowed (DB)“

Solved: “The unsigned image’s hash is not allowed (DB)” 原因是 Secure Boot 的锅 In Hyper-V Manager, make sure the virtual machine is turned off. Select the virtual machine.Right click and select “Settings”Go to “Security”Uncheck “Enable Secure Boo…

阅读更多...

【算法系列】滑动窗口

【算法系列】滑动窗口

计算长度为k的连续子数组的最大总和给定一个整数数组，计算长度为k的连续子数组的最大总和。输入：arr [] {100,200,300,400} k 2输出：700解释：300 400 700解决思路暴力解法：从k到n-k1，计算k长度大…

阅读更多...

短视频seo矩阵系统+抖音小程序源码开源部署（二）

短视频seo矩阵系统+抖音小程序源码开源部署（二）

一、短视频矩阵源码系统开发要则： 1. 需求分析：对短视频平台的需求进行全面分析，确立系统开发目标和方向。 2. 技术选型：选用最适合的技术开发短视频矩阵系统，如前端框架、数据库、服务器等。 3. 系统设计&#xff…

阅读更多...

Parseval’s theorem

Parseval’s theorem

一、Parseval’s theorem介绍帕塞瓦尔定理Parseval’s theorem表明了信号的能量在时域和频域相等。 ∫ − ∞ ∞ ∣ f ( t ) ∣ 2 d t 1 2 π ∫ − ∞ ∞ ∣ F ( ω ) ∣ 2 d ω ∫ − ∞ ∞ ∣ F ^ ( f ) ∣ 2 d f \int_{-\infty}^{\infty}|f(t)|^{2} \mathrm{~d} t\frac…

阅读更多...

Android Studio实现内容丰富的安卓美食管理发布平台

Android Studio实现内容丰富的安卓美食管理发布平台

如需源码可以添加q-------3290510686，也有演示视频演示具体功能，源码不免费，尊重创作，尊重劳动。项目编号079 1.开发环境 android stuido jdk1.8 eclipse mysql tomcat 2.功能介绍安卓端： 1.注册登录 2.查看公告 3.查…

阅读更多...

web安全php基础_php数据类型

web安全php基础_php数据类型

PHP 数据类型 PHP 支持以下几种数据类型: String（字符串）Integer（整型）Float（浮点型）Boolean（布尔型）Array（数组）Object（对象）NULL&…

阅读更多...

2023 亚马逊云科技中国峰会：全面加码 AIGC、深耕中国下一个十年

2023 亚马逊云科技中国峰会：全面加码 AIGC、深耕中国下一个十年

编辑 | 宋慧出品 | CSDN 云计算亚马逊云科技每年在中国的顶级会议——2023亚马逊云科技中国峰会如期而至。今年中国峰会回归线下举办，主会场和分论坛几乎全部爆满，技术展区人头攒动，现场技术赛事与开发者大讲堂活动丰富精彩，可…

阅读更多...

基于SSM的高校专业信息管理系统的设计与实现

基于SSM的高校专业信息管理系统的设计与实现

末尾获取源码开发语言：Java Java开发工具：JDK1.8 后端框架：SSM 前端：采用JSP技术开发数据库：MySQL5.7和Navicat管理工具结合服务器：Tomcat8.5 开发软件：IDEA / Eclipse 是否Maven项目&#x…

阅读更多...

【UE】通过滑条放大子画面

【UE】通过滑条放大子画面

在文章（【UE4 第一人称射击游戏】33-创建一个小地图） 基础上实现通过滑条放大子画面效果步骤在控件蓝图中拖入滑条组件主要的思想就是当滑条的值变更时去改变摄像机相对位置

阅读更多...

图片框架Glide学习总结及插件实现

图片框架Glide学习总结及插件实现

一.前言图片加载框架个人选择的是Glide，该框架非常优秀，其知识体系很庞大，个人就对Glide部分知识的学习做一下总结，同时对框架的使用做一下封装，做成插件。二.知识主干知识主干如下，每一部分的知识会…

阅读更多...

Selenium基础 — Selenium自动化测试框架介绍

Selenium基础 — Selenium自动化测试框架介绍

1、什么是selenium Selenium是一个用于Web应用程序测试的工具。只要在测试用例中把预期的用户行为与结果都描述出来，我们就得到了一个可以自动化运行的功能测试套件。Selenium测试套件直接运行在浏览器中，就像真正的用户在操作浏览器一样。Selenium也是…

阅读更多...

TPU-MLIR实战——ResNet18部署

TPU-MLIR实战——ResNet18部署

1.编译ONNX模型本章以 resnet18.onnx 为例, 介绍如何编译迁移一个onnx模型至BM1684X TPU平台运行。该模型来自onnx的官网: models/vision/classification/resnet/model/resnet18-v1-7.onnx at main onnx/models GitHub 本例模型和代码在 http://219.142.246.77:65000//…

阅读更多...

MySQL密码授权

MySQL密码授权

目录更改密码策略方法1:临时修改编辑方法2:初始化时不启用编辑方法3:修改配置文件远程登录法一： 1、配置root密码（或 use mysql） 2、更新为所有主机 3、刷新权限表法二：添加权限更改密码策略方法1:临时修改…

阅读更多...

github中Mermaid的用法

github中Mermaid的用法

这个东西是最近推出，首先是自己的repository中新建一个readme.md文件需要一点前端的知识，就是先导入一个依赖文件，然后再写甘特图，如下： ### 甘特图 [<a href"https://mermaid-js.github.io/mermaid/#/gant…

阅读更多...

【macOS 系列】如何在mac 邮件客户端配置QQ邮箱和第二个账号

【macOS 系列】如何在mac 邮件客户端配置QQ邮箱和第二个账号

文章目录一、配置QQ邮箱二、添加新的账户一、配置QQ邮箱需要在QQ邮箱账户设置中开启： 开启时，会让你发短信到指定号码，然后就会弹出一个验证码也就是添加邮箱的密码不是QQ密码，而是这个验证码，这个可以生成多个&…

阅读更多...

推荐文章

最新文章