搜索业务形态
CSDN作为开发者内容中心,主要通过分发博客和商业产品(下载资源)满足用户碎片化学习需求;产品形态上通过以下3种方式来承接用户需求
1. 站内搜索框
2. 博客相关推荐
3. 下载相关推荐
3种产品形态通过站内流量或者外部搜索引擎流量触达;因此本质都是解决用户query的需求。基于此相关推荐产品定位首要是搜索场景的延伸,持续解决当前博客没有解决的问题。
主要挑战
用户体验维度, 全网搜索面临的技术维度调整在CSDN搜索都会遇到,从qu、文本/语义召回、时效性排序、权威性排序、阿拉丁异构混排等等都是CSDN搜索需要解决的;同时CSDN的搜索词更长尾词,且中英文混杂,
商业收入维度, 历史对外部SEO导流CSDN站内搜推的依赖较强,而从去年开始国内主流网页搜索对CSDN商业产品的做打压,导致其曝光巨幅下滑以及对应收入下滑。
同时AIGC大行其道今日,传统的分发在满足用户需求维度已经落后生成式答案,3月份研发团队对各家大模型在代码生成以及troubleshooting能力维度做了评估, 站内的需求 chatgpt的满足度基本接近满分。
整体规划
长期以来,搜索系统一直在持续改进,基于人工标注(GSB)驱动从 “智正简优”4个维度迭代优化搜索体验。搜索系统一直在致力于给用户交付的一种 优质&权威&时鲜的 答案,尽可能快速满足用户需求,让用户快速离开搜索。
目前主流搜索引擎而言, 对于模糊需求 通过智能聚合满足多样性需求,
精准需求 通过首条问答 “找出答案”:
搜索系统一直都是nlp和rank的“重镇”,典型的算法架构如下图:
整体上CSDN搜索系统也会遵循这套架构迭代,同时需要结合实际做适当取舍。核心投入方向:
query理解: 分词 (以及开发者领域的词典建设)、意图识别 以及乏时效性识别
内容理解: 内容标签 、 质量分 以及 领域权威
上层排序: 点调 & 相关性排序以及时效性排序以及商业产品排序 以及 融合排序。目前在博客相关推荐(本质搜索),我们已经开始相关实践 博客相关推荐在线排序学习实践_CSDN搜索的博客-CSDN博客
同时对于语言模型,也会是一个重点投入方向
Why Chat + Search:
ChatGPT出现后,从找答案 变成 生成答案;且大部分时候能满足用户需求较 DeepQA答案内容精度更好!内部研发专门评估各主流模型,
非专业级的代码生成需求以及troubleshooting需求chatgpt的方案已经接近满分了。但是有以下几个无法根治的缺陷:
1. 答案的时效性 (比如: 编程语言相关的问题, 期望 给出基于 最新版本python语言标准的 答案)
2. 事实性的答复 (比如:CSDN创始人是?chatgpt会极度 幻觉)
3. 细粒度答复
4. 答案优质率以及领域权威性
基于此,WebGPT/WebGLM 做了很好的探索,尝试接近上面问题。典型流程参考 webglm paper 如下:
核心思想: 搜索结果页提供后续参考内容,让LLM基于参考内容来生成内容。
效果也是比较惊讶的: 答案精度已经接近于人类了; 目前团队已经这块这块展开实践,后续再汇报相关工作!
另外惊讶于chatgpt效果,搜推团队也快速尝鲜了基于Ada的深度语义重排, 收益非常显著,参见博客我的小流量“转正”心得 --- 下载下方深度语义重排的实践_CSDN搜索的博客-CSDN博客
参考:
webglm https://arxiv.org/abs/2306.07906
webgpt WebGPT: Improving the factual accuracy of language models through web browsing
作者: 王品 李颖 邹欣