立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务

news2025/7/15 10:38:42

作者:厦门立马耀网络科技有限公司大数据开发工程师 陈宏毅

背景介绍

行业

  • 蝉选是蝉妈妈出品的达人选品服务平台。蝉选秉持“陪伴达人赚到钱”的品牌使命,致力于洞悉达人变现需求和痛点,提供达人选高佣、稳变现、速响应的选品服务。

业务特征

  • 个性化推荐:利用大数据和人工智能算法,根据用户的兴趣和行为提供定制化的产品推荐。

  • 数据驱动:通过分析用户和市场趋势,优化推荐策略,提升用户满意度。

  • 精准营销:帮助商家通过精准的用户画像进行有效的产品推广。

  • 高效搜索:提供强大的搜索功能,帮助用户快速找到所需产品。

产品原有架构痛点

依赖传统搜索方案的向量检索进行相似商品推荐的痛点

  • 性能瓶颈:在处理高维向量时,性能可能不如专用的向量数据库。

  • 存储效率:高维向量的存储效率较低,占用较多磁盘空间。

  • 复杂性:需要额外配置和插件才能支持向量检索。

  • 更新成本:频繁更新向量数据可能导致索引重建,影响性能。

  • 资源消耗:内存和计算资源消耗较大,尤其在大规模数据集上。

Spark集群原架构的痛点

  • 集群稳定性:需要自行监控和维护集群,可能面临稳定性问题。

  • 性能优化:缺乏类似Fusion的加速技术,可能导致任务执行速度较慢。

  • 运维负担:需要手动管理集群,包括配置、监控和故障排除。

  • 资源利用率:资源分配不够灵活,可能导致资源浪费。

  • 费用问题:即使在空闲时也可能产生费用,导致成本增加。

  • 复杂性:需要配置和管理底层基础设施,增加了复杂性。

为了应对新的业务挑战,蝉妈妈选择与阿里云合作,利用其 Serverless Spark & Milvus,构建了符合业务场景和分析师习惯的工程解决方案。

为什么选择阿里云 Serverless Spark&Milvus

完善的周边服务:提供全面的监控和告警功能,能够实时跟踪任务状态和性能,及时发现并解决问题。

托管弹性伸缩功能:自动根据工作负载调整资源,减少手动干预。

集群稳定性:由云服务商管理,提供高稳定性和可靠性。

弹性资源管理:按需分配资源,避免资源浪费。

按需计费:仅为实际使用的资源付费,降低成本。

快速启动:无需预配置资源,能够快速启动和运行任务。

自动扩展:根据工作负载自动调整资源,提升灵活性。

性能优化:Serverless Spark通过技术如Fusion加速任务执行,提高效率,降低成本;Milvus支持并保证超大规模向量检索的性能。

技术方案设计

架构图

业务场景介绍

在Serverless Spark中,通过周期性的离线任务,从StarRocks数据库中提取商品数据。这些数据包含商品的基本信息,如商品ID、名称、描述等。接着,使用Serverless Spark的计算能力,调用机器学习模型服务,将商品标题转换为向量表示。生成的向量数据与其他商品信息结合后,批量写入阿里云Milvus向量数据库。Milvus负责高效存储和管理这些向量数据,并支持快速相似性搜索。通过构建数据接口,Milvus中的数据可以对外提供查询服务,用户可以通过该接口输入一个商品或其特征,系统将返回相似商品的列表。这种架构支持大规模、低延迟的相似商品检索,适用于推荐系统、个性化营销等应用场景。

关键服务组件

Serverless Spark

EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理和模型训练的全流程。同时,它100%兼容开源 Spark 生态,能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark,企业可以更专注于数据处理分析和模型训练调优,提高工作效率。

向量检索服务 Milvus 版

阿里云向量检索服务Milvus版是一款云原生、全托管的向量检索引擎,100%兼容开源Milvus,支持自建Milvus集群无缝迁移上云。具备易⽤性、可⽤性、安全性、低成本与⽣态优势,能提供超大规模向量数据的相似性检索服务,广泛应用于多模态检索、RAG、大模型AI等场景。

迁移后的收益

Serverless Spark

  • 性能:离线任务耗时减少40%,核心报表更早产出。

  • 稳定性:任务稳定性显著提高,失败率降低 80%。

  • 运维灵活性:根据业务需求自动调整扩充计算资源。

  • 性价比:真正的按量付费,不使用时没有资源消耗;提供多种资源包选择,进一步降低成本。

Milvus

  • 降本:与传统搜索方案相比,阿里云Milvus 实现向量检索的成本降低了 75%。

  • 提效:作为专业级向量数据库,在处理高维向量时,检索性能显著提升。

  • 业务支持:Milvus 能支持更大规模的数据读取和写入,覆盖了商品范围更广,查询响应速度更快。

后续期待

希望 Serverless Spark 能够全面兼容 Spark Launcher 这一便捷方式提交任务,支持任务无缝迁移至全托管环境。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2342785.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

专业热度低,25西电光电工程学院(考研录取情况)

1、光电工程学院各个方向 2、光电工程学院近三年复试分数线对比 学长、学姐分析 由表可看出: 1、光学工程25年相较于24年下降20分, 2、光电信息与工程(专硕)25年相较于24年上升15分 3、25vs24推免/统招人数对比 学长、学姐分析…

java—11 Redis

目录 一、Redis概述 二、Redis类型及编码 三、Redis对象的编码 1. 类型&编码的对应关系 2. string类型常用命令 (1)string类型内部实现——int编码 (2)string类型内部实现——embstr编码 ​编辑 (3&#x…

热门算法面试题第19天|Leetcode39. 组合总和40.组合总和II131.分割回文串

39. 组合总和 力扣题目链接(opens new window) 给定一个无重复元素的数组 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的数字可以无限制重复被选取。 说明: 所有数字(包括 ta…

2194出差-节点开销Bellman-ford/图论

题目网址: 蓝桥账户中心 我先用Floyd跑了一遍,不出所料TLE了 n,mmap(int,input().split())clist(map(int,input().split()))INFfloat(inf) ma[[INF]*n for i in range(n)]for i in range(m):u,v,wmap(int,input().split())ma[u-1][v-1]wma[v-1][u-1]w#“…

Docker安装beef-xss

新版的kali系统中安装了beef-xss会因为环境问题而无法启动,可以使用Docker来安装beef-xss,节省很多时间。 安装步骤 1.启动kali虚拟机,打开终端,切换到root用户,然后执行下面的命令下载beef的docker镜像 wget https:…

时间序列-数据窗口进行多步预测

在时间序列预测领域,多步预测旨在基于历史数据预测未来多个时间点的值,而创建数据窗口是实现这一目标的常用且高效的技术手段。数据窗口技术的核心是通过滑动窗口机制构建训练数据集,其核心逻辑可概括为:利用历史时间步的序列模式…

(三)mac中Grafana监控Linux上的Redis(Redis_exporter安装使用)

框架:GrafanaPrometheusRedis_exporter Grafana安装-CSDN博客 普罗米修斯Prometheus监控安装(mac)-CSDN博客 1.Redis_exporter安装 直接下载 wget https://github.com/oliver006/redis_exporter/releases/download/v1.0.3/redis_expor…

Linux Sed 深度解析:从日志清洗到 K8s 等12个高频场景

看图猜诗,你有任何想法都可以在评论区留言哦~ 摘要:Sed(Stream Editor)作为 Linux 三剑客之一,凭借其流式处理与正则表达式能力,成为运维场景中文本批处理的核心工具。本文聚焦生产环境高频需求&#xff…

基于java的网络编程入门

1. 什么是IP地址 由此可见,32位最大为255.255.255.255 打开cmd查询自己电脑的ip地址:ipconfig 测试网络是否通畅:ping 目标ip地址 2. IP地址的组成 注意:127.0.0.1是回送地址,指本地机,一般用来测试使用 …

Git简介与入门

Git的发明 Git由著名的Linux创始人linus于2005年发明(所以git的界面、使用方式与Linux挺像的,即命令行方式) 经过发展,现在广泛应用于代码管理与团队协作。 Git特性 Git是分布式版本控制系统 分布式 每个开发者拥有完整仓库&…

Linux 网络基础三 (数据链路层协议:以太网协议、ARP 协议)

一、以太网 两个不同局域网的主机传递数据并不是直接传递的,而是通过路由器 “一跳一跳” 的传递过去。 跨网络传输的本质:由无数个局域网(子网)转发的结果。 所以,要理解数据跨网络转发原理就要先理解一个局域网中数…

16.QT-Qt窗口-菜单栏|创建菜单栏|添加菜单|创建菜单项|添加分割线|添加快捷键|子菜单|图标|内存泄漏(C++)

Qt窗⼝是通过QMainWindow类来实现的。 QMainWindow是⼀个为⽤⼾提供主窗⼝程序的类,继承⾃QWidget类,并且提供了⼀个预定义的布局。QMainWindow包含⼀个菜单栏(menu bar)、多个⼯具栏(tool bars)、多个浮动窗⼝(铆接部…

[特殊字符] 分布式定时任务调度实战:XXL-JOB工作原理与路由策略详解

在微服务架构中,定时任务往往面临多实例重复执行、任务冲突等挑战。为了解决这一问题,企业级调度框架 XXL-JOB 提供了强大的任务统一调度与执行机制,特别适合在分布式系统中使用。 本文将从 XXL-JOB 的核心架构入手,详细讲解其调…

java面试题及答案2020,java最新面试题(四十四)

java面试题及答案2020 二面-2020/3/18 1、自我介绍项目比赛 2、java集合框架全部介绍。。从list set queue到map 3、hashmap底层扩容线程安全问题 4、如果-一个对象要作为hashmap的key需要做什么 5、Threadlocal类以及 内存泄漏 6、线程同步方式,具体每一个怎么做的 7、jvm类加…

oracle 锁的添加方式和死锁的解决

DML锁添加方式 DML 锁可由一个用户进程以显式的方式加锁,也可通过某些 SQL 语句隐含方式实现。 DML 锁有三种加锁方式:共享锁方式、独占锁方式、共享更新。 共享锁,独占锁用于 TM 锁,共享锁用于 TX 锁。 1)共享方式的表级锁 共享方…

基于Hadoop的音乐推荐系统(源码+lw+部署文档+讲解),源码可白嫖!

摘要 本毕业生数据分析与可视化系统采用B/S架构,数据库是MySQL,网站的搭建与开发采用了先进的Java语言、爬虫技术进行编写,使用了Spring Boot框架。该系统从两个对象:由管理员和用户来对系统进行设计构建。主要功能包括&#xff…

Java查询数据库表信息导出Word

参考: POI生成Word多级标题格式_poi设置word标题-CSDN博客 1.概述 使用jdbc查询数据库把表信息导出为word文档, 导出为word时需要下载word模板文件。 已实现数据库: KingbaseES, 实现代码: 点击跳转 2.效果图 2.1.生成word内容 所有数据库合并 数据库不合并 2.2.生成文件…

RK3588平台用v4l工具调试USB摄像头实践(亮度,饱和度,对比度,色相等)

目录 前言:v4l-utils简介 一:查找当前的摄像头设备 二:查看当前摄像头支持的v4l2-ctl调试参数 三根据提示设置对应参数,在提示范围内设置 四:常用调试命令 五:应用内执行命令方法 前言:v4l-utils简介 v4l-utils工具是由Linu…

在Linux中,使用read函数去读取写入文件空洞部分时,读取出来的内容是什么?为什么这样操作,以及应用场景?

使用 read 函数读取文件空洞(hole)部分时,读取到的内容会被系统填充为 \0(即零字节)。文件空洞是稀疏文件中未实际分配磁盘空间的区域,但逻辑上表现为连续的零字节。 1.在指定空洞部分后,写入数…

Qt6笔记-对Qt6中对CMakeLists.txt的解析

首先,新建Qt Console Application项目。 下面对CMakeLists.txt进行次理解。新建好后,Qt Creator会生成CMakeLists.txt,具体内容如下: cmake_minimum_required(VERSION 3.16)project(EasyCppMain LANGUAGES CXX)set(CMAKE_AUTOUIC…