【腾讯云云上实验室-向量数据库】基于向量数据的客户价值体系推荐系统设计

news2024/11/15 23:21:38

【腾讯云云上实验室-向量数据库】深入浅出-基于向量分析的客户价值体系推荐系统设计

前言

很早之前就有过想写推荐系统系列文章了,本人曾任职高级大数据工程师全程参与过推荐系统的搭建,故在搭建推荐系统算得上是有一定的经验。推荐系统搭建有相当多的细节和要考虑的业务情况,以及要结合当前业务信息和用户信息的多维度属性,可以说得上是个大工程。做推荐系统的最看重的就是模块设计和用户画像体系,这两块相当于推荐系统的心脏和肌肉,光靠一篇文章是比较难全面讲解整体推荐系统的搭建的,好在腾讯云推出了向量数据库,免去了最为繁琐复杂的向量数据库设计步骤,可以直接利用腾讯云数据库强大的功能快速构建推荐系统。本篇文章将详细介绍推荐系统的定义以及推荐系统的架构设计,和深入浅出讲解向量分析,最后通过实例案例结合腾讯云向量数据库完成轻量级推荐系统搭建。

一、客户价值体系推荐系统综述

关于大数据标记和大数据杀熟此类网络用语在报道和资讯里面屡见不鲜,很多时候我们搜索完关键词之后进入网购平台或者是短视频平台的时候,总会推送包含相关内容的信息,其中的巧妙就在于平台的推荐系统设计。如何的提供互联网服务形式种类多样且层出不同,那么如何让这些服务准确找到合适的人群就是推荐系统要解决的主要问题。

1.1推荐系统解决了什么问题?

推荐系统本质上是在用户需求不明确的情况下, 从海量的信息中为用户寻找其感兴趣的信息的技术手段。在博主写过的用户画像构建系统文章中有写到利用推荐系统作为下游服务,通过整合用户信息、物品信息和用户历史行为,推荐系统利用机器学习技术构建了个性化的用户兴趣模型。这个模型考虑了用户的地域、年龄、性别等信息,物品的价格、产地等属性,以及用户过去对物品的行为,例如购买、点击、播放等。这个综合的模型使得推荐系统能够更准确地理解用户的偏好和需求,为用户提供个性化、精准的推荐。

在这个过程中,推荐系统实现了平台、标的物提供方和用户三方的利益协调:

  1. 标的物提供方(商家、内容创作者等): 推荐系统通过向用户推荐符合其兴趣的商品或内容,提高了标的物提供方的曝光和销售机会。这有助于促进商品的流通,提高销售额,从而为商家带来更多的业务。
  2. 平台方(例如淘宝、电商平台等): 推荐系统提升了平台的用户体验,使用户更容易找到符合其需求的商品或服务。这有助于提高用户在平台上的活跃度,延长停留时间,增加用户粘性,进而推动平台的业务发展。
  3. 用户: 推荐系统为用户提供了个性化、精准的推荐,使其更容易发现感兴趣的商品或内容。这提高了用户的购物或使用体验,减轻了信息过载和选择困难的问题,增加了用户的满意度。

在这里插入图片描述

1.2推荐系统表现形式及应用

1.2.1推荐系统的应用领域

不同行业的产品虽说都可以提供以上推荐产品形态,但是在具体落地时是不一样的,需要考虑到具体的产品功能和使用场景进行调整,即所谓的场景化推荐:基于时间、地理位置、上下文等提供差异化的推荐。比如对于电商平台要根据季节来调整推荐货物,生活平台要根据地理位置和地方人文更改推荐内容,而且同一个用户在产品的不同位置、模块、阶段提供不一样的推荐,也就是上下文推荐内容是有分层的。

1.2.2推荐系统的定义

在了解以上推荐系统具体需求和面向对象种类之后,我们可以给推荐系统下个定义:推荐系统是一种工程技术解决方案,其核心在于通过运用机器学习等先进技术,实现在用户与产品互动的过程中主动呈现可能符合用户兴趣的物品。这样的系统旨在提高用户体验,通过精准的推荐,帮助用户更快地找到并消费符合其喜好的物品,从而节省用户时间和精力。一句话概括就是:推荐系统是工程技术解决方案,旨在通过智能化、个性化的推荐,实现资源的有效配置,满足用户需求,提高用户满意度,并在商业层面促进产品的销售和业务发展。

那么我们从核心推荐算法和策略这一块来归纳推荐系统的种类。

1.2.3推荐系统的算法

在这里插入图片描述

推荐系统中有多种常用的算法,它们可以根据不同的原理和方法进行分类。

1.2.3.1基于内容的推荐算法(Content-Based Recommendation)

基于内容的推荐算法的核心思想是通过分析用户和物品的内容信息,为用户推荐与他们过去喜欢的相似内容。这种方法侧重于物品的特征以及用户的个人偏好,以提供更个性化和精准的推荐。具体建模步骤可参考:

在这里插入图片描述

首先简历用户行为画像和商品属性类别画像,之后将物品和用户的内容特征转化为特征向量。这可以通过将文本进行向量化(如TF-IDF、Word Embeddings)或使用其他技术,再使用相似性度量(如余弦相似度)来计算物品之间或用户与物品之间的相似性。相似性度量用于衡量特征向量之间的接近程度。基于计算的相似性度量,为用户推荐与他们过去喜欢的物品相似度较高的其他物品。

1.2.3.2协同过滤算法(Collaborative Filtering)

协同过滤算法目前也算得上是较为经典的算法了,现在还有相当多的系统用了此算法。协同过滤算法分为两种主要类型:基于用户的协同过滤和基于物品的协同过滤。

基于用户的协同过滤是通过寻找与目标用户相似的其他用户,然后利用这些相似用户的历史行为来预测目标用户可能喜欢的物品。这个算法基于假设:相似的用户在过去喜欢的物品上可能会有相似的评价。而基于物品的协同过滤是通过寻找与目标物品相似的其他物品,然后利用用户对这些相似物品的历史行为来预测目标用户可能喜欢的物品。这个算法基于假设:用户对相似物品的评价可能是相似的。

二者算法都存在明显的缺陷,前者面临稀疏性问题,当用户-物品矩阵稀疏时,难以找到足够相似的用户。后者难以处理新物品,因为需要先有用户的反馈数据才能计算物品之间的相似度,所以工作量和评论量处理都需求很大。我们可以通过sklearn和numpy简单模拟一下计算过程:

from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# 用户-物品评分矩阵
user_item_matrix = np.array([
    [5, 4, 0, 0, 1],
    [4, 0, 0, 0, 2],
    [0, 5, 0, 3, 0],
    [0, 0, 4, 0, 5],
])

# 计算用户之间的余弦相似度
user_similarity = cosine_similarity(user_item_matrix)

# 选择与目标用户相似度最高的用户
target_user_index = 0
similar_users = user_similarity[target_user_index]

# 基于相似用户的评分,预测目标用户对未评价物品的评分
target_user_ratings = user_item_matrix[target_user_index]
predicted_ratings = np.sum((similar_users[:, np.newaxis] * target_user_ratings), axis=0) / np.sum(np.abs(similar_users))

print("Predicted Ratings:", predicted_ratings)

通过计算用户之间的余弦相似度,选择了与目标用户相似度最高的用户,并基于相似用户的评分预测了目标用户对未评价物品的评分:Predicted Ratings: [5. 4. 0. 0. 1.]。实际应用中,通常需要考虑更多的细节和优化,比如处理缺失值、调整相似度的计算方式等。

1.2.3.3矩阵分解算法(Matrix Factorization)

矩阵分解是一种推荐系统中常用的算法,其主要思想是将用户-物品评分矩阵分解为两个低维度的矩阵,通过学习这两个矩阵的参数,以达到重构原始评分矩阵的目的。矩阵分解算法通常用于处理推荐系统中的隐式反馈数据,如用户观看、点击、购买等行为。推荐算法的计算框架都可以参考我在第一个算法的计算框架图,无非是将用户-物品评分矩阵进行不同的处理。矩阵分解的基本计算原理:

设用户-物品评分矩阵为 R R R,其中 U U U 是用户矩阵, V V V 是物品矩阵,二者的乘积近似等于原始评分矩阵:
R ≈ U ⋅ V T R≈U⋅V^{T} RUVT
其中, U U U 的每一行表示一个用户的特征, V V V 的每一行表示一个物品的特征,矩阵的转置 V T V^{T} VT 是为了满足矩阵乘法的要求。矩阵分解的学习过程通常通过优化损失函数实现,损失函数衡量原始评分矩阵与分解矩阵之间的差异。一种常用的损失函数是均方差(Mean Squared Error):
L o s s = ∑ ( i , j ) ∈ K n o w n R a t i n g s ( R i j − ( U i ) ⋅ V j T ) 2 Loss=∑_{(i,j)∈Known Ratings}(R_{ij}-(U_{i})⋅V^{T}_{j})^2 Loss=(i,j)KnownRatings(Rij(Ui)VjT)2
其中,( i i i, j j j) 表示已知评分的位置, R i j R_{ij} Rij 是原始评分矩阵中的值, U i U_{i} Ui V j V_{j} Vj 分别是用户和物品的特征向量。通过梯度下降等优化算法,调整 U U U V V V 的参数,使得损失函数最小化,从而学得用户和物品的特征。使用代码模拟的思路可参考:

import numpy as np

# 用户-物品评分矩阵
R = np.array([
    [5, 4, 0, 0, 1],
    [4, 0, 0, 0, 2],
    [0, 5, 0, 3, 0],
    [0, 0, 4, 0, 5],
])

# 隐含特征维度
k = 2

# 随机初始化用户和物品矩阵
U = np.random.rand(R.shape[0], k)
V = np.random.rand(R.shape[1], k)

# 学习率和正则化参数
learning_rate = 0.01
lambda_reg = 0.1

# 迭代训练
epochs = 1000
for epoch in range(epochs):
    for i in range(R.shape[0]):
        for j in range(R.shape[1]):
            if R[i, j] > 0:
                error_ij = R[i, j] - np.dot(U[i, :], V[j, :].T)
                U[i, :] += learning_rate * (error_ij * V[j, :] - lambda_reg * U[i, :])
                V[j, :] += learning_rate * (error_ij * U[i, :] - lambda_reg * V[j, :])

# 通过学习后的 U 和 V 重构评分矩阵
R_reconstructed = np.dot(U, V.T)
print("Reconstructed Ratings:\n", R_reconstructed)

最后迭代得到用户-物品评分矩阵:

Reconstructed Ratings:
 [[4.79912021 3.96023041 1.27615159 2.32813654 1.04808719]
 [3.89817912 3.28932758 1.86669366 2.05332775 1.95472288]
 [5.7881414  4.83477688 2.20740739 2.93854563 2.15233854]
 [3.24442296 2.94605625 3.93775804 2.17496657 4.79589275]]

推荐算法就介绍到此,感兴趣的朋友以后可关注博主文章,会出更加具体的商业级别算法设计和运用,还是将重心转移到推荐系统搭建上面去。

1.3如何搭建一套推荐系统?

1.3.1推荐系统基础架构

推荐系统与大数据有天然的联系,没有用户和物品的数据就无法进行最基础的推荐算法运算,要落地推荐系统往往需要企业具备一套完善的大数据分析平台。所以要开展推荐系统的搭建是建立在我们已经有了一套完善的大数据平台之上再去搭建,推荐系统与大数据平台的依赖关系如下图:

在这里插入图片描述

大数据平台在推荐系统中扮演着关键角色,它可以被抽象为两个主要组成部分:数据中心和计算中心。

数据中心: 在数据中心,推荐系统得以存储各类数据,包括但不限于训练推荐模型所需的数据、相关的附加数据,以及最终的推荐结果数据。这一中心负责管理和存储推荐系统所需的多样化数据,构建了一个数据湖,供计算中心使用。这样的结构使得推荐系统能够更加灵活地利用各类信息,从而提升个性化推荐的质量和效果。

计算中心: 计算中心则是提供算力支持的关键部分。它负责执行各项任务,包括数据预处理、模型训练,以及模型推断。在这个中心,推荐系统利用大数据平台的强大计算资源,确保了对海量数据进行高效处理。从而,系统可以有效地学习用户行为模式,生成个性化的推荐结果。这种计算中心的支持使得推荐系统能够在面向终端用户的业务中展现出色的性能。

在大数据支撑下的人工智能技术体系中,推荐系统是备受推崇且具有极大商业价值的前台业务之一。在产品中巧妙整合推荐系统是一项涉及多方面的系统工程。为了确保推荐系统在产品中创造真正的价值,提升用户体验的同时为平台方带来更大的收益,我们可以将推荐系统的业务流程描述为一个不断迭代优化的闭环系统,如下所示:

在这里插入图片描述

  1. 数据源 (DS): 数据源是推荐系统的基础,它包括用户行为数据、物品信息、用户属性等。这些数据源在大数据中心被集中管理和存储,为推荐系统提供充足、多样的信息。
  2. 大数据中心 (DC): 大数据中心充当数据的枢纽,承担着数据的存储、处理和分析任务。它通过强大的计算资源支持推荐系统的模型训练、特征工程等计算密集型任务。
  3. 推荐系统 (RecSys): 推荐系统是连接数据中心和业务的桥梁。它利用大数据中心提供的数据进行模型训练、特征提取,最终生成个性化的推荐结果。推荐系统不断迭代优化,通过AB测试和指标体系进行验证,以保证推荐的质量和效果。
  4. 上层业务 (BIZ): 推荐系统的输出被整合到上层业务中,为用户提供个性化的产品或服务推荐。这包括商品推荐、内容推荐、广告推荐等,以提升用户体验。
  5. 闭环优化流程:
    • 数据采集与预处理: 从数据源获取用户行为数据、物品信息等,进行数据清洗和预处理。
    • 模型训练: 利用大数据中心的计算资源进行推荐模型的训练,学习用户和物品之间的关系。
    • 推荐生成: 根据训练好的模型,为每个用户生成个性化的推荐列表。
    • AB测试: 将新的推荐算法或策略与现有版本进行对比,通过AB测试验证新方案的有效性。
    • 指标评估: 利用指标体系对推荐效果进行评估,包括点击率、转化率、用户满意度等。
    • 反馈回流: 根据AB测试和指标评估结果,优化模型和算法,形成闭环迭代优化的过程。

通过这个闭环系统,推荐系统能够不断地学习和适应用户的行为变化,从而更好地满足用户的需求,提升用户体验,同时为平台方创造更大的商业价值。这种迭代优化的流程使得推荐系统在不断变化的业务和用户环境中保持高效、灵活,真正发挥其潜在的商业价值。

1.3.2推荐系统模块设计

推荐系统是一个复杂的体系工程,涉及到很多相关组件。简而言之有以下这些:

在这里插入图片描述

1.3.2.1 数据收集与存储

数据收集模块负责从多个数据源中采集用户行为数据、物品信息以及其他相关数据,为推荐系统提供训练和推断所需的信息。在设计数据收集模块之前,首先需要明确推荐系统的业务需求和目标。确定系统要收集哪些类型的数据,例如用户浏览、点击、购买行为,物品的属性、标签等信息。同时,明确数据的频率和实时性要求。确定需要收集的数据后,选择合适的数据源进行接入。常见的数据源包括:

  • 用户行为数据源: 如网站日志、移动应用日志、电商交易记录等。
  • 物品信息数据源: 包括商品数据库、内容数据库等。
  • 用户属性数据源: 包括用户注册信息、用户画像等。

制定详细的数据收集计划,包括数据采集的时间范围、频率、采集方式等。考虑到数据的多样性和实时性,可能需要采用不同的数据采集策略,包括批量采集和实时采集。确保在数据收集过程中遵循隐私和安全的最佳实践,合规地收集和处理用户数据,避免泄露敏感信息。定期评估数据收集过程的效果,根据反馈不断优化和迭代数据收集模块,以适应业务需求的变化和系统的演进。

1.3.2.2ETL

ETL(Extract, Transform, Load)模块在推荐系统中负责从原始数据源中提取数据,进行必要的转换和处理,最后加载到数据仓库或其他存储系统中。ETL可以描述为Extract、Transform、Load,其中提取数据(Extract)主要负责两个功能:

  • 实施数据源连接:通过适当的方式连接到不同的数据源,例如数据库、API、日志文件等。
  • 制定提取任务:使用ETL工具或编写脚本,执行数据提取任务。

Transform负责特征工程、数据清洗、数据合并功能,需要考虑编写转换逻辑和并行处理,加速大规模数据的转换过程。Load 加载数据确定目标存储和制定加载策略,需要设计数据表结构和执行加载任务。

1.3.2.3特征工程

特征工程在推荐系统中是至关重要的一环,它涉及从原始数据中提取、转换和选择特征,以构建能够有效训练推荐模型的输入数据。在推荐系统中,机器学习算法用于学习用户偏好,从而能够为用户提供个性化的推荐。这些算法需要接受能够被数学模型理解和处理的训练数据,通常以向量的形式表示。在这个过程中,特征工程的任务就是将原始数据通过ETL流程进行转换,以生成适合推荐算法学习的特征向量。每个特征向量的维度对应着一个特征,而这些特征则反映了用户行为、物品信息和其他上下文因素,为推荐模型提供了有意义的输入。实现的技术有Embedding技术TF-IDF时间特征处理等,这里不展开讲述。

推荐算法在上述文章有详细探讨,这里不再过多描述。

1.3.2.4存储模块

通常,推荐系统的结果并不是直接在模型推断阶段写入推荐存储数据库的,而是通过一个数据管道(例如Kafka)来进行解耦。这种做法使得整个系统更加模块化,易于维护和扩展。数据管道充当了一个中间层,将模型生成的推荐结果发送到一个独立的处理流程中,然后再将处理后的结果写入推荐存储数据库。这种架构的优势在于可以实现推荐系统的各个组件之间的解耦,提高系统的灵活性和可维护性。同时,通过使用数据管道,系统能够更好地适应未来的变化和拓展,使整个推荐流程更为可控。

二、项目实战:基于腾讯云向量数据库的客户价值体系推荐系统设计

2.1腾讯云向量数据库产品特性

现在大部分的企业服务都是直接上云进行托管或者快速进行敏捷开发,可以节省相当多的人力和技术成本,但是使用云产品需要对该产品有个大致的了解,如果想要使用向量数据库推荐使用腾讯云向量数据库,首先我们需要对向量数据库有个基本的概念,好帮助我们更好的使用腾讯云向量数据库。

OLAMA 是腾讯自研的向量引擎,具有高性能、高可用、简单易用等特点。它支持单索引10亿级向量规模,适用于 AI 运算、检索场景,已稳定服务于近40个线上业务。基于此引擎开发的数据库可支持百万级 QPS 及毫秒级查询延迟。向量数据库提供多副本高可用特性,其多可用区和三节点的架构可用性可达99.99%,显著提高系统的可靠性和容错性,确保数据库在面临节点故障和负载变化等挑战时仍能正常运行。

我们只需在管理控制台按照指引,简单操作几个步骤,即可快速创建向量数据库实例,全流程平台托管,无需进行任何安装、部署和运维操作,有效减少机器成本、运维成本和人力成本开销。向量数据库的 Embedding 功能会自动将原始文本进行转换,生成对应的向量数据并插入数据库或进行相似性检索,实现了文本到向量数据的一体化转换,减少了用户的操作步骤,极大降低了使用门槛。

那么现在我们来进行整个推荐系统的搭建。

2.2推荐系统架构搭建

首先我们设计简易基础的系统架构:

在这里插入图片描述

2.2.1创建向量数据库实例

接下来我们按着以下操作步骤来逐渐实现推荐系统的搭建。如果第一次体验的用户需要先创建私有网络:

在这里插入图片描述

现在新建向量数据库实例是免费的,推荐大家尝试:

在这里插入图片描述

之后可以直接登陆到我们的实例:

在这里插入图片描述

进入管理模块可以实时看到Embedding的Token消耗监控:

在这里插入图片描述

2.2.2连接并写入向量数据

如果没有云服务器CVM的话可以先购买一个,一定要注意的是处于不同地域的云产品内网不通,创建成功后不支持切换地域,所以如果先创建了向量数据库实例的话要记得是在哪个地区创建的。如果没有购买CVM可以配置外网访问:

在这里插入图片描述

外网访问仅适用于开发、调试或辅助管理数据库实例,正式生产业务推荐使用内网访问。开启外网访问后,可以使用系统分配的域名和端口通过外网访问向量数据库,生效时间大概需要5分钟。配置完成之后可以创建数据库:

import tcvectordb
from tcvectordb.model.enum import FieldType, IndexType, MetricType, ReadConsistency

#create a database client object
client = tcvectordb.VectorDBClient(url='公网IP', username='root', key='密码', read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY, timeout=30)
# create a database
db = client.create_database(database_name='db-test')

这样就创建了数据库,之后我们要创建数据集合,该集合需要根据我们的数据集格式和属性进行导入,具体数据在本人另一篇文章里面有具体描述:https://blog.csdn.net/master_hunter/article/details/120937164

在这里插入图片描述

经过RFM判别模型进行特征过程处理,记录三个指标:

  • 最近一次消费(Recency)
  • 消费频率(Frequency)
  • 消费金额(Monetary)

所以最后入库有三个向量,先创建集合

import tcvectordb
from tcvectordb.model.enum import FieldType, IndexType, MetricType, EmbeddingModel
from tcvectordb.model.index import Index, VectorIndex, FilterIndex, HNSWParams
from tcvectordb.model.enum import FieldType, IndexType, MetricType, ReadConsistency

#create a database client object
client = tcvectordb.VectorDBClient(url='公网IP', username='root', key='密码', read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY, timeout=30)b = client.database('db-test')
    
index = Index(
            FilterIndex(name='user_id', field_type=FieldType.String, index_type=IndexType.PRIMARY_KEY),
            FilterIndex(name='Customer_type', field_type=FieldType.String, index_type=IndexType.FILTER),
            VectorIndex(name='vector', dimension=3, index_type=IndexType.HNSW,
                        metric_type=MetricType.COSINE, params=HNSWParams(m=16, efconstruction=200))
        )        
# create a collection
# 第二步,创建 Collection         
coll = db.create_collection(
            name='RFM-vector',
            shard=1,
            replicas=2,
            description='this is a collection of test embedding',
            index=index
        )

之后插入数据:

from tcvectordb.model.collection import UpdateQuery
from tcvectordb.model.document import Document, SearchParams, Filter
from tcvectordb.model.enum import FieldType, IndexType, MetricType, ReadConsistency
from tcvectordb.model.index import Index, VectorIndex, FilterIndex, HNSWParams

coll = db.collection('RFM-vector')
         
coll = db.collection('RFM-vector')
         
res = coll.upsert(
            documents=[
                Document(id='2000001555945280',Customer_type='流失用户',vector=[6.86, 1, 7]),
                Document(id='2000001556645220',Customer_type='重要价值用户', vector=[1.75, 39, 4]),
                Document(id='2000001558047800',Customer_type='潜力价值用户', vector=[1.00, 24, 6])
            ],
            build_index=True
        )

以上我写入部分数据,批量写入设定固定参数可以批量写入。

2.2.3相似度检索

在腾讯云向量库可以直接进行相似度检索,相似度检索是基于向量之间的相似度来检索与查询向量最相似的文档的检索方式。而对于我们输入的数据而言,可以说就是用户-物品评价矩阵,在以上矩阵分解推荐算法也有说到。因此我们直接进行相似度检索:

doc_lists = coll.searchById(
                 document_ids=['2000001555945280','2000001556645220'],
                 params=SearchParams(ef200),
                 limit=3,
                 retrieve_vector=True,
                 output_fields=['Customer_type']
             )
for i, docs in enumerate(doc_lists):
                print(i)
                for doc in docs:
                        print(doc)

输出结果说明:

  • 输出的 Document ID 顺序与查询时配置的参数 document_ids 输入的顺序一致。

  • 每一个查询结果都返回 TopK 条相似度计算的结果。其中,K 为 limit 设置的数值,如果插入的数据不足 K 条,则返回实际插入的 Document 数量。

  • 检索结果会按照与查询向量的相似程度进行排列,相似度最高的结果会排在最前面,相似度最低的结果则排在最后面。相似程度则通过 L2(欧几里得距离)、IP(内积)或 COSINE(余弦相似度)计算得出的分数来衡量,输出参数 score 表示相似性计算分数。其中,欧式距离(L2)计算所得的分数越小与搜索值越相似;而余弦相似度(COSINE)与 内积(IP) 计算所得的分数越大与搜索值越相似。

之后记录score即可完成对用户价值体系的评价和物品推荐的先后程度。以上基础的推荐系统就搭建好了,腾讯云向量数据库目前是公测阶段。免费测试版实例每个账号仅限申领1个,高可用版与单机版实例免费试用时长1个月,大家可以自行体验,搭建不同体系的推荐系统。

条相似度计算的结果。其中,K 为 limit 设置的数值,如果插入的数据不足 K 条,则返回实际插入的 Document 数量。

  • 检索结果会按照与查询向量的相似程度进行排列,相似度最高的结果会排在最前面,相似度最低的结果则排在最后面。相似程度则通过 L2(欧几里得距离)、IP(内积)或 COSINE(余弦相似度)计算得出的分数来衡量,输出参数 score 表示相似性计算分数。其中,欧式距离(L2)计算所得的分数越小与搜索值越相似;而余弦相似度(COSINE)与 内积(IP) 计算所得的分数越大与搜索值越相似。

之后记录score即可完成对用户价值体系的评价和物品推荐的先后程度。以上基础的推荐系统就搭建好了,腾讯云向量数据库目前是公测阶段。免费测试版实例每个账号仅限申领1个,高可用版与单机版实例免费试用时长1个月,大家可以自行体验,搭建不同体系的推荐系统。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1247900.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UI自动化(selenium+python)之元素定位的三种等待方式!

前言 在UI自动化过程中,常遇到元素未找到,代码报错的情况。这种情况下,需要用等待wait。 在selenium中可以用到三种等待方式即sleep,implicitly_wait,WebDriverWait 一、固定等待(sleep) 导入time模块,设定固定的等待时间 缺…

【点云surface】无序点云快速三角化

1 介绍 GreedyProjectionTriangulation 是一种基于局部二维投影的三维点贪婪三角剖分算法的实现。它假定局部表面光滑,不同点密度区域之间的过渡相对平滑。 GreedyProjectionTriangulation算法的基本思想是通过逐步投影点云数据到一个三角化网格上来进行重建。它首…

Pycharm创建项目新环境,安装Pytorch

在python项目中,很多项目使用的各类包的版本是不一致的。所以我们可以对每个项目有专属于它的环境。所以这个文章就是教你如何创建新环境。 一、创建新环境 二、下载安装包 在下载安装包时,可以加入清华源,这样下载更快!不然有时…

消息推送到微信,快速实现WxPusher

文章目录 前言一、平台二、代码总结 前言 我的博客里也有其他方法,测试了下感觉这个方法还是比较实用。 一、平台 先仔细阅读下平台的使用方法。 平台地址请点击 二、代码 import requests text 孪生网络模型已经训练完成,请注意查阅相关信息。 req…

学习Pandas 二(Pandas缺失值处理、数据离散化、合并、交叉表与透视表、分组与聚合)

文章目录 六、高级处理-缺失值处理6.1 检查是否有缺失值6.2 缺失值处理6.3 不是缺失值NaN,有默认标记的 七、高级处理-数据离散化7.1 什么是数据的离散化7.2 为什么要离散化7.3 如何实现数据的离散化 八、高级处理-合并8.1 pc.concat实现合并,按方向进行…

Linux文件基础(文件查看及vim)

文件查看命令: (1)cat 1)查看文件内容(内容较少时使用):cat 文件名 2)合并文件:cat 文件名1 文件名2> 文件名3 3)往文件中写入数据,(Ctrld结束输入); (2)more more 文件名 文件内容较多时用more(空格,回车往下翻,b回滚) (3)less less 文件名 看完内容之后不会显示…

最重要的BI测试-适用于任何BI和分析平台

为什么 BI 测试是答案 相信你的数据可视化是成功执行商业智能 (BI) 和分析项目的关键因素。我敢肯定,你遇到过以下情况:业务主管或业务用户反馈说他们的分析看起来不对,他们的 KPI 看起来有问题,或者速度太慢而无法使用。要问自己…

【Spring篇】JDK动态代理

目录 什么是代理? 代理模式 动态代理 Java中常用的代理模式 问题来了,如何动态生成代理类? 动态代理底层实现 什么是代理? 顾名思义,代替某个对象去处理一些问题,谓之代理,那么何为动态&a…

项目环境配置 本地/测试/预发/生产

在本地目录下新建文件 dev测试环境 development 本地开发环境 production 生产环境 uat预发布环境 .env.dev VUE_APP_API_PATH /api # 测试 VUE_APP_API_PATH http:// # 生成dist名称 VUE_APP_DIST dist_dev .env.development # 本地开发环境 VUE_APP_API_PATH…

pat实现基于邻接矩阵表示的深度优先遍历

void DFS(Graph G, int v) {visited[v] 1;printf("%c ", G.vexs[v]);for (int i 0; i < G.vexnum; i) {if (!visited[i] && G.arcs[v][i]) DFS(G, i);} }

qPCR(荧光定量PCR)的Ct值

今天我们要说的问题&#xff0c;也是对qPCR的更高阶的认识。 1、Ct值到底是不是YYDS&#xff1f; 2、Ct值跟哪些因素有关&#xff1f; 3、同样的模板&#xff0c;Ct值大试剂盒就差吗&#xff1f;要不要换试剂盒&#xff1f; 还是从这个盗版来的图说起。你必须明白以下几个概…

政务大数据与资源平台建设解决方案:PPT全文75页,附下载

关键词&#xff1a;智慧政务解决方案&#xff0c;大数据解决方案&#xff0c;数据中心解决方案&#xff0c;数据治理解决方案 一、政务大数据与资源平台建设背景 1、政务大数据已成为智慧城市建设的必要基础 为响应国家不断加快5G基建、大数据、人工智能等新型基础设施建设布…

HTML CSS登录网页设计

一、效果图: 二、HTML代码: <!DOCTYPE html> <!-- 定义HTML5文档 --> <html lang="en"> …

开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!

论文链接&#xff1a;https://arxiv.org/pdf/2311.07919.pdf 开源代码&#xff1a;https://github.com/QwenLM/Qwen-Audio 引言 大型语言模型&#xff08;LLMs&#xff09;由于其良好的知识保留能力、复杂的推理和解决问题能力&#xff0c;在通用人工智能&#xff08;AGI&am…

MySQL与Redis如何保证数据的一致性

文章目录 MySQL与Redis如何保证数据的一致性&#xff1f;不好的方案1. 先写 MySQL&#xff0c;再写 Redis2. 先写 Redis&#xff0c;再写 MySQL3. 先删除 Redis&#xff0c;再写 MySQL 好的方案4. 先删除 Redis&#xff0c;再写 MySQL&#xff0c;再删除 Redis5. 先写 MySQL&am…

生产环境出现问题,测试人如何做工作复盘?

很多时候我们能把大部分的Bug或一些部署等问题在业务上线之前就解决了&#xff0c;但由于某些因素&#xff0c;线上问题还是时而出现&#xff0c;影响业务生产甚至是公司效益。 避免线上问题的发生以及线上问题及时处理是测试人员的一项重要职责&#xff0c;如何快速地处理&am…

0001Java程序设计-springboot基于微信小程序批发零售业商品管理系统

文章目录 **摘 要****目录**系统实现开发环境 编程技术交流、源码分享、模板分享、网课分享 企鹅&#x1f427;裙&#xff1a;776871563 摘 要 本毕业设计的内容是设计并且实现一个基于微信小程序批发零售业商品管理系统。它是在Windows下&#xff0c;以MYSQL为数据库开发平台…

Postman接口测试 —— Jenkins实现持续集成构建流程!

一、从Postman导出集合和环境变量等Json文件 将设计好的接口测试用例集合&#xff0c;局部变量&#xff0c;环境变量&#xff0c;参数文件等都放在PostmanTest目录下 二、打开Jenkins&#xff0c;创建测试项目Postman 已安装Jenkins&#xff0c;安装方法自行百度&#xff0c;Je…

PyQt6第一个程序HelloWorld实现

锋哥原创的PyQt6视频教程&#xff1a; 2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~共计12条视频&#xff0c;包括&#xff1a;2024版 PyQt6 Python桌面开发 视频教程(无废话版…

unittest指南——不拼花哨,只拼实用

&#x1f4e2;专注于分享软件测试干货内容&#xff0c;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01;&#x1f4e2;交流讨论&#xff1a;欢迎加入我们一起学习&#xff01;&#x1f4e2;资源分享&#xff1a;耗时200小时精选的「软件测试」资…