【腾讯云云上实验室】向量数据库与数据挖掘分析的黄金组合指南

news2025/4/15 17:29:21

前言:

在当今信息化时代,掌握对数据进行挖掘和分析的能力变得愈发关键。根据需求精准处理数据不仅仅是一项技能,更是对未来决策和操作的至关重要的支持。除了熟练运用适当的算法模型对大数据进行挖掘和分析外,合理高效存储和处理大量数据,对开发者和企业来说变得越来越重要。

在这里插入图片描述

文章目录

  • 一、走近腾讯云向量数据库
  • 二、助力数据收集和处理
  • 三、数据挖掘和分析使用指南
    • 1. 准备工作
    • 2. 数据操作演示(平台端)
    • 3. 数据操作演示(SDK接入)
    • 4. 以汽车相关数据进行分析预测
  • 四、大数据时代下的数据挖掘的未来趋势
  • 五、总结

前几天,和往常一样下班后回家打开电脑学一会,偶然机会看到了腾讯云刚发布的向量数据库体验活动,刚好最近手头的工作也忙完了,于是下意识也报名申请了一个体验名额。在体验使用的时候,也融入了一些对数据进行分析和挖掘的算法。
在这里插入图片描述

整体使用感觉也非常棒,经过这几天的整理和总结,能够帮助不了解或者没使用过的小伙伴快速熟悉并且有一定的上手。(腾讯云向量数据库:感兴趣的小伙伴可以去申请名额体验)

一、走近腾讯云向量数据库

看到向量数据库你可能会想到数据库,但是它和传统数据库相比有鲜明的优点。可能有不少朋友在平常工作或者生活中,或多或少都接触过一些关于向量数据库的消息,作为一个全能的程序员,除了关注底层的逻辑外,清晰明了向量数据库发展的方向和未来趋势,能否抓住这个在发展风口机会。我们还需要去了解,让我来以腾讯云向量数据库为例给你讲讲吧。

在这里插入图片描述
随着AI技术的快速发展,越来越多的公司和企业开始重视底层数据的合作探索。在将大型模型应用于实际场景中,数据处理和挖掘变得至关重要。向量数据库作为支撑大型模型的关键基础设施,将在个人、企业和社交媒体等领域发挥越来越重要的作用。

总的来说:向量数据库的优势在于高效的向量相似性搜索、高维数据处理、特定索引结构、异构数据类型支持,适用于机器学习和深度学习、大规模数据处理,提供实时性能。选择使用向量数据库应基于应用需求和性能评估。

二、助力数据收集和处理

每天,每个人都面临来自各个渠道的数千条信息。而对于开发者和企业用户而言,每天需要处理的信息量更是以万计甚至千亿计。信息的接收和处理成为一个极具挑战性的任务。。
在这里插入图片描述
往往让开发者和企业在处理数据方面头疼的问题不外乎:

1. 如何适应业务数据快速变化的需求?

2. 如何保障数据安全?

3. 如何实现业务系统对高实时响应的要求?

4. 如何在多样化的销售和服务场景中?

腾讯云向量数据库由于其卓越的稳定性、性能、易用性和便捷的运维,都展现出了显著优势,能够提供高效稳定的服务。

  1. 高性能: 向量数据库单索引支持10亿级向量数据规模,可支持百万级 QPS 及毫秒级查询延迟。
  2. 高可用: 向量数据库提供多副本高可用特性,其多可用区和三节点的架构可用性可达99.99%,显著提高系统的
  3. 可靠性和容错性:确保数据库在面临节点故障和负载变化等挑战时仍能正常运行。
  4. 大规模: 向量数据库架构支持水平扩展,单实例可支持百万级 QPS,轻松满足 AI 场景下的向量存储与检索需求。
  5. 低成本: 只需在管理控制台按照指引,简单操作几个步骤,即可快速创建向量数据库实例,全流程平台托管,无需进行任何安装、部署和运维操作,有效减少机器成本、运维成本和人力成本开销。
  6. 简单易用: 支持丰富的向量检索能力,用户通过 HTTP API 接口即可快速操作数据库,开发效率高。同时控制台提供了完善的数据管理和监控能力,操作简单便捷。
  7. 稳定可靠: 向量数据库源自腾讯集团自研的向量检索引擎 OLAMA,近40个业务线上稳定运行,日均处理的搜索请求高达千亿次,服务连续性、稳定性有保障。

三、数据挖掘和分析使用指南

在这里插入图片描述

1. 准备工作

  1. 首先我们需要去申请一台向量数据库 腾讯云向量数据库申请 ,登录进入后,点击新建。如图,是已经构建好的向量数据库
    在这里插入图片描述
  2. 配置向量数据库实例相关信息
  3. 创建好向量数据库后,可以查看相关的配置信息,包括内网外网访问地址,以及密钥信息在这里插入图片描述
  4. 创建好向量数据库后,点击登录,来到向量数据库登录界面,如图需要账号和密码账号默认是root,密码是向量数据库配置中的密钥在这里插入图片描述
  5. 登录进去后,可以看到先向量数据库管理模块和数据操作模块。管理模块可以创建向量数据库,管理集合。数据操作模块可以进行精确、相似度查询、插入/替换、更新、删除数据。

在这里插入图片描述

2. 数据操作演示(平台端)

腾讯云向量数据库支持多种方式操作向量数据库,包括:使用平台数据操作模块操作,或者接入Python,Java以及HttpAPI来进行操作,在这里我演示一下平台数据操作和接入Python的SDK使用。

1.插入/更新 参数数据 支持以json格式插入数据

在这里插入图片描述
2.精确查询 参数支持以 表单和JSON两种格式根据不同情况(包括:主键和条件进行查询)

在这里插入图片描述
3.相似度查询 可以根据不同格式进行检索,同时也支持条件查询和主键查询,这一步会检索出结果有相似程度的数据

在这里插入图片描述
4.删除数据 可以根据条件查询删除,同时也可以根据主键去删除

在这里插入图片描述

3. 数据操作演示(SDK接入)

1.官方提供了多种接入方式,在这里我以Python为例子,进行接入 腾讯云向量数据库API文档

在这里插入图片描述
2.以Python为例,本地连接远程向量数据库
首先需要导入依赖:

pip install tcvectordb

然后连接远程向量数据库,这一块url 输入你的向量数据库外网地址,apikey输入你的向量数据库密钥

import tcvectordb
from tcvectordb.model.enum import FieldType, IndexType, MetricType, ReadConsistency

#这一块url 输入你的向量数据库外网地址,apikey输入你的向量数据库密钥
client = tcvectordb.VectorDBClient(url='http://10.0.X.X', username='root', key='eC4bLRy2va******************************', read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY, timeout=30)
# 连接到数据库
db = client.database('test')

# 获取或创建集合
coll = db.collection("test_1")

3.连接好后,就可以对向量数据库中数据进行相关操作,通过查看文档API,可以实现刚才第二步骤上的平台数据操作流程,下面举几个例子

文档4. 如下图所示,可以根据文档进行代码编写,实现数据库和数据库中集合的相关操作

在这里插入图片描述

4. 以汽车相关数据进行分析预测

目的:通过数据分析根据二手汽车行驶的公里来预测汽车的二手价格

1.原数据:总共几万条二手汽车信息数据,处理之后存入向量数据库中,模拟实际情况

在这里插入图片描述
这里是处理一些脏数据,然后存入向量数据库中

def hadnle(data):
    data = data[data.Km != '百公里内']
    data = data[data.Boarding_time != '未上牌']
    data = data[data.New_price != '暂无']
    data = data[['Km', 'Sec_price', 'Boarding_time', 'New_price']]
    data['New_price'] = data['New_price'].apply(lambda x: float(x.strip('万')))

    def km_to_float(x):
        return float(x.strip('万公里'))

    data['Km'] = data['Km'].apply(km_to_float)
    data['Boarding_time'] = (pd.to_datetime(data['Boarding_time'], format='%Y年%m月') - pd.to_datetime(
        '2000-01-01')).dt.days / 30
    data['Sec_price'] = data['Sec_price'].apply(lambda x: float(x))
    return data

2.通过将部分汽车数据存储在向量数据库的集合中

在这里插入图片描述

3.可以通过学习官方API提取出想要的数据:

在这里插入图片描述
举例:根据需求从对应向量数据库的集合中提取中想要的数据

import tcvectordb
from tcvectordb.model.enum import FieldType, IndexType, MetricType, ReadConsistency
from tcvectordb.model.index import Index, VectorIndex, FilterIndex, HNSWParams
from tcvectordb.model.document import Document, Filter, SearchParams

#create a database client object
client = tcvectordb.VectorDBClient(url='http://10.0.X.X', username='root', key='eC4bLRy2va******************************', read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY, timeout=30)

db = client.database('db-test')
coll = db.collection('book-vector')

# Set filter
filter_param=Filter(Filter.In("bookName",["三国演义", "西游记"]))
# query 
doc_list = coll.query(document_ids=['0001','0002','0003'], retrieve_vector=True, filter=filter_param, limit=3, offset=0, output_fields=['bookName','author'])

for doc in doc_list:
          print(doc)

4.通过机器学习方法对需要的数据进行分析:(具体情况根据)
线性回归分析:

data = hadnle(data)

# 根据需要选择输入和输出特征
X = data[['Km','Boarding_time','New_price']]
Y = data['Sec_price']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# 使用线性回归模型
model = linear_model.LinearRegression()

#训练模型
model.fit(X_train, y_train)

# 用测试集评估模型性能
y_pred = model.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

分析结果:
在这里插入图片描述

5.决策树回归模型分析:

data = hadnle(data)
# 根据需要选择输入和输出特征
X = data[['Km','Boarding_time','New_price']]
Y = data['Sec_price']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# 创建决策树回归模型
model = DecisionTreeRegressor(random_state=42)

#训练模型
model.fit(X_train, y_train)

# 用测试集评估模型性能
y_pred = model.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

分析结果:
在这里插入图片描述

6.随机森林模型分析:

data = hadnle(data)
# 根据需要选择输入和输出特征
X = data[['Km','Boarding_time','New_price']]
Y = data['Sec_price']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

#随机森林
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

#训练模型
model.fit(X_train, y_train)

# 用测试集评估模型性能
y_pred = model.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

分析结果:
在这里插入图片描述

四、大数据时代下的数据挖掘的未来趋势

通过在向量数据库中存储经过AI模型训练的向量嵌入,能够实现高效的相似度搜索和近邻查询,从而显著提升查询速度。向量数据库不仅支持多模态数据的存储和检索,还能够处理各种不同类型的数据,包括文本、图像和音频等。这对于多模态AI应用,如视觉与语义检索以及多模态生成等,具有重要意义。

随着实时性能的不断提升,向量数据库将更好地满足实时数据检索和分析的需求,对预测分析、信息处理等领域产生深远的影响。我们可以期待数据库未来支持更多数据类型,包括但不限于图像、文本和音频,以更好地适应多模态数据的存储和检索。总体而言,向量数据库将为数据处理领域带来创新,为各行业提供更高效、智能的数据管理服务。

五、总结

通过这个参与活动体验腾讯云向量数据库,整体感觉使用起来非常棒,感兴趣的小伙伴可以通过下方方式了解更多信息,体验和使用向量数据库进行开发。也祝腾讯云向量数据库越来越好。
大数据时代下的数据挖掘的未来趋势

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1248500.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文件批量重命名技巧:图片文件名太长怎么办?告别手动改名方法

在日常生活中,常常会遇到文件名过长导致的问题。尤其是在处理大量图片文件时,过长的文件名可能会使得文件管理变得混乱不堪。现在来看下云炫文件管理器如何批量重命名,让图片文件名变得更简洁,提高工作效率。 操作1、在云炫文件…

Nginx模块开发之http handler实现流量统计(2)

文章目录 一、概述二、Nginx handler模块开发2.1、代码实现2.2、编写config文件2.3、编译模块到Nginx源码中2.4、修改conf文件2.5、执行效果 总结 一、概述 上一篇【Nginx模块开发之http handler实现流量统计(1)】使用数组在单进程实现了IP的流量统计&a…

698. 划分为k个相等的子集

698. 划分为k个相等的子集 Java:回溯 class Solution {boolean[] used;int target;private boolean backtracking(int[] nums, int k, int sum, int start) {if (k 0) {return true; // 找到:立即中断栈!并返回值}if (sum target) { // 构…

中国企业500强的排名也在不断变化。面对不确定性的挑战,企业如何应对?

随着全球经济的不断发展和变化,中国企业500强的排名也在不断变化。面对不确定性的挑战,企业如何应对?在本文中,挖数据平台将提供数据源探讨中国企业500强在应对不确定性方面的突围与变革。 一、数据挖掘与分析 从2006年到2023年&…

【电子通识】为什么说做产品不是简单的将不同的技术进行搭积木?

很多人说做产品的硬件工程师,其实就是将专项技术工程师已经调好的模块进行拼接。类似于小孩将积木搭成一个房子的形状,虽然不同人搭的房子风格迥异,但所使用的原材料却都是一样的。 首先我并不同意这种看法,原因是产品工程师是需要…

搞笑的客服日常,今天遇到的晒白客服,你遇到过吗?

大家看看这个 https://blog.csdn.net/a871923942/article/details/129778391?utm_mediumdistribute.pc_feed_404.none-task-blog-2 今天遇到傻逼审核 开头第一句就使用快捷话术 客服感觉自己发错了 然后就撤回消息 第二次继续发话术,说违规,审核不通过…

STM32入门--CAN

目录 一、bxCan简介 二、bxCAN总体描述 2.1概述 2.2CAN框图 三、bxCA的工作模式 3.1初始化模式 3.2正常模式 3.3睡眠模式(低功耗) 四、测试模式 4.1静默模式 4.2环回模式 五、bxCAN功能描述 5.1 发送处理 ​编辑 5.2接收管理 5.2.1 标识符过…

基于食肉植物算法优化概率神经网络PNN的分类预测 - 附代码

基于食肉植物算法优化概率神经网络PNN的分类预测 - 附代码 文章目录 基于食肉植物算法优化概率神经网络PNN的分类预测 - 附代码1.PNN网络概述2.变压器故障诊街系统相关背景2.1 模型建立 3.基于食肉植物优化的PNN网络5.测试结果6.参考文献7.Matlab代码 摘要:针对PNN神…

CAN实验

CAN 寄存器 HAL库函数 代码 #include "./BSP/CAN/can.h"CAN_HandleTypeDef g_can1_handle; CAN_TxHeaderTypeDef g_can1_txheader; CAN_RxHeaderTypeDef g_can1_rxheader;/* STM32F103 TS1 8 TS2 7 BRP 3 波特率:36000 / [(9 8 1) * 4] 500Kbps …

甲烷产生及氧化

温室气体排放被认为是加速气候变化的重要因素,甲烷(CH4)是仅次于二氧化碳(CO2)的重要温室气体,其百年温室效应潜势是CO2的28倍[1-2]。湿地中的CH4由产甲烷古菌在水体底部或沉积层严格厌氧环境下产生并释放进入水体,产生的CH4向上覆水运输过程…

【沐风老师】在3dMax中如何把对象随机散布在表面上?

在3dMax中如何把对象随机散布在表面上? 在这个教程中,给大家讲解在3dMax中如何把对象随机散布到另一个对象的表面上。有不少3dMax的初学者在将对象分布在随机表面上时感到手足无措。如果,将每个对象手动放置在表面上并花时间调整每个对象根本…

卷积神经网络(Inception V3)识别手语

文章目录 一、前言二、前期工作1. 设置GPU(如果使用的是CPU可以忽略这步)2. 导入数据3. 查看数据 二、数据预处理1. 加载数据2. 可视化数据3. 再次检查数据4. 配置数据集 三、构建Inception V3网络模型1.自己搭建2.官方模型 五、编译六、训练模型七、模型…

C++模拟如何实现vector的方法

任意位置插入,insert的返回值为新插入的第一个元素位置的迭代器;因为插入可能会进行扩容,导致start的值改变,所以先定义一个变量保存pos与start的相对位置;判断是否需要扩容;从插入位置开始,将所…

Qt学习(2)

1.QObject 只有继承了QObject类的类,才具有信号槽的能力。所以,为了使用信号槽,必须继承QObject。凡是QObject类(不管是直接子类还是间接子类),都应该在第一行代码写上Q_OBJECT。不管是不是使用信号槽&…

dom api

dom的全称为Document Object Model,即文档对象模型.所谓文档就是html页面,对象就是js里的对象,通过这个模型把页面上的元素和js里的对象关联起来. 下面是关于dom api的一些常用方法 1.获取元素 使用querySelector()方法获取一个元素 使用querySelectorAll()方法获取所有元素 当…

MediaCodec详解

MediaCodec 是Android平台提供的一个API,用于对音频和视频数据进行编码(转换为不同的格式)和解码(从一种格式转换回原始数据)。它是Android 4.1(API级别16)及以上版本的一部分,允许开…

【C语言】函数(四):函数递归与迭代,二者有什么区别

目录 前言递归定义递归的两个必要条件接受一个整型值(无符号),按照顺序打印它的每一位使用函数不允许创建临时变量,求字符串“abcd”的长度求n的阶乘求第n个斐波那契数 迭代总结递归与迭代的主要区别用法不同结构不同时间开销不同…

【Python】实现一个简单的区块链系统

本文章利用 Python 实现一个简单的功能较为完善的区块链系统(包括区块链结构、账户、钱包、转账),采用的共识机制是 POW。 一、区块与区块链结构 Block.py import hashlib from datetime import datetimeclass Block:"""区…

智能头盔天眼摄像头、单兵执法记录仪等配合MESH自组网在应急指挥调度中的应用

智能头盔、天眼摄像头、头盔记录仪、头盔摄像头、单兵执法记录仪等配合MESH自组网在应急指挥调度中的应用。 20人背负单兵自组网(带手咪)到训练场,戴头盔,头盔上放头盔式摄像头,大功率自组网设置在制高点,…

改进YOLOv8 | YOLOv5系列:RFAConv续作,即插即用具有任意采样形状和任意数目参数的卷积核AKCOnv

RFAConv续作,构建具有任意采样形状的卷积AKConv 一、论文yolov5加入的方式论文 源代码 一、论文 基于卷积运算的神经网络在深度学习领域取得了显著的成果,但标准卷积运算存在两个固有缺陷:一方面,卷积运算被限制在一个局部窗口,不能从其他位置捕获信息,并且其采样形状是…