python+chdb 向量检索,百万数据秒级查询

news2024/12/22 15:36:08

随机生成向量数据集

import numpy as np
import pandas as pd

data_vectors = [(i, np.random.random(300)) for i in range(1000000)]
df = pd.DataFrame(data_vectors)
df.columns = ['idx', 'vector']
df

在这里插入图片描述

转化成parquet格式,分批转化,一次会爆炸

import pyarrow as pa
import pyarrow.parquet as pq
from tqdm.notebook import tqdm

def df2parquet(df, batch_size=100000):
    num_batch = (len(df)+batch_size-1)//batch_size
    for i in tqdm(range(num_batch)):
        table = pa.Table.from_pandas(df.iloc[i*batch_size:(i+1)*batch_size])
        pq.write_table(table, f'part_{i}.parquet')
df2parquet(df, batch_size=100000)

构造查询语句,检索相似向量

import chdb
def query(vec):
    sql = """
    SELECT idx,L2Distance(CAST(vector,'Array(Float64)'),{embeddings}) AS score FROM 
    file("part_*.parquet", Parquet) 
    ORDER BY score ASC LIMIT 5
    
    """.format(embeddings=vec)
    res = chdb.query(sql, 'Dataframe')
    return res
q = list(np.random.random(300))
query(q)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1000445.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

yolov5添加ECA注意力机制

ECA注意力机制简介 论文题目:ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 论文地址:here 基本原理 🐸 ECANet的核心思想是提出了一种不降维的局部跨通道交互策略,有效避免了降维对于通道注意…

HbuilderX uniapp项目转cli项目全过程记录

1、按照官网步骤准备环境 (1) 全局安装 vue-cli npm install -g vue/cli (2) 创建uni-app 使用正式版(对应HBuilderX最新正式版 vue create -p dcloudio/uni-preset-vue my-project 使用alpha版(对应HBuilderX最新alpha版 vue create -p dcloudio/un…

jar包依赖冲突排查思路和解决方法,以及类加载机制排查(系统原因也导致预发布环境和本地环境的差异)

冲突提示信息 「java.lang.ClassNotFoundException」:类型转换错误,本应该引入的是 logback 包的类,但是实际引入的是 slf4j 下的同名类,导致类型转换错误。 「java.lang.NoSuchMethodError」:找不到特定方法&#x…

【css】linear-gradient()的用法

linear-gradient() CSS函数创建一个由两种或多种颜色沿一条直线进行线性过渡的图像,其结果是<gradient>数据类型的对象,此对象是一种特殊的<image> 数据类型。 语法 /* 渐变轴为 45 度&#xff0c;从蓝色渐变到红色 */ linear-gradient(45deg, blue, red);/* 从右…

Transformer-2. 注意力分数

上一节记录了注意力机制的基础&#xff0c;这一节主要做几个实现&#xff0c;沐神说qkv在不同任务中的角色不一&#xff0c;所以后续内容才会搞懂qkv是啥玩意。 上节使用了高斯核来对查询和键之间的关系建模。 高斯核指数部分可以视为注意力评分函数&#xff08;attention sco…

C高级shell脚本

#!/bin/bash function fun() {sum0i0b($*)while [ $i -lt ${#b[*]} ]do((sum ${b[i]}))((i))doneecho $sum }read -p "请输入数组" -a a fun ${a[*]}function fun2() {aid -ubid -gecho $a $b } p(fun2) uid${p[0]} pid${p[1]} echo $uid $pidXMind

项目上线部署--》网站运行机制

网站运行机制 &#x1f31f;名词解释 域名 DNS 服务器 服务器 &#x1f31f; 网站请求流程 静态页面 动态页面 前后端分离的页面 前后端不分离的页面 &#x1f31f;写在最后 &#x1f31f;名词解释 域名 www.baidu.comwww.taobao.comwww.qq.com 域名俗称网址&#xf…

远程恋爱网站部署秘籍——群晖虚拟机助ni秀恩爱

文章目录 前言1. 安装网页运行环境1.1 安装php1.2 安装webstation 2. 下载网页源码文件2.1 访问网站地址并下载压缩包2.2 解压并上传至群辉NAS 3. 配置webstation3.1 配置网页服务3.2 配置网络门户 4. 局域网访问静态网页配置成功5. 使用cpolar发布静态网页&#xff0c;实现公网…

基于Python和mysql开发的看图猜成语微信小程序(源码+数据库+程序配置说明书+程序使用说明书)

一、项目简介 本项目是一套基于Python和mysql开发的看图猜成语微信小程序&#xff0c;主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Python学习者。 包含&#xff1a;项目源码、项目文档、数据库脚本等&#xff0c;该项目附带全部源码可作为毕设使用。 项目都…

C高级 第四天

#!/bin/bash#1.实现一个对数组求和的函数,数组通过实参传递给函数 read -p "输入数组" -a arr sum0 function add() {for i in ${arr[*]}do((sumi))done } add arr echo $sum#2.写一个函数,输出当前用户的uid和gid,并使用变量接收结果 function my_id() {num1id -unu…

Prometheus-PushGateway自定义监控项

文章目录 一、前言二、PushGateway安装三、PushGateway的使用四、PushGateway脚本思路 一、前言 pushgateway相比较exporter是主动向服务器发送请求&#xff0c;pushgateway本身也是一个程序&#xff0c;可以运行在任意节点上(不是必须在被监控端)&#xff0c;运行本身没有抓取…

固态硬盘(Solid State Disk)上的数据丢失了,我们要如何恢复?

文章目录 固态硬盘简介固态硬盘数据恢复立即停止使用SSD从备份恢复数据使用专业数据恢复工具使用数据恢复服务避免DIY尝试 如何避免SSD数据丢失推荐阅读 固态硬盘简介 固态硬盘&#xff08;Solid State Disk或Solid State Drive&#xff0c;简称SSD&#xff09;&#xff0c;是…

Ubuntu使用命令行界面配置静态IP地址

参考地址&#xff1a;https://www.zhihu.com/tardis/sogou/art/46544606 方法一&#xff1a;配置/etc/network/interfaces文件 首先查看网卡接口名称&#xff1a;ip a 知道网卡接口名称之后&#xff0c;在 /etc/network/interfaces 文件中配置&#xff1a; auto enp0s31f6 …

什么是“企业级”无代码?无代码平台应具备哪些功能

一、企业级无代码是什么&#xff1f; 近年来&#xff0c;随着产品成熟度的不断提高&#xff0c;一种针对企业深度业务场景和综合性需求的新的无代码概念——“企业级无代码”应运而生。那么“企业级”无代码是什么呢&#xff1f;为什么说它更好呢&#xff1f;接下来我们就来探讨…

java树结构递归编码(innercode)

1、数据表 如下&#xff1a; 有一个设备类别表&#xff0c;分类具有树结构的层级关系 id为本身id&#xff0c;parent_id为父节点id&#xff0c;type_name 类别名称&#xff0c; type_level 类别层级&#xff0c; type_code 类别编码。 把type_code根据层级编码为innercode的…

二维多孔介质图像的粒度分布研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

【量化分析】Python 布林线( Bollinger)概念

一、说明 布林线(BOLL)&#xff0c;Bollinger Bands&#xff0c;利用统计原理&#xff0c;求出股价的标准差及其信赖区间&#xff0c;从而确定股价的波动范围及未来走势&#xff0c;利用波带显示股价的安全高低价位&#xff0c;因而也被称为布林带。 二、布林带基本概念 布林线…

固定资产管理数据怎么算?

在企业的运营中&#xff0c;固定资产的管理是一个至关重要的环节。然而&#xff0c;对于许多企业来说&#xff0c;理解和管理这些资产的数据却常常是一团迷雾。那么&#xff0c;固定资产管理数据究竟应该如何计算呢&#xff1f;这是一个需要我们深入探讨的问题。  我们需要明…

OpenCV(三十六):霍夫直线检测

1.检测直线的霍夫变换原理 2.检测直线函数HoughLines() 检测直线流程: Step1:将参数空间的坐标轴离散化。 Step2:将图像中每个非0像素通过映射关系求取在参数空间通过的方格 Step3:统计参数空间内每个方格出现的次数&#xff0c;选取次数大于某一值的方格作为表示直线的方格…

分享一个python+django开发的高校学生成绩可视化分析系统源码、lw、调试

&#x1f495;&#x1f495;作者&#xff1a;计算机源码社 &#x1f495;&#x1f495;个人简介&#xff1a;本人七年开发经验&#xff0c;擅长Java、Python、PHP、.NET、微信小程序、爬虫、大数据等&#xff0c;大家有这一块的问题可以一起交流&#xff01; &#x1f495;&…