2.创建Collection、添加索引、加载内存、预览和搜索数据

news2026/2/16 19:44:09

milvus官方文档

milvus2.3.1的官方文档地址: https://milvus.io/docs/v2.3.x

使用attu创建collection

collection必须要有一个主键字段、向量字段

确保字段类型与索引类型兼容

字符串类型（VARCHAR）通常需要使用 Trie 索引，而不是 AutoIndex

使用代码连接milvus数据库，创建collection结构，并插入数据

import uuid

import numpy as np

from pymilvus import(
    connections,
    FieldSchema, CollectionSchema, DataType,
    Collection,
)

collection_name = "first_milvus"
host = "192.168.171.130"
port = 19530
username = ""
password = ""
num_entities, dim = 1000, 128
total_num = 3000


def generate_uuids(number_of_uuids):
    # uuid.uuid4() 产生随机数
    # str(uuid.uuid4()) 将随机数转成str
    # _ in range(number_of_uuids) 产生多少个_(占位符),存放随机数，组成一个list
    uuids = [str(uuid.uuid4()) for _ in range(number_of_uuids)]
    return uuids


print("start connecting to milvus")
connections.connect("default", host=host, port=port, user=username, password=password)

fields = [
    FieldSchema(name="pk", dtype=DataType.INT64, is_primary=True, auto_id=False),
    FieldSchema(name="random", dtype=DataType.DOUBLE),
    FieldSchema(name="comment", dtype=DataType.VARCHAR, max_length=200),
    FieldSchema(name="embeddings", dtype=DataType.FLOAT_VECTOR, dim=dim)
]

schema = CollectionSchema(fields, "first_milvus is the simplest demo to introduce the APIS")
coll = Collection(collection_name, schema, consistency_level="Bounded", shards_num=1)
# seed=19530 设置了随机数生成器的种子，确保每次运行代码时生成的随机数序列是相同的（可重复性）。
rng = np.random.default_rng(seed=19530)

# entities = [
#     [0, 1, 2],  # 实体 ID
#     [0.123, 0.456, 0.789],  # 随机属性
#     ['uuid1', 'uuid2', 'uuid3'],  # UUID
#     [[0.123, 0.456], [0.789, 0.012], [0.345, 0.678]],  # 特征向量
# ]

entities = [
    # 生成一个从 0 到 num_entities - 1 的整数列表
    [i for i in range(num_entities)],
    # 随机数生成器 rng 生成 num_entities 个随机浮点数，范围在 [0, 1) 之间
    # tolist() 将 NumPy 数组转换为 Python 列表
    # 如果 num_entities = 3，可能生成 [0.123, 0.456, 0.789]
    rng.random(num_entities).tolist(),
    # 生成一个包含 num_entities 个 UUID 字符串的列表, 列表可能用于为每个实体分配一个全局唯一的标识符
    generate_uuids(num_entities),
    # 使用随机数生成器 rng 生成一个形状为 (num_entities, dim) 的二维 NumPy 数组
    # num_entities表示二维数组中有几个数组，dim表示第二层数组里面有几个元素
    rng.random((num_entities, dim)),
]
insert_result = coll.insert(entities)
coll.flush()
print("done")