开源模型应用落地-工具使用篇-获取文本向量（五）

news2025/4/9 0:17:27

一、前言

在之前学习的"
开源模型应用落地-工具使用篇"系列文章中，我们已经学会了如何使用向量数据库。然而，还有一个问题一直未解决，那就是如何处理文本向量。在本文中，我们将继续深入学习关于向量的知识，特别是如何处理文本向量。

二、术语

2.1、文本向量

是将文本表示为数值向量的一种方法。文本向量可以捕捉到文本的语义和语法信息，使得我们可以在向量空间中对文本进行比较、计算相似度或应用机器学习等算法进行文本分类、情感分析、机器翻译等自然语言处理任务。

常见的文本向量表示方法包括：

One-Hot向量：将每个单词表示为一个高维向量，其中只有一个维度为1，其余维度为0。每个单词都有一个独特的向量表示。
词袋模型（Bag-of-Words）：将文本表示为单词的计数向量。每个维度表示一个单词，向量中的值表示该单词在文本中出现的次数。
TF-IDF向量：根据词频-逆文档频率（TF-IDF）计算每个单词在文本中的重要性，并将文本表示为TF-IDF值的向量。
词嵌入向量：通过将单词映射到一个低维连续向量空间中，捕捉单词之间的语义关系。常见的词嵌入模型包括Word2Vec、GloVe和FastText。
句子向量：将整个句子或文本表示为一个向量。这可以通过对文本中所有词嵌入向量取平均值或使用更复杂的模型（如循环神经网络或Transformer）来实现。

2.2、获取文本向量的方法

基于预训练模型的词嵌入：使用预训练的词嵌入模型（例如Word2Vec、GloVe或FastText）可以将每个单词映射到一个向量空间中的固定维度向量。为了获取整个文本的向量表示，可以简单地对文本中所有单词的向量取平均值或加权平均值。
基于深度学习的模型：使用深度学习模型（如循环神经网络（RNN）或卷积神经网络（CNN））可以学习文本的表示。这些模型可以将整个文本作为输入，并输出一个固定维度的向量表示。例如，在自然语言处理任务（如情感分析或文本分类）中，可以使用RNN或CNN模型对文本进行建模，并使用模型中最后一个隐藏层的输出作为文本的向量表示。
基于Transformer的模型：Transformer模型，如BERT（Bidirectional Encoder Representations from Transformers），可以学习上下文相关的词嵌入表示。BERT模型可以将整个文本作为输入，并为每个单词生成一个向量表示。为了获取整个文本的向量表示，可以使用BERT模型中的特定层的输出，例如CLS（分类）标记的输出。
使用已训练的向量表示：有一些已经训练好的文本向量表示可供使用，如Universal Sentence Encoder（USE）或InferSent。这些模型已经在大规模文本语料库上进行了训练，并可以将整个文本映射到一个固定维度的向量空间中。

三、技术实现

3.1、通过开源模型实现

# 下载模型文件，例如qwen模型

def loadTokenizer(model_path):
    tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
    return tokenizer

def getVector(model_path, content):
    tokenizer = loadTokenizer(model_path)

    inputs = tokenizer(content, return_tensors='pt')
    # 设置打印选项，禁用科学计数法
    torch.set_printoptions(sci_mode=False)

    return inputs["input_ids"].float().numpy()[0]

if __name__ == '__main__':
    model_path = 'E:\\model\\qwen-7b-chat'
    input = "今天天气晴朗，心态正好"
    vector = getVector(model_path,input)
    print(vector)

输出：

#换成baichuan的模型

if __name__ == '__main__':
    model_path = 'E:\\model\\baichuan2-7B-chat'
    input = "今天天气晴朗，心态正好"
    vector = getVector(model_path,input)
    print(vector)

输出：

3.2、通过GPT实现

# 若未安装openai包，请先执行pip install openai

# 安装其他依赖包，pip install numpy

def normalize_l2(x):
    x = np.array(x)
    if x.ndim == 1:
        norm = np.linalg.norm(x)
        if norm == 0:
            return x
        return x / norm
    else:
        norm = np.linalg.norm(x, 2, axis=1, keepdims=True)
        return np.where(norm == 0, x, x / norm)

def getVector(dim,input):
    client = OpenAI(api_key=API_KEY)

    response = client.embeddings.create(
        model="text-embedding-3-small", input=input, encoding_format="float"
    )

    cut_dim = response.data[0].embedding[:dim]
    norm_dim = normalize_l2(cut_dim)
    return norm_dim

if __name__ == '__main__':
    dim = 128
    input = "今天天气晴朗，心态正好"
    vector = getVector(dim,input)
    print(type(vector))
    print(vector)

输出：