手把手教你:用sentence-transformers库进行文本嵌入

news2025/1/15 23:45:03

在 Python 中使用 sentence-transformers 库进行实操,你可以按照以下步骤进行:

在这里插入图片描述

1. 安装 sentence-transformers

首先,确保你已经安装了 sentence-transformers。如果没有,可以通过 pip 安装:

pip install sentence-transformers

2. 导入库并加载预训练模型

from sentence_transformers import SentenceTransformer

# 加载预训练模型,这里以 'all-MiniLM-L6-v2' 为例
model = SentenceTransformer('all-MiniLM-L6-v2')

3. 编码句子

将你想要处理的句子列表传递给模型,模型会返回这些句子的嵌入表示(向量形式)。

# 定义一些句子
sentences = ["我喜欢晴天。", "我讨厌下雨。", "晴天让我很开心。"]

# 使用模型对句子进行编码
sentence_embeddings = model.encode(sentences)

4. 计算句子之间的相似度

使用模型的 similarity 方法可以计算句子之间的相似度。

# 计算第一个句子和其他句子的相似度
for i, emb in enumerate(sentence_embeddings):
    if i == 0:
        continue  # 跳过第一个句子与自己的比较
    sim = model.similarity(sentence_embeddings[0], emb)
    print(f"与第一个句子的相似度:{sim}")

5. 语义搜索

如果你想找到与某个句子最相似的其他句子,可以使用以下方法:

from sentence_transformers import util

# 定义查询句子
query = "今天天气真好。"

# 计算查询句子的嵌入
query_embedding = model.encode([query])[0]

# 计算查询句子与句子列表中每个句子的相似度
similarities = util.pytorch_cos_sim(query_embedding, sentence_embeddings)

# 打印最相似的句子及其相似度
most_similar_idx = similarities.argmax()
print(f"最相似的句子:{sentences[most_similar_idx]},相似度:{similarities[0, most_similar_idx]}")

6. 微调模型

如果你有特定的数据集,你还可以微调模型以适应你的特定任务。这涉及到准备数据集、定义损失函数、设置训练参数等。

from sentence_transformers import SentencesDataset, losses

# 假设你有一个句子对列表和它们之间的相似度标签
train_pairs = [("我喜欢晴天。", "晴天让我很开心。", 1), ("我喜欢晴天。", "我讨厌下雨。", 0)]
train_dataset = SentencesDataset(train_pairs, model)

# 定义损失函数,这里使用余弦相似度损失
train_loss = losses.CosineSimilarityLoss(model)

# 训练模型(这里仅为示例,实际训练需要更多数据和参数设置)
model.fit(train_dataset, train_loss, epochs=1)

7. 保存和加载模型

训练完成后,你可以将模型保存到磁盘上,以便将来使用。

# 保存模型
model.save('my_sentence_transformer_model')

# 加载模型
model = SentenceTransformer('my_sentence_transformer_model')

这些步骤提供了一个基本的框架,你可以根据自己的需求进行调整和扩展。更多高级功能和应用,可以参考 sentence-transformers 的官方文档。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2093353.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

图像去噪评论:从经典到最先进的方法

系列文章目录 文章目录 系列文章目录前言摘要1 引言1.1.噪声抑制 2. 空间域过滤2.1.局部滤波器2.2.非局部滤波器 3.变换域滤波3.1.阈值3.1.1. 通用阈值3.1.2. VISUShrink3.1.3.SURE收缩3.1.4.BayesShrink3.1.5.概率收缩3.1.6.SURELET3.1.7.Neigh Shrink Sure(NSS&am…

十一头像红旗怎么弄的?3个方法轻松教会你!

国庆佳节渐行渐至,朋友圈里早已掀起了一股更换国庆主题头像的热潮!那些五彩斑斓、光彩夺目的渐变国旗头像,既美观又富有节日气氛。如果你也想加入这个行列,那么如何动手制作呢?别担心,接下来我将为你介绍三…

求解组合优化问题的具有递归特征的无监督图神经网络

文章目录 ABSTRACT1 Introduction2 Related Work3 QRF-GNN方法4 数值实验4.1 MAX-CUTABSTRACT 介绍了一种名为QRF-GNN的新型算法,有效解决具有二次无约束二进制优化(QUBO)表述的组合问题。依赖无监督学习,从最小化的QUBO放松导出的损失函数。该架构的关键组成部分是中间GNN…

服务端之Node的QQ邮件发送功能、授权码申请流程、邮箱、createTransport、sendMail

MENU 前言邮箱授权码的申请流程Node连续发送邮件失败的原因 前言 1、代码段的主要功能是通过nodemailer模块从一个QQ邮箱发送电子邮件。 2、代码段实现从QQ邮箱1283077926qq.com发送一封邮件到2506562048qq.com,邮件主题为“微信公众号推广”,正文为“亲…

Docker私有镜像仓库Harbor安装并推拉镜像

1.环境信息 前置要求: linux:Oracle Linux Server release 7.9 docker:26.1.4 安装: docker-compose: Docker Compose version v2.29.2 harbor:v2.11.1 2.下载安装说明 docker-compose下载: https://githu…

Vue(八) localStorage、组件的自定义事件、Todo案例修改

文章目录 一、浏览器本地存储1. 相关API2. Todo案例中的应用 二、组件的自定义事件1. 回顾props传值方式2. 绑定自定义事件(1)方式一:v-on或(2)方式二: ref 3. 解绑自定义事件4. 注意点总结 三、Todo案例采…

【机器学习】在 scikit-learn 中,有哪些特征编码方法?分布详细举例列出

一、在scikit-learn中,有多种特征编码方法可以用来处理分类数据,以下是一些常见的编码方法及其示例: One-Hot Encoding (独热编码): 使用 OneHotEncoder 类将分类特征转换为二进制向量。例如,对于颜色特征 [red, blue, green]&…

day01项目概述、环境搭建

1 软件开发整体介绍 软件开发流程 角色分工 软件环境 2 苍穹外卖项目介绍 项目介绍 产品原型 技术选型 3 开发环境搭建 前端环境搭建 注意: - Nginx目录必须放在没有中文的目录中才能正常运行 - 当前Nginx的配置文件中已经配置了反向代理,通过此配置…

面试SQL题的水到底有多深?一文带你揭晓

不谋万世者,不足谋一时;不谋全局者,不足谋一域 目录 0 面试现状 1 面试SQL题目的难度及特点 1.1 题目场景化 1.2 题目算法化 1.3 方法多元化 2 破局之道 3 总结 数字化建设通关指南 主要内容: (1)SQL进阶实…

ChatTTS 长音频合成和本地部署2种方式,让你的“儿童绘本”发声的实战教程(文末有福利)

接上文(GLM-4-Flash 大模型 API 免费了,手把手构建“儿童绘本”应用实战(附源码)),老牛同学通过 GLM-4-Flash 文生文和 CogView-3 文生图大模型,和大家一起编写了一个图文并茂的儿童绘本应用&am…

Claude3.5 Sonnet模型评测(附使用方法)

随着模型的发展,之前大家常用的鉴别模型能力的测试已经有很多过时现象,比如经典的喝水测试,目前国内的先进模型也已经可以答对,我们需要更复杂的问题来测试模型能力,最近有研究人员发现,大模型不会比较浮点…

操作符详细解析

操作符详解 文章目录 操作符详解1.操作符分类2.算数操作符3.移位操作符3.1整型二进制的表示3.1.1整数二进制的种类3.1.2二进制原码反码补码的表示 3.2移位运算符使用规则3.2.1正数的左移运算符 3.2.2负数的左移运算符3.2.3右移操作符3.2.3.1右移运算符的两种形式:3.…

使用WSL在Windows上安装Linux

文章目录 环境步骤参考 注:WSL是“Windows Subsystem for Linux”的缩写,即“适用于 Linux 的 Windows 子系统”,说白了就是在Windows系统里直接使用Linux,而不需要VMWare等虚拟软件。 环境 Windows 11 家庭中文版 步骤 首先&…

DORIS - DORIS简介

前言 本博文基于DORIS的2.1.5版本。apache-doris-2.1.5-bin-x64.tar.gz 是什么? DORIS官网 Apache Doris 是一款基于 MPP 架构的高性能、实时的分析型数据库,以高效、简单、统一的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的…

迅为2K1000开发板流畅运行Busybox、Buildroot、Loognix、QT5.12 系统

硬件配置 国产龙芯处理器,双核64位系统,板载2G DDR3内存,流畅运行Busybox、Buildroot、Loognix、QT5.12 系统! 接口全板载4路USB HOST、2路千兆以太网、2路UART、2路CAN总线、Mini PCIE、SATA固态盘接口、4G接口、GPS接口WIF1、蓝牙、Mini HD…

leetcode72. 编辑距离,二维动态规划

leetcode72. 编辑距离 给你两个单词 word1 和 word2, 请返回将 word1 转换成 word2 所使用的最少操作数 。 你可以对一个单词进行如下三种操作: 1.插入一个字符 2.删除一个字符 3.替换一个字符 示例 1: 输入:word1 “horse”,…

nvm使用详解

在开发时采用nodejs环境的时候有时会遇见版本过新项目不匹配的情况这时的话重新下载过于麻烦,一个项目一个开发环境肯定不现实 这时我推荐一款nodejs管理器nvm 官网如下nvm文档手册 - nvm是一个nodejs版本管理工具 - nvm中文网NVM中文网:nvm一个nodejs的版本管理工具,为wind…

使用docker file创建镜像(thirty-seven day)

回顾:根据镜像创建容器 docker -it --name c0 centos:latest /bin/bash安装应用ctrlpqdocker export -o centos.tar c0docker import -m "山不像我走来,我便向山走去" centos.tar centos:httpddocker commit c0 centos:v2 一、docker file应…

Oracle 客户端 PL/SQL Developer 15.0.4 安装与使用

目录 官网下载与安装 切换中文与注册 连接Oracle数据库 tnsnames.ora 文件使用 Oracle 客户端 PL/SQL Developer 12.0.7 安装、数据导出、Oracle 执行/解释计划、for update。 官网下载与安装 1、官网:https://www.allroundautomations.com/products/pl-sql-d…

uni-app 微信小程序开发安装配置 HbuilderX 微信小程序开发工具

安装HbuilderX 官网下载: https://www.dcloud.io/hbuilderx.html 编译器用来编写小程序代码 微信小程序开发工具 官网下载:https://developers.weixin.qq.com/miniprogram/dev/devtools/stable.html 用于小程序的页面调试 创建项目 HbuilderX创建项目…