🚀前言
在当今的 AI 时代,传统的相关内容推荐和搜索功能已经显得相对简单和低效。借助 AI 技术,我们可以实现更加智能化和个性化的内容发现体验。
本文将为大家介绍如何利用 OpenAI 的 Embedding 技术,打造出智能、高效的相关内容推荐和搜索功能。
🚀OpenAI Embedding
OpenAI Embedding 是一种将文本转化为密集型数值向量的技术,这些向量可以很好地表示文本的语义特征。其背后的核心思想是利用深度学习模型对大量文本数据进行训练,从而学习到文本的潜在语义表示。
具体来说,OpenAI 使用了一种名为 Transformer 的神经网络架构,通过自注意力机制捕捉文本中词语之间的关联性。训练完成后,Transformer 模型可以将任意长度的文本输入转换为一个固定长度的密集向量,这就是 Embedding。
这个 Embedding 向量包含了文本的语义信息,例如词义、上下文关系、情感倾向等。向量中的数值代表了文本在语义空间中的位置,相似的文本会对应到相近的位置。
因此,我们可以利用 Embedding 向量计算文本之间的语义相似度。比如说,通过计算两篇文章 Embedding 向量之间的余弦相似度,就可以得到它们在语义上的接近程度。这为实现相关内容推荐和搜索功能提供了强大的技术支持。
🚀代码实现
首先去安装对应的依赖
import OpenAI from "openai";
import dotenv from "dotenv";
这里dotenv的作用为可以帮助我们在开发过程中管理环境变量,我们的OPENAI_API_KEY就放在这里面
现在我们去调用embeddings接口看会得到一个什么?
import OpenAI from "openai";
import dotenv from "dotenv";
dotenv.config({
path: ".env",
});
const openai = new OpenAI({
apiKey: process.env.OPENAI_API_KEY,
baseURL: "https://api.302.ai/v1/"
});
const response = await openai.embeddings.create({
model: "text-embedding-ada-002",
input: "如何创建vue组件",
});
// 1536 gpt3
console.log(response.data[0].embedding);
可以看到embeddings将对应的数据变为了向量数据,一共1436个向量
既然我们可以将数据变为一个向量数据,这表示我们可以将现有的数据都向量化,然后将我们要搜索的数据也向量化之后,通过向量的计算去匹配对应的相近的数据
我们首先将创建openai的请求client封装成一个函数,方便我们后续的调用
- app.service.mjs
// 模块化输出client 给各项ai任务调用
import OpenAI from "openai";
import dotenv from "dotenv";
dotenv.config({
path: ".env",
});
export const client = new OpenAI({
apiKey: process.env.OPENAI_API_KEY,
baseURL: "https://api.302.ai/v1/",
});
接下来我们通过调用embeddings接口,将数据向量化以后生成一个新的文件后输出
// 先把所有的内容计算向量
import fs from "fs/promises";
import { client } from "./app.service.mjs";
// 原数据
const inputFilePath = "./data/posts.json";
// 向量化数据
const outputFilePath = "./data/posts_with_embeddings.json";
// 读取原数据
const data = await fs.readFile(inputFilePath, "utf-8");
// 数组
const posts = JSON.parse(data);
// 向量化数据数组
const postsWithEmbeddings = [];
for (const { title, category } of posts) {
const response = await client.embeddings.create({
model: "text-embedding-ada-002",
// vue vue-router
input: `标题:${title}分类:${category}`,
});
postsWithEmbeddings.push({
title,
category,
embedding: response.data[0].embedding,
});
}
//新文件写入
await fs.writeFile(outputFilePath, JSON.stringify(postsWithEmbeddings));
原文件
新文件
可以看到我们通过embeddings接口将每个数据都进行了向量化
接下来要做的就是将我们要推荐的数据通过向量比较计算相似度,然后输出结果了
-
导入依赖模块:
- 从
fs/promises
导入文件系统模块的异步版本。 - 从
./app.service.mjs
导入一个名为client
的对象。
- 从
-
读取并解析 JSON 数据:
- 定义输入文件的路径
inputFilePath
。 - 使用
fs.readFile()
异步读取文件内容,并使用JSON.parse()
解析为posts
数组。
- 定义输入文件的路径
-
定义计算余弦相似度的函数:
cosineSimilarity
函数接受两个向量v1
和v2
作为参数。- 首先计算两个向量的点积,然后分别计算两个向量的长度,最后计算它们的余弦相似度。
-
生成搜索文本的嵌入向量:
- 定义要搜索的文本
searchText
为"vue组件开发"
。 - 使用
client.embeddings.create()
方法,利用预训练的文本嵌入模型"text-embedding-ada-002"
生成搜索文本的嵌入向量。 - 从响应结果中获取生成的嵌入向量
embedding
。
- 定义要搜索的文本
-
计算每个帖子与搜索文本的相似度:
- 遍历
posts
数组,使用map()
方法为每个帖子计算与搜索文本的余弦相似度。 - 将相似度值添加到新创建的对象中,并保留原有的帖子属性。
- 遍历
-
按相似度排序并取前 3 个结果:
- 使用
sort()
方法按相似度从小到大排序。 - 反转排序结果,使相似度从大到小排列。
- 使用
slice(0, 3)
取前 3 个最相似的帖子。
- 使用
-
格式化输出结果:
- 使用
map()
方法,将每个帖子的序号、标题和分类格式化为一个字符串。 - 使用
join("\n")
将格式化后的字符串连接起来,形成最终的输出结果。
- 使用
-
输出结果:
- 将格式化后的输出结果打印到控制台。
// 导入文件系统模块的异步版本
import fs from "fs/promises";
// 导入一个名为 client 的对象
import { client } from "./app.service.mjs";
// 定义输入文件的路径
const inputFilePath = "./data/posts_with_embeddings.json";
// 从文件中读取并解析 JSON 数据,得到 posts 数组
const posts = JSON.parse(await fs.readFile(inputFilePath, "utf-8"));
// 定义一个计算余弦相似度的函数
const cosineSimilarity = (v1, v2) => {
// 计算两个向量的点积
const dotProduct = v1.reduce((acc, curr, i) => acc + curr * v2[i], 0);
// 计算第一个向量的长度
const lengthV1 = Math.sqrt(v1.reduce((acc, curr) => acc + curr * curr, 0));
// 计算第二个向量的长度
const lengthV2 = Math.sqrt(v2.reduce((acc, curr) => acc + curr * curr, 0));
// 计算余弦相似度
const similarity = dotProduct / (lengthV1 * lengthV2);
return similarity;
};
// 定义要搜索的文本
const searchText = "vue组件开发";
// 使用 client 对象生成文本的嵌入向量
const response = await client.embeddings.create({
model: "text-embedding-ada-002",
input: searchText,
});
// 获取生成的嵌入向量
const { embedding } = response.data[0];
// 遍历 posts 数组,计算每个帖子与搜索文本的相似度,并按相似度排序
const results = posts
.map((item) => ({
// 复制 item 的所有属性
...item,
// 计算相似度并添加到新对象中
similarity: cosineSimilarity(embedding, item.embedding),
}))
// 按相似度从小到大排序
.sort((a, b) => a.similarity - b.similarity)
// 反转排序结果,使相似度从大到小
.reverse()
// 取前 3 个最相似的帖子
.slice(0, 3)
// 格式化输出字符串
.map((item, index) => `${index + 1},${item.title},${item.category}`)
// 用换行符连接输出字符串
.join("\n");
// 输出结果
console.log(results);
最终我们就能在打印台上看到效果了
🚀总结
本文讲解了利用 OpenAI 的 Embedding 技术实现相关推荐以及搜索的功能,对比传统的搜索,使用AI去实现这个功能更加的高效
在当今的AI时代,紧跟AI步伐,使用AI技术为产品提供更加优秀的功能,这是很重要的
希望看到这里的你能够有所收获!!!!
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓