欢迎来到令人兴奋的 AI 应用世界!在这门课程中,你将学习到创建一个能够与用户互动、理解自然语言、处理音频输入,甚至分析图像的真正智能应用所需的技能和技术。
AI 工具和技术
你将获得使用几个知名 AI API 和技术的实际经验。这些行业领先的平台将作为我们 AI 应用的构建块。我们将使用的一些技术包括:
OpenAI:
我们将深入探索 OpenAI 的 Chat Completion API,这是一个革命性的工具,允许我们的应用与用户进行自然而动态的对话。
Deepgram:
我们将利用 Deepgram 的语音识别 API 来转录音频文件,允许我们无缝地将音频分析集成到我们的应用中。
Replicate:
我们将了解 Replicate,这是开源 AI 中的一场变革。我们将使用它来利用一个名为 miniGPT 的图像分析模型,使我们的应用能够理解图像内容并智能地回答有关它们的问题。
Langchain:
我们将使用这项技术为我们的应用赋予一种独特的“记忆”。有了 Langchain,我们的应用将能够记住以前的互动,并根据积累的知识智能地做出回应。
我们将构建什么?
现在,我们对将要学习的迷人 AI 技术感到兴奋,让我们来看一下我们将要构建的内容。
这是一个我们可以用于分析内容 - 文本、音频或图像的应用。
对于我们的文本分析功能,我们选取一段文本,然后向 AI 提问,得到回应。
它由几个主要元素组成:
一个文本区域来添加我们的文本
一个输入框和按钮来提交问题
一个 div 来展示 AI 的回应。
对于我们的音频分析功能,我们将音频文件转录为文本。当我们有转录文本时,我们可以向 AI 提问。首先将其转录为文本,让我们可以使用相同的 AI 进行文本分析 - AI 以文本形式分析音频。
这个功能由 Transcriber 组件和一个与文本分析功能中的聊天窗口类似的窗口组成。
我们还将添加功能,以便我们可以向 AI 提出多个问题,以便我们可以继续向其询问有关音频文件的问题。
最后,我们将构建图像分析功能。对于这个功能,我们将添加一个图像 URL 到输入中。然后我们可以向 AI 提问有关图像的问题。
我们将添加功能,以便我们能够提出多个问题。我们将赋予我们的 AI 记忆,以便它可以记住以前的问题和答案,保留整个对话的上下文!
课程内容大纲:
课程介绍
OpenAI 的聊天 API
分析文本功能
字符串的标记化
使用 Deepgram 的语音转文字 API 进行音频转录
分析音频功能
LangChain 介绍
分析图像功能
Langchain 和 Replicate