连接chatgpt的桌面语音助手

news2026/2/11 17:35:10

要创建一个连接到 ChatGPT 的桌面语音助手，可以使用 Python 编写一个程序来实现语音识别、与 ChatGPT API 交互以及语音合成的功能。以下是一个完整的解决方案和技术实现步骤：

所需工具和库

语音识别
- 使用 speech_recognition 库捕获用户的语音输入。
- 需要麦克风支持。
ChatGPT API
- 使用 OpenAI 提供的 API（如 GPT-3.5 或 GPT-4）处理用户的问题并生成响应。
- 需要一个 OpenAI 账号和 API 密钥。
语音合成（TTS, Text-to-Speech）
- 使用 pyttsx3 或 gTTS（Google Text-to-Speech）将 ChatGPT 的文本响应转换为语音输出。
其他依赖
- openai：用于调用 OpenAI API。
- pyaudio：支持语音识别。
- playsound 或 simpleaudio：播放语音合成后的音频文件（如果需要）。

实现步骤

1. 安装必要的库

在终端中运行以下命令安装所需的 Python 库：

pip install speechrecognition pyttsx3 openai playsound pyaudio

注意：pyaudio 可能需要额外的系统依赖项。如果安装失败，请参考 PyAudio 安装指南。

2. 编写代码

以下是一个完整的示例代码：

import speech_recognition as sr
import pyttsx3
import openai
import os

# 初始化语音引擎
engine = pyttsx3.init()

# 设置 OpenAI API 密钥
openai.api_key = "YOUR_OPENAI_API_KEY"

# 配置语音参数
engine.setProperty('rate', 150)  # 设置语速
engine.setProperty('volume', 1.0)  # 设置音量

# 语音识别函数
def recognize_speech():
    recognizer = sr.Recognizer()
    with sr.Microphone() as source:
        print("请说话...")
        recognizer.adjust_for_ambient_noise(source)  # 减少环境噪音的影响
        audio = recognizer.listen(source)
        try:
            text = recognizer.recognize_google(audio, language="zh-CN")  # 使用 Google 的语音识别服务
            print(f"你说的是: {text}")
            return text
        except sr.UnknownValueError:
            print("无法识别语音")
            return ""
        except sr.RequestError as e:
            print(f"语音识别服务出错: {e}")
            return ""

# 调用 ChatGPT API 获取响应
def get_chatgpt_response(prompt):
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",  # 使用 GPT-3.5 模型
        messages=[
            {"role": "system", "content": "你是一个智能助手，能够回答用户的问题。"},
            {"role": "user", "content": prompt}
        ]
    )
    return response.choices[0].message.content

# 语音合成函数
def speak(text):
    print(f"助手回答: {text}")
    engine.say(text)
    engine.runAndWait()

# 主程序
def main():
    while True:
        # 语音输入
        user_input = recognize_speech()
        if not user_input:
            continue

        # 如果用户说“退出”或“停止”，结束程序
        if "退出" in user_input or "停止" in user_input:
            speak("好的，再见！")
            break

        # 调用 ChatGPT 获取响应
        response = get_chatgpt_response(user_input)

        # 语音输出
        speak(response)

if __name__ == "__main__":
    main()

代码解析

语音识别
- 使用 speech_recognition 库捕获用户的语音输入。
- 通过 recognize_google 方法将语音转换为文本。
调用 ChatGPT API
- 使用 OpenAI 的 ChatCompletion API 发送用户输入，并获取 ChatGPT 的响应。
- 在 messages 参数中，定义了系统角色（system）和用户角色（user），以模拟对话。
语音合成
- 使用 pyttsx3 将 ChatGPT 的文本响应合成为语音。
- engine.say() 用于生成语音，engine.runAndWait() 用于播放语音。
主循环
- 程序持续监听用户的语音输入，直到用户说出“退出”或“停止”。

运行程序

设置 OpenAI API 密钥
替换代码中的 YOUR_OPENAI_API_KEY 为你自己的 OpenAI API 密钥。可以从 OpenAI 官网获取。
运行代码
在终端中运行以下命令启动程序：
```
python your_script_name.py
```
测试功能
- 对着麦克风说话，程序会将你的语音转换为文本。
- ChatGPT 处理文本后返回响应，程序将其合成为语音并播放。

优化建议

多语言支持
- 修改 recognize_google 的 language 参数，支持其他语言（如英语、法语等）。
离线语音合成
- 如果不想依赖在线服务，可以使用离线 TTS 引擎（如 espeak 或 Festival）。
改进用户体验
- 添加唤醒词（如“嘿，助手”）以避免误触发。
- 使用更高级的语音合成引擎（如 gTTS 或 Azure Speech Service）提高语音质量。
错误处理
- 增强对网络问题、API 调用失败等情况的处理。