VoiceDialogue - 智能语音对话系统

Python License Platform Version

一个集成了语音识别(ASR)、大语言模型(LLM)和文本转语音(TTS)的实时语音对话系统

快速开始文档导航贡献指南

🎯 项目简介

VoiceDialogue 是一个基于 Python 的完整语音对话系统,实现了端到端的语音交互体验。系统采用模块化设计,具备实时、高精度、多角色的特点。

  • 🖥️ 图形界面: 内置 Web 图形界面,浏览器即可使用(选音色、切语言、看实时字幕)
  • 🎤 实时语音识别: 高精度中英文语音转录
  • 🤖 智能对话生成: 集成 Qwen3 等大语言模型
  • 🔊 高质量语音合成: 支持多角色、多风格的语音输出
  • 🌐 Web API 服务: 提供 HTTP 接口,方便集成
  • 低延迟处理: 优化的音频流处理管道

想要了解更多?请查看 功能特性详解

🚀 快速开始

最简单的方式:克隆仓库 → 安装依赖 → 启动 → 在浏览器打开图形界面,即可开始语音对话。 目前仅支持 macOS(Apple Silicon)

1. 克隆并安装

仓库已通过 Git LFS 内置所需模型(约 12GB),克隆后即可直接运行,无需另外下载。 请先确认已安装 Git LFSgit lfs install)。

# 克隆项目(已包含模型,体积较大,请耐心等待)
git clone https://huggingface.co/MoYoYoTech/VoiceDialogue
cd VoiceDialogue

# 安装依赖(推荐使用 uv)
pip install uv
uv venv
source .venv/bin/activate

WHISPER_COREML=1 CMAKE_ARGS="-DGGML_METAL=on" uv sync

# 安装额外依赖
uv pip install kokoro-onnx        # kokoro-onnx(英文 TTS)
uv pip install numpy==1.26.4      # 固定 numpy 版本

📖 需要更详细的步骤?请查阅 安装指南,其中包含系统要求和常见问题。

2. 启动图形界面(推荐)

python main.py --mode api

启动后,在浏览器中打开:http://localhost:8000/app/

在界面中即可完成全部操作:

  • 点击右下角 ⚙️ 设置,选择麦克风、回音消除、识别语言、音色,也可切换中 / 英界面语言
  • 点击 「开始对话」,即可与 AI 实时语音对话,字幕会实时显示

首次启动需要数十秒加载模型(LLM / ASR / TTS),请稍候。

3. 命令行模式(CLI)

如果不需要图形界面,也可以直接在终端运行语音对话:

# 启动语音对话(默认中文)
python main.py

# 指定语言与音色
python main.py --language en --speaker Heart

# 列出可用音频输入设备(如外置麦克风阵列)
python main.py --list-audio-devices

# 指定输入设备
python main.py --input-device <设备索引>

详细使用方法请参考 配置指南API 服务指南

📚 文档导航

📄 许可证

本项目采用 MIT 许可证开源。

🙏 致谢

如果这个项目对您有帮助,请给我们一个 ⭐️!

Downloads last month
50
GGUF
Model size
8B params
Architecture
qwen3
Hardware compatibility
Log In to add your hardware

6-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support