voice-ai-engine-development

Compare original and translation side by side

🇺🇸

Original

English

🇨🇳

Chinese

Goal: Build low-latency, conversational Voice AI agents capable of full-duplex communication.

目标：构建支持全双工通信的低延迟对话式Voice AI Agent。

The total loop Latency (Voice-to-Ear) should be < 1000ms (Ideal < 500ms).

Transport: WebRTC (preferred for browser) or WebSocket (server-server).
VAD (Voice Activity Detection): Detect when user starts/stops speaking.
- Tools: Silero VAD, WebRTC VAD.
STT (Speech-to-Text): Transcribe audio to text.
- Tools: Deepgram (fastest), Whisper (high accuracy but slower), AssemblyAI.
LLM (Brain): Process text and generate response.
- Tools: Groq (Llama 3), GPT-4o, Claude 3.5 Sonnet.
TTS (Text-to-Speech): Convert response to audio.
- Tools: ElevenLabs (Quality), Cartesia (Speed), OpenAI TTS.

总循环延迟（从语音输入到音频输出）应<1000ms（理想值<500ms）。

Streaming Pipeline: DO NOT wait for full transcription or full generation. Stream everything.
- User Audio Stream -> VAD -> STT Stream -> LLM Stream -> TTS Stream -> Audio Output.
Interruption Handling (Barge-in):
- If VAD detects user speech while AI is talking -> Immediately CUT text generation and audio playback. Clear buffers.

流式流水线：不要等待完整的转写结果或完整的响应生成，全程采用流式处理。
- 用户音频流 -> VAD -> STT流 -> LLM流 -> TTS流 -> 音频输出。
中断处理（插话功能）：
- 当AI正在说话时，如果VAD检测到用户语音 -> 立即终止文本生成和音频播放，清空缓冲区。

Backend: Python (FastAPI) or Node.js. Python ecosystem is stronger for audio processing (numpy/scipy).
Frameworks:
- Pipecat: Open source framework for building voice agents.
- LiveKit: WebRTC infrastructure for real-time audio/video.
- Twilio: For telephony integration.

后端：Python（FastAPI）或Node.js。Python生态在音频处理方面更具优势（如numpy/scipy库）。
框架：
- Pipecat：用于构建语音Agent的开源框架。
- LiveKit：实时音视频WebRTC基础设施。
- Twilio：用于电话系统集成。

Optimistic VAD: Tune VAD to be sensitive to start, but careful with "silence" timeout (usually 500ms-800ms) to detect end of turn.
Prompt Engineering: Instruct LLM to be concise and conversational.
- System Prompt: "You are a helpful voice assistant. Keep responses short (1-2 sentences). Do not use markdown or emojis."
Audio Formats: Use OPUS or PCM (16khz/24khz/48khz) for transmission. Avoid MP3 transcoding latency.

优化VAD设置：调整VAD参数以灵敏检测说话起始点，但需合理设置"静音"超时时间（通常500ms-800ms）以准确识别对话轮次结束。
提示词工程：引导LLM生成简洁、口语化的响应。
- 系统提示词："你是一个乐于助人的语音助手。请保持回答简短（1-2句话）。不要使用 markdown 或表情符号。"
音频格式：传输时使用OPUS或PCM（16khz/24khz/48khz）格式，避免MP3转码带来的延迟。

WER (Word Error Rate): For STT accuracy.
TTFT (Time to First Token): LLM speed.
TTA (Time to Audio): The critical metric. Time from user silence to first AI sound.

Common Pitfalls:

常见陷阱：