ai-voice-design

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

AI Voice Design

AI语音设计

Concevez et générez des voix IA pour vos vidéos en utilisant ElevenLabs ou Qwen3-TTS, avec clonage vocal, design par description, et synchronisation lip-sync.
使用ElevenLabs或Qwen3-TTS为你的视频设计并生成AI语音,支持声音克隆、描述式自定义以及口型同步功能。

When to Use This Skill

适用场景

  • Créer une voix de marque - Définir le ton vocal pour une campagne
  • Cloner une voix existante - Reproduire une voix avec autorisation
  • Designer une voix originale - Créer une voix à partir d'une description
  • Multi-personnages - Gérer plusieurs voix dans une même vidéo
  • Lip-sync vidéo IA - Synchroniser voix et mouvements de lèvres
  • Localisation - Adapter une voix en plusieurs langues
  • 打造品牌专属语音 - 为营销活动确定统一语气
  • 克隆已有声音 - 经授权复刻特定人声
  • 设计原创语音 - 根据文字描述生成全新音色
  • 多角色场景 - 管理同一视频内的多个语音配置
  • AI视频口型同步 - 同步语音与唇部动作
  • 内容本地化 - 将语音适配为多语言版本

Methodology Foundation

方法基础

Source: ElevenLabs Documentation + Qwen3-TTS (Alibaba) + PJ Ace workflow
Core Principle: "La voix est 50% de l'impact d'une vidéo. ElevenLabs offre la qualité premium, Qwen3-TTS offre la flexibilité open-source. Le choix dépend du budget et du contrôle souhaité."
Why This Matters: Une voix mal choisie ou mal générée casse l'illusion d'une vidéo IA. Le bon matching voix/personnage et une qualité audio professionnelle font la différence entre "AI slop" et contenu crédible.
来源: ElevenLabs官方文档 + 通义千问Qwen3-TTS(阿里巴巴) + PJ Ace工作流
核心原则: "语音决定了视频50%的传播效果。ElevenLabs提供顶级音质,Qwen3-TTS提供开源灵活性,选择取决于预算和所需的管控程度。"
重要性说明: 不合适或者低质量的生成语音会直接打破AI视频的真实感。音色与角色的匹配度、专业的音频质量是区分"AI垃圾内容"和可信内容的核心要素。

What Claude Does vs What You Decide

Claude负责事项 vs 你需要决策的事项

Claude DoesYou Decide
Structures production workflowFinal creative direction
Suggests technical approachesEquipment and tool choices
Creates templates and checklistsQuality standards
Identifies best practicesBrand/voice decisions
Generates script outlinesFinal script approval
Claude负责你需要决策
搭建生产工作流最终创意方向
提供技术方案建议设备与工具选择
创建模板与检查清单质量标准
总结最佳实践品牌/语音风格决策
生成脚本大纲最终脚本审批

What This Skill Does

技能功能

  1. Compare les solutions TTS - ElevenLabs vs Qwen3-TTS
  2. Guide le clonage vocal - Process et requirements
  3. Structure le voice design - Description textuelle de voix
  4. Gère le multi-voix - Attribution et cohérence
  5. Prépare le lip-sync - Intégration avec Kling/Veo
  1. TTS方案对比 - 对比ElevenLabs与Qwen3-TTS的差异
  2. 声音克隆指导 - 完整流程与要求说明
  3. 语音设计框架 - 基于文字描述的语音配置方法
  4. 多语音管理 - 角色音色分配与一致性管控
  5. 口型同步准备 - 对接Kling/Veo等工具的集成方案

How to Use

使用方式

Designer une voix pour une pub

为广告设计专属语音

J'ai besoin d'une voix pour ma pub [produit]. Le ton doit être [description]. Aide-moi à la designer.
我需要为[产品]广告设计一款语音, tone要求是[描述内容],帮我完成设计。

Cloner une voix

克隆指定声音

Je veux cloner cette voix [description/échantillon]. Guide-moi à travers le process avec [ElevenLabs/Qwen3-TTS].
我想克隆[描述/音频样本]这个声音,教我用[ElevenLabs/Qwen3-TTS]实现的完整流程。

Gérer plusieurs personnages

管理多角色语音

J'ai 3 personnages dans ma vidéo: [descriptions]. Crée le casting vocal.
我的视频里有3个角色:[角色描述],帮我完成声音选角。

Instructions

操作指南

Step 1: Choisir la solution TTS

步骤1: 选择TTS解决方案

undefined
undefined

Comparatif ElevenLabs vs Qwen3-TTS

ElevenLabs vs Qwen3-TTS对比

CritèreElevenLabsQwen3-TTS
Prix$5-$330/moisGratuit (open-source)
QualitéExcellenteExcellente
Voice cloning1-5 min audio3 sec audio
Langues29+10 (EN, FR, DE, ES, IT, PT, RU, ZH, JP, KO)
Latence~200ms97ms (streaming)
Self-hostedNonOui
Voice designVoiceLabDescription textuelle
APICloudLocal ou cloud
对比维度ElevenLabsQwen3-TTS
价格$5-$330/月免费(开源)
音质极佳极佳
声音克隆要求1-5分钟音频3秒音频
支持语言29种以上10种(英、法、德、西、意、葡、俄、中、日、韩)
延迟~200ms97ms(流式输出)
支持私有化部署不支持支持
语音设计功能VoiceLab可视化配置文字描述生成
API云端调用本地/云端调用都支持

Arbre de décision

决策树

Q1: Budget disponible?
  • $0 (gratuit) → Qwen3-TTS
  • $5-$100/mois → ElevenLabs Starter/Creator
  • $100+/mois → ElevenLabs Pro
Q2: Besoin de self-hosting?
  • Oui (données sensibles) → Qwen3-TTS
  • Non → ElevenLabs ou Qwen3-TTS
Q3: Langue requise parmi FR, EN, DE, ES, IT, PT, RU, ZH, JP, KO?
  • Oui → Les deux fonctionnent
  • Non (autre langue) → ElevenLabs
Q4: Latence critique (real-time)?
  • Oui → Qwen3-TTS (97ms)
  • Non → Les deux

---
问题1: 可用预算是多少?
  • $0(免费) → 选Qwen3-TTS
  • $5-$100/月 → 选ElevenLabs入门/创作者版
  • $100+/月 → 选ElevenLabs专业版
问题2: 是否需要私有化部署?
  • 是(涉及敏感数据) → 选Qwen3-TTS
  • 否 → 两者都可
问题3: 需要的语言是否在法、英、德、西、意、葡、俄、中、日、韩范围内?
  • 是 → 两者都支持
  • 否(其他小语种) → 选ElevenLabs
问题4: 对延迟要求是否极高(实时场景)?
  • 是 → 选Qwen3-TTS(97ms)
  • 否 → 两者都可

---

Step 2: Voice Design par description

步骤2: 基于描述的语音设计

undefined
undefined

Template de Description de Voix

语音描述模板

Caractéristiques de base

基础特征

Genre: [ ] Masculin [ ] Féminin [ ] Non-binaire Âge apparent: [20s / 30s / 40s / 50s / 60s+] Registre: [ ] Grave [ ] Medium [ ] Aigu
性别: [ ] 男 [ ] 女 [ ] 非二元性别 预估年龄: [20-29岁 / 30-39岁 / 40-49岁 / 50-59岁 / 60岁以上] 音域: [ ] 低音 [ ] 中音 [ ] 高音

Qualités vocales

声音质感

Texture: [ ] Lisse/Veloutée [ ] Rauque/Gravelly [ ] Nasale [ ] Claire [ ] Résonante
Énergie: [ ] Calme/Posée [ ] Dynamique [ ] Intense [ ] Chaleureuse [ ] Froide/Distante
Rythme: [ ] Lent/Délibéré [ ] Modéré [ ] Rapide [ ] Varié (storytelling)
音色: [ ] 顺滑/柔和 [ ] 沙哑/颗粒感 [ ] 鼻音重 [ ] 清亮 [ ] 有共鸣感
情绪能量: [ ] 平静/沉稳 [ ] 有活力 [ ] 有张力 [ ] 温暖 [ ] 冰冷/有距离感
语速: [ ] 慢/咬字清晰 [ ] 中等 [ ] 快 [ ] 多变(适合讲故事)

Accent/Origine

口音/来源

Accent: [Ex: Français neutre, British RP, Southern US, etc.] Particularités: [Ex: légèrement rauque le matin, sourire dans la voix]
口音: [例:标准普通话、英式RP、美国南方口音等] 特点: [例:早上略带沙哑、说话带笑意]

Contexte d'utilisation

使用场景

Marque/Produit: ________________________________ Ton de la campagne: ________________________________ Personnage (si fiction): ________________________________
品牌/产品: ________________________________ 活动基调: ________________________________ 角色(如果是虚构内容): ________________________________

Exemples de référence (optionnel)

参考示例(可选)

Voix similaire à: [Célébrité, personnage, pub connue] Éviter: [Ce qu'on ne veut pas]

**Exemple de description complète:**
相似声音: [名人、影视角色、知名广告配音] 要避免的风格: [不想要的声音特征]

**完整描述示例:**

Voice Brief: Pub NeuroBoost

语音需求说明:NeuroBoost广告

Profil: Homme, 40s, registre grave-medium
Qualités:
  • Texture résonante et autoritaire mais pas intimidante
  • Énergie posée, confiante, légèrement inspirante
  • Rythme délibéré avec pauses stratégiques
Accent: Français international (pas d'accent régional marqué) Diction parfaite, articulation claire
Références:
  • Similaire à: Morgan Freeman mais version française
  • Éviter: Ton commercial agressif, urgence artificielle
Notes: Cette voix doit incarner l'expertise et la confiance. Le spectateur doit sentir qu'il reçoit un conseil d'un mentor plutôt qu'un pitch de vendeur.

---
基本信息: 男,40-49岁,中低音域
声音特征:
  • 音色有共鸣、有权威感但不吓人
  • 情绪沉稳、自信、略带感染力
  • 语速平稳,会 strategically 停顿
口音: 国际范法语(无明显地方口音) 吐字完美,发音清晰
参考:
  • 类似:法语版摩根·弗里曼
  • 避免:激进的销售语气、刻意营造的紧迫感
备注: 这个声音要体现专业感和信任感。 观众要感觉是在听导师的建议, 而不是销售的推销话术。

---

Step 3: Clonage vocal

步骤3: 声音克隆

ElevenLabs

ElevenLabs

undefined
undefined

Process de clonage ElevenLabs

ElevenLabs克隆流程

Instant Clone (1-5 min audio)

快速克隆(1-5分钟音频)

Qualité: Bonne (80% fidélité) Usage: Tests, itération rapide
  1. Préparer audio source:
    • 1-5 minutes de parole claire
    • Pas de musique de fond
    • Qualité minimum: 128kbps
    • Formats: MP3, WAV, M4A
  2. Dans ElevenLabs:
    • Voice Lab → Add Voice → Instant Clone
    • Upload audio
    • Nommer la voix
    • Tester avec phrase sample
音质: 良好(80%还原度) 适用场景: 测试、快速迭代
  1. 准备源音频:
    • 1-5分钟清晰的人声
    • 无背景音
    • 最低音质要求: 128kbps
    • 支持格式: MP3, WAV, M4A
  2. 在ElevenLabs操作:
    • 进入Voice Lab → 添加语音 → 快速克隆
    • 上传音频
    • 为语音命名
    • 用示例句子测试效果

Professional Clone (30+ min audio)

专业克隆(30分钟以上音频)

Qualité: Excellente (95%+ fidélité) Usage: Production commerciale
  1. Préparer corpus audio:
    • 30-60 minutes idéalement
    • Variété d'émotions et tons
    • Phrases complètes, pas de mots isolés
    • Studio quality (256kbps+, pas de bruit)
  2. Soumettre pour training
    • Délai: 24-48h
    • Coût: Inclus dans plan Pro+
音质: 极佳(95%以上还原度) 适用场景: 商业内容生产
  1. 准备音频语料:
    • 理想时长30-60分钟
    • 包含多种情绪和语气
    • 完整句子,不要孤立单词
    • 录音室级音质(256kbps以上,无杂音)
  2. 提交训练
    • 处理周期: 24-48小时
    • 费用: 包含在Pro+套餐内

Paramètres de génération

生成参数

  • Stability: 50-70% (naturel) / 80%+ (consistant)
  • Clarity: 75%+ recommandé
  • Style: 0-100% selon expressivité souhaitée
undefined
  • 稳定性: 50-70%(自然) / 80%以上(风格一致)
  • 清晰度: 建议75%以上
  • 风格化: 0-100%,根据需要的表达力调整
undefined

Qwen3-TTS

Qwen3-TTS

undefined
undefined

Process de clonage Qwen3-TTS

Qwen3-TTS克隆流程

Zero-shot Clone (3 sec audio)

零样本克隆(3秒音频)

Qualité: Très bonne Usage: Toute production
  1. Préparer référence:
    • 3-10 secondes de parole claire
    • Pas de bruit de fond
    • Émotion neutre ou représentative
  2. API Python:
python
from qwen3_tts import Qwen3TTS

tts = Qwen3TTS()
音质: 非常好 适用场景: 所有生产场景
  1. 准备参考音频:
    • 3-10秒清晰人声
    • 无背景杂音
    • 情绪中性或符合目标场景
  2. Python API调用:
python
from qwen3_tts import Qwen3TTS

tts = Qwen3TTS()

Cloner depuis référence

从参考音频克隆声音

voice = tts.clone_voice( reference_audio="reference.wav", voice_name="my_voice" )
voice = tts.clone_voice( reference_audio="reference.wav", voice_name="my_voice" )

Générer avec la voix clonée

用克隆的声音生成语音

audio = tts.generate( text="Texte à synthétiser", voice=voice, language="fr" ) audio.save("output.wav")
undefined
audio = tts.generate( text="要合成的文本", voice=voice, language="fr" ) audio.save("output.wav")
undefined

Voice Design par texte

基于文本的语音设计

python
undefined
python
undefined

Créer une voix sans référence audio

无需参考音频创建语音

voice = tts.design_voice( description="A warm, confident male voice in his 40s,
with a slight French accent, speaking slowly and
deliberately with gravitas." )
audio = tts.generate( text="Votre texte ici", voice=voice )
undefined
voice = tts.design_voice( description="A warm, confident male voice in his 40s,
with a slight French accent, speaking slowly and
deliberately with gravitas." )
audio = tts.generate( text="你的文本内容", voice=voice )
undefined

Paramètres avancés

高级参数

  • emotion: "neutral", "happy", "sad", "angry", "surprise"
  • speed: 0.5 (lent) à 2.0 (rapide)
  • pitch: -10 à +10 (demi-tons)

---
  • 情绪: "neutral"(中性), "happy"(开心), "sad"(悲伤), "angry"(生气), "surprise"(惊讶)
  • 语速: 0.5(慢)到 2.0(快)
  • 音调: -10 到 +10(半音为单位)

---

Step 4: Multi-personnages

步骤4: 多角色管理

undefined
undefined

Casting Vocal Multi-personnages

多角色语音选角

Template de casting

选角模板

PersonnageDescriptionVoixSource
[Nom][Description physique/personnalité][Specs vocales][Clone/Design/Stock]
角色描述语音配置来源
[姓名][外貌/性格描述][语音参数][克隆/自定义/预设]

Exemple: Pub avec 3 personnages

示例:3个角色的广告

PersonnageDescriptionVoixSource
CEO Emma35 ans, confiante, leaderFemme, medium, autoritaire-warmDesign: "Confident female executive..."
Dev Tom28 ans, geek enthousiasteHomme, medium-aigu, rapideStock: "Young professional male"
Client Marc50 ans, sceptique puis convaincuHomme, grave, hésitant→assuréDesign: "Skeptical older businessman..."
角色描述语音配置来源
CEO Emma35岁,自信,领导力强女,中音,权威但温暖自定义: "自信的女性高管..."
开发Tom28岁,热情的技术爱好者男,中高音,语速快预设: "年轻职业男性"
客户Marc50岁,从怀疑到被说服男,低音,从犹豫到坚定自定义: "持怀疑态度的老年商人..."

Règles de différenciation

区分规则

  • Registres variés: Grave, Medium, Aigu
  • Rythmes différents: Lent vs Rapide
  • Accents distincts: Si approprié au contexte
  • Énergies contrastées: Calme vs Dynamique
  • 音域差异化: 低音、中音、高音搭配
  • 语速差异化: 慢 vs 快
  • 口音差异化: 符合场景的前提下使用不同口音
  • 能量差异化: 平静 vs 有活力

Workflow multi-voix

多语音工作流

  1. Générer chaque réplique séparément
  2. Nommer fichiers:
    P1_Emma_Line01.wav
  3. Assembler dans timeline audio
  4. Vérifier cohérence de volume (normaliser à -6dB)

---
  1. 分别生成每句台词
  2. 文件命名规则:
    P1_Emma_Line01.wav
  3. 在音频时间轴上拼接
  4. 检查音量一致性(统一归一化到-6dB)

---

Step 5: Lip-sync et intégration vidéo

步骤5: 口型同步与视频集成

undefined
undefined

Intégration Voix + Vidéo IA

语音+AI视频集成

Option A: Veo 3.1 (Audio natif)

方案A: Veo 3.1(原生音频支持)

La voix est générée par Veo avec la vidéo.
Prompt incluant audio:
"[Scene description]. The character says:
'[Dialogue exact]'. Voice: confident male, 30s,
warm tone. Ambient: office sounds."
Limitation: Moins de contrôle sur la voix exacte.
语音随视频一起由Veo生成。
包含音频的Prompt:
"[场景描述]. 角色说:
'[准确台词]'. 语音: 自信的男性,30-39岁,
语气温暖。环境音: 办公室声音。"
局限性: 对精准语音的控制度较低。

Option B: Kling 2.6 Motion Control

方案B: Kling 2.6动作控制

Lip-sync depuis vidéo "driving".
  1. Enregistrer vous-même le dialogue
  2. Utiliser Kling avec driving video
  3. Le lip-sync suit votre performance
  4. Remplacer audio par voix IA en post
Workflow:
You → Record driving video with dialogue
Kling → Transfer lips to AI character
Post → Replace audio with ElevenLabs/Qwen voice
基于驱动视频的口型同步。
  1. 自己录制台词
  2. 将驱动视频上传到Kling
  3. 口型会跟随你的录制动作
  4. 后期用AI生成的语音替换原音频
工作流:
你 → 录制带台词的驱动视频
Kling → 将唇形迁移到AI角色上
后期 → 用ElevenLabs/Qwen生成的语音替换原音频

Option C: Génération séparée + Post-sync

方案C: 分开生成 + 后期同步

Pour contrôle maximum.
  1. Générer vidéo sans audio (Runway, Pika)
  2. Générer voix séparément
  3. Synchroniser en post-production
  4. Ajuster timing manuellement si besoin
Outils de sync:
  • DaVinci Resolve (gratuit)
  • Adobe Premiere
  • D-ID (sync automatique)
最高控制度方案。
  1. 生成无音频的视频(Runway、Pika)
  2. 单独生成语音
  3. 后期制作中同步
  4. 必要时手动调整时间轴
同步工具:
  • DaVinci Resolve(免费)
  • Adobe Premiere
  • D-ID(自动同步)

Checklist Lip-sync

口型同步检查清单

  • Timing voix correspond au mouvement des lèvres
  • Pauses naturelles alignées
  • Volume équilibré avec ambiance
  • Pas de décalage visible (max 2-3 frames)

---
  • 语音时间与唇部动作匹配
  • 自然停顿对齐
  • 音量与环境音平衡
  • 无可见延迟(最多2-3帧偏差)

---

Step 6: Export et spécifications audio

步骤6: 导出与音频规范

undefined
undefined

Spécifications Audio Finales

最终音频规范

Format de sortie

输出格式

  • Codec: AAC ou WAV
  • Sample rate: 48kHz (standard vidéo)
  • Bit depth: 24-bit (WAV) ou 256kbps (AAC)
  • Channels: Stereo ou Mono selon usage
  • 编码: AAC 或 WAV
  • 采样率: 48kHz(视频标准)
  • 位深度: 24-bit(WAV) 或 256kbps(AAC)
  • 声道: 立体声或单声道,根据用途选择

Niveaux recommandés

推荐音量水平

  • Voiceover: -6dB à -3dB peak
  • Dialogue: -12dB à -6dB
  • Ambiance: -18dB à -12dB
  • Musique: -12dB à -9dB (sous voix)
  • 旁白: 峰值-6dB 到 -3dB
  • 对话: -12dB 到 -6dB
  • 环境音: -18dB 到 -12dB
  • 背景音乐: -12dB 到 -9dB(低于人声)

Mastering basique

基础母带处理

  1. Normaliser tous les clips voix à -6dB
  2. Appliquer compression légère (ratio 2:1)
  3. EQ: couper sous 80Hz, boost léger 2-4kHz (clarté)
  4. Limiter à -1dB pour éviter clipping
  1. 将所有语音片段归一化到-6dB
  2. 应用轻度压缩(压缩比2:1)
  3. EQ: 切除80Hz以下低频,轻微提升2-4kHz(提升清晰度)
  4. 限制器设为-1dB避免爆音

Deliverables

交付文件结构

📁 Audio_[Project]/
├── voiceover/
│   ├── VO_final_master.wav
│   └── VO_stems/
│       ├── P1_lines.wav
│       ├── P2_lines.wav
│       └── ...
├── sfx/
│   └── [sound effects]
├── music/
│   └── [background music]
└── mix/
    └── final_mix.wav
undefined
📁 Audio_[项目名]/
├── voiceover/
│   ├── VO_final_master.wav
│   └── VO_stems/
│       ├── P1_lines.wav
│       ├── P2_lines.wav
│       └── ...
├── sfx/
│   └── [音效文件]
├── music/
│   └── [背景音乐]
└── mix/
    └── final_mix.wav
undefined

Examples

示例

Example 1: Voice design pour pub premium

示例1: 高端广告语音设计

Context: Marque de montres de luxe, pub cinématique 30s
Input:
J'ai une pub pour une marque de montres haut de gamme. Style très premium, inspiré des pubs Omega ou Rolex. Je veux une voix qui incarne l'excellence et l'héritage.
Output:
背景: 奢侈手表品牌,30秒电影感广告
输入:
我要做一个高端手表品牌的广告,风格非常高端,参考欧米茄或劳力士的广告。我想要一款能体现卓越和传承感的语音。
输出:

Voice Brief: Montres Heritage Collection

语音需求说明:传承系列手表

Profil cible

目标画像

Genre: Masculin
Âge: 55-65 ans
Registre: Grave, profond
性别: 男
年龄: 55-65岁
音域: 低音,低沉

Caractéristiques détaillées

详细特征

Texture: Résonante, veloutée, avec légère patine
         (comme un bois noble ou un cuir vintage)

Énergie: Posée, contemplative, jamais pressée
         Chaque mot est choisi, chaque pause est intention

Rythme: Très lent, délibéré
        4-5 mots par respiration
        Pauses de 1-2 secondes entre phrases

Diction: Parfaite, aristocratique sans être snob
         Consonnes précises, voyelles riches
音色: 有共鸣,柔和,带轻微的岁月质感
         (像名贵木材或者 vintage 皮革)

情绪: 沉稳,有 contemplative 感,从不急促
         每个字都经过斟酌,每个停顿都有意义

语速: 非常慢,咬字清晰
        每呼吸一次说4-5个字
        句子之间停顿1-2秒

吐字: 完美,有贵族感但不傲慢
         辅音清晰,元音饱满

Prompt ElevenLabs (Voice Design)

ElevenLabs Prompt(语音设计)

Create a distinguished male voice in his 60s.
Deep, resonant baritone with natural gravitas.
Speaking style: slow, deliberate, contemplative.
British Received Pronunciation with slight warmth.
Texture like aged whiskey - smooth with depth.
The voice of someone who has seen much and
speaks only when it matters.
Create a distinguished male voice in his 60s.
Deep, resonant baritone with natural gravitas.
Speaking style: slow, deliberate, contemplative.
British Received Pronunciation with slight warmth.
Texture like aged whiskey - smooth with depth.
The voice of someone who has seen much and
speaks only when it matters.

Prompt Qwen3-TTS

Qwen3-TTS Prompt

python
voice = tts.design_voice(
    description="""
    Distinguished older gentleman, 60s, deep baritone.
    British accent, RP. Speaking very slowly and
    deliberately, with natural authority and warmth.
    Voice texture is rich and resonant, like aged oak.
    Contemplative, never rushed. Each word carries weight.
    Think: nature documentary narrator meets luxury brand.
    """
)
python
voice = tts.design_voice(
    description="""
    Distinguished older gentleman, 60s, deep baritone.
    British accent, RP. Speaking very slowly and
    deliberately, with natural authority and warmth.
    Voice texture is rich and resonant, like aged oak.
    Contemplative, never rushed. Each word carries weight.
    Think: nature documentary narrator meets luxury brand.
    """
)

Script avec indications

带标注的脚本

[PAUSE 2s]

"Time..." [PAUSE 1.5s]

"...is not measured." [PAUSE 1s]

"It is crafted." [PAUSE 2s]

"Heritage Collection." [PAUSE 1s]

"Since 1892."
[停顿2秒]

"时间..." [停顿1.5秒]

"...不是被计量的。" [停顿1秒]

"它是被打造的。" [停顿2秒]

"传承系列。" [停顿1秒]

"始于1892年。"

Paramètres techniques

技术参数

  • Stability: 85% (très consistant pour luxury)
  • Speed: 0.7x (plus lent)
  • Pas de musique sous la voix (voix seule, puis musique)
Why this works: Pour le luxe, less is more. Une voix grave, lente et posée communique la confiance et l'intemporalité. Les pauses créent la tension et la valeur perçue.

  • 稳定性: 85%(奢侈品场景要求极高一致性)
  • 语速: 0.7x(更慢)
  • 语音下方不要加背景音乐(先出纯语音,再进音乐)
设计逻辑: 奢侈品领域少即是多。低沉、缓慢、沉稳的语音传递信任感和永恒感,停顿创造张力和感知价值。

Example 2: Multi-personnages comédie

示例2: 喜剧风格多角色配音

Context: Pub SaaS décalée style sitcom avec 3 personnages
Input:
J'ai une pub style The Office avec 3 personnages: le boss incompétent, l'employée exaspérée, et le stagiaire trop enthousiaste. Crée le casting vocal.
Output:
背景: 搞怪SaaS广告,情景喜剧风格,3个角色
输入:
我要做一个《办公室》风格的广告,有3个角色:无能的老板、抓狂的员工、过度热情的实习生。帮我做语音选角。
输出:

Casting Vocal: "Office Chaos" Pub

语音选角:"办公室混乱"广告

Personnage 1: Michel (Le Boss)

角色1: 米歇尔(老板)

Profil:
- Homme, 50 ans
- Confiant mais incompétent
- Parle trop fort et trop vite
- S'interrompt lui-même

Voix:
- Medium-aigu (pas grave malgré l'autorité voulue)
- Nasale légèrement
- Volume variable (starts loud, gets louder)
- Phrases inachevées

Prompt ElevenLabs:
"Middle-aged man who thinks he's charismatic but isn't.
Slightly nasal voice, medium-high pitch. Speaks too
loudly and too fast, often interrupting himself.
French accent, corporate buzzwords enthusiast.
Michael Scott energy."
画像:
- 男,50岁
- 自信但无能
- 说话太大声太快
- 经常打断自己

语音配置:
- 中高音(虽然想要权威感但不是低音)
- 略带鼻音
- 音量多变(开始大声,越来越大)
- 句子说不完

ElevenLabs Prompt:
"Middle-aged man who thinks he's charismatic but isn't.
Slightly nasal voice, medium-high pitch. Speaks too
loudly and too fast, often interrupting himself.
French accent, corporate buzzwords enthusiast.
Michael Scott energy."

Personnage 2: Sophie (L'Exaspérée)

角色2: 苏菲(抓狂的员工)

Profil:
- Femme, 35 ans
- Compétente, fatiguée
- Sarcasme subtil
- Soupirs audibles

Voix:
- Medium, légèrement grave pour femme
- Sèche, précise
- Monotone quand exaspérée
- Soupirs comme ponctuation

Prompt Qwen3-TTS:
"Professional woman in her 30s, tired of everything.
Dry, slightly deadpan delivery. French, neutral accent.
Subtle sarcasm in every line. Occasional audible sighs.
The straight man in every comedy duo."
画像:
- 女,35岁
- 能力强,疲惫
-  subtle  sarcasm
- 经常 audible 叹气

语音配置:
- 中音,女性里略带低音
- 干涩,精准
- 抓狂时语气平淡
- 用叹气当标点

Qwen3-TTS Prompt:
"Professional woman in her 30s, tired of everything.
Dry, slightly deadpan delivery. French, neutral accent.
Subtle sarcasm in every line. Occasional audible sighs.
The straight man in every comedy duo."

Personnage 3: Théo (Le Stagiaire)

角色3: 西奥(实习生)

Profil:
- Homme, 22 ans
- Trop enthousiaste
- Voix qui monte en fin de phrase
- Acquiesce à tout

Voix:
- Medium-aigu
- Énergique, rapide
- Upspeak (fin de phrase montante)
- Ponctué de "super!", "génial!"

Prompt:
"Young man, early 20s, overly enthusiastic intern.
High-medium pitch, speaks quickly with upward
inflection at end of sentences. French, sounds
like he just discovered coffee. Every statement
sounds like an excited question."
画像:
- 男,22岁
- 过度热情
- 句尾音调上扬
- 什么都同意

语音配置:
- 中高音
- 有活力,语速快
- 升调结尾(句尾音调上扬)
- 经常说"太棒了!","太赞了!"

Prompt:
"Young man, early 20s, overly enthusiastic intern.
High-medium pitch, speaks quickly with upward
inflection at end of sentences. French, sounds
like he just discovered coffee. Every statement
sounds like an excited question."

Exemple de dialogue

对话示例

MICHEL: (loud) "Bon, l'équipe! J'ai une GRANDE nouvelle—
        enfin, moyenne—non, grande!"

SOPHIE: (flat) "[soupir] ...C'est la réunion quotidienne."

THÉO: (excited) "Oh WOW! Une grande nouvelle? C'est GÉNIAL!"

MICHEL: "Théo comprend, LUI. Donc, on va—
        comment ça s'appelle—pivoter!"

SOPHIE: "...On a pivoté hier."

THÉO: "RE-pivoter! J'ADORE re-pivoter!"
米歇尔:(大声)"好的各位!我有个超——
        好吧,中等的——不对,超大的好消息!"

苏菲:(平淡)"[叹气] ...是每日例会对吧。"

西奥:(兴奋)"哇哦!超大好消息?太赞了!"

米歇尔: "西奥懂我。所以我们要——
        那个词怎么说来着—— pivot!"

苏菲: "...我们昨天刚pivot过。"

西奥: "再pivot一次!我超爱再pivot一次!"

Production notes

生产注意事项

  • Générer chaque personnage séparément
  • Michel: boost 3-4kHz (plus "présent")
  • Sophie: légère réverb room (distance émotionnelle)
  • Théo: compression pour contenir les pics
Why this works: Les trois voix sont immédiatement distinctes par registre, rythme et énergie. Le contraste crée la comédie - le chaos de Michel, le calme de Sophie, l'excès de Théo.

  • 每个角色单独生成
  • 米歇尔: 提升3-4kHz(更有"存在感")
  • 苏菲: 轻微房间混响(体现情感距离)
  • 西奥: 压缩处理控制音量峰值
设计逻辑: 三个声音在音域、语速、能量上都有明显区分,对比制造喜剧效果——米歇尔的混乱、苏菲的平静、西奥的过度热情形成反差。

Checklists & Templates

检查清单与模板

Checklist Voice Design

语音设计检查清单

undefined
undefined

Validation Voice Design

语音设计验证

Brief complet

需求完整度

  • Genre et âge définis
  • Registre spécifié (grave/medium/aigu)
  • Texture décrite (lisse/rauque/etc)
  • Énergie et rythme indiqués
  • Accent précisé
  • Références incluses
  • 已定义性别和年龄
  • 已指定音域(低/中/高)
  • 已描述音色(顺滑/沙哑等)
  • 已说明情绪能量和语速
  • 已明确口音要求
  • 已包含参考示例

Génération

生成验证

  • Prompt testé avec phrase sample
  • Qualité audio vérifiée (pas de glitches)
  • Volume normalisé
  • Cohérence avec brand voice
  • 已用示例句子测试Prompt
  • 已验证音质(无杂音/ glitch)
  • 已完成音量归一化
  • 与品牌语音风格一致

Multi-personnages

多角色验证

  • Voix suffisamment distinctes
  • Registres variés
  • Énergies contrastées
  • Test d'écoute ensemble

---
  • 语音区分度足够
  • 音域搭配合理
  • 能量对比清晰
  • 已做整体试听测试

---

Template Voice Brief

语音需求模板

undefined
undefined

Voice Brief: [Projet]

语音需求说明:[项目名]

Identité

基础信息

Projet/Marque: ________________________________ Type de contenu: [ ] Pub [ ] Explainer [ ] Narration [ ] Dialogue Durée totale: __________ secondes
项目/品牌: ________________________________ 内容类型: [ ] 广告 [ ] 讲解视频 [ ] 旁白 [ ] 对话 总时长: __________ 秒

Profil vocal

语音画像

Genre: [ ] M [ ] F [ ] Non-binaire Âge: _______ ans Registre: [ ] Grave [ ] Medium [ ] Aigu
性别: [ ] 男 [ ] 女 [ ] 非二元性别 年龄: _______ 岁 音域: [ ] 低音 [ ] 中音 [ ] 高音

Caractéristiques

声音特征

Texture: ________________________________ Énergie: ________________________________ Rythme: ________________________________ Accent: ________________________________
音色: ________________________________ 情绪能量: ________________________________ 语速: ________________________________ 口音: ________________________________

Contexte émotionnel

情感语境

L'auditeur doit ressentir: ________________________________ Éviter: ________________________________
听众要感受到的情绪: ________________________________ 要避免的风格: ________________________________

Référence

参考

Similaire à: ________________________________
相似声音: ________________________________

Solution technique

技术方案

[ ] ElevenLabs (budget: $_____/mois) [ ] Qwen3-TTS (self-hosted) [ ] Clone d'une voix existante
[ ] ElevenLabs(预算: $_____/月) [ ] Qwen3-TTS(私有化部署) [ ] 克隆已有声音

Script

脚本

[Coller le script avec indications de pause]

---
[粘贴带停顿标注的脚本]

---

Coûts comparatifs

成本对比

undefined
undefined

Budget TTS

TTS预算参考

ElevenLabs

ElevenLabs

PlanPrix/moisCaractèresÉquivalent
Free$010k~2 min
Starter$530k~6 min
Creator$22100k~20 min
Pro$99500k~100 min
套餐月费字符量等效时长
免费版$01万~2分钟
入门版$53万~6分钟
创作者版$2210万~20分钟
专业版$9950万~100分钟

Qwen3-TTS (Self-hosted)

Qwen3-TTS(私有化部署)

ComposantCoût
GPU (RTX 3090)~$800 one-time
Cloud GPU (A10)~$1/heure
HébergementVariable
GénérationIllimité
组件成本
GPU(RTX 3090)约$800 一次性支出
云端GPU(A10)约$1/小时
托管费用不固定
生成量无限制

Recommandation par volume

按使用量推荐

  • < 5 min/mois → ElevenLabs Free + Qwen3-TTS
  • 5-20 min/mois → ElevenLabs Creator ($22)
  • 20-100 min/mois → ElevenLabs Pro ($99)
  • 100 min/mois → Qwen3-TTS self-hosted
undefined
  • 月生成量<5分钟 → ElevenLabs免费版 + Qwen3-TTS
  • 月生成量5-20分钟 → ElevenLabs创作者版($22)
  • 月生成量20-100分钟 → ElevenLabs专业版($99)
  • 月生成量>100分钟 → Qwen3-TTS私有化部署
undefined

Skill Boundaries

技能边界

What This Skill Does Well

擅长的功能

  • Structuring audio production workflows
  • Providing technical guidance
  • Creating quality checklists
  • Suggesting creative approaches
  • 搭建音频生产工作流
  • 提供技术指导
  • 创建质量检查清单
  • 提供创意方向建议

What This Skill Cannot Do

不支持的功能

  • Replace audio engineering expertise
  • Make subjective creative decisions
  • Access or edit audio files directly
  • Guarantee commercial success
  • 替代专业音频工程师的经验
  • 替你做主观的创意决策
  • 直接访问或编辑音频文件
  • 保证商业成功

References

参考资料

Related Skills

相关技能

  • ai-video-prompting - Intégration audio dans les prompts Veo
  • ai-video-qa - Vérification qualité audio
  • copywriting-ogilvy - Écriture des scripts voix

  • AI视频提示词工程 - 在Veo提示词中集成音频需求
  • AI视频质量检查 - 音频质量验证
  • 奥美文案写作 - 语音脚本撰写

Skill Metadata

技能元数据

  • Mode: cyborg
yaml
name: ai-voice-design
category: video
subcategory: production
version: 1.0
author: MKTG Skills
source_expert: ElevenLabs + Qwen3-TTS + PJ Ace
source_work: TTS Documentation
difficulty: intermediate
estimated_value: $500-2000 (voice design + production)
tags: [video, ai, voice, tts, elevenlabs, qwen, cloning, audio]
created: 2026-01-25
updated: 2026-01-25
  • 模式: cyborg
yaml
name: ai-voice-design
category: video
subcategory: production
version: 1.0
author: MKTG Skills
source_expert: ElevenLabs + Qwen3-TTS + PJ Ace
source_work: TTS Documentation
difficulty: intermediate
estimated_value: $500-2000 (voice design + production)
tags: [video, ai, voice, tts, elevenlabs, qwen, cloning, audio]
created: 2026-01-25
updated: 2026-01-25