ai-voice-design

Compare original and translation side by side

🇺🇸

Original

English

🇨🇳

Translation

Chinese

AI Voice Design

AI语音设计

Concevez et générez des voix IA pour vos vidéos en utilisant ElevenLabs ou Qwen3-TTS, avec clonage vocal, design par description, et synchronisation lip-sync.

使用ElevenLabs或Qwen3-TTS为你的视频设计并生成AI语音，支持声音克隆、描述式自定义以及口型同步功能。

When to Use This Skill

适用场景

Créer une voix de marque - Définir le ton vocal pour une campagne
Cloner une voix existante - Reproduire une voix avec autorisation
Designer une voix originale - Créer une voix à partir d'une description
Multi-personnages - Gérer plusieurs voix dans une même vidéo
Lip-sync vidéo IA - Synchroniser voix et mouvements de lèvres
Localisation - Adapter une voix en plusieurs langues

打造品牌专属语音 - 为营销活动确定统一语气
克隆已有声音 - 经授权复刻特定人声
设计原创语音 - 根据文字描述生成全新音色
多角色场景 - 管理同一视频内的多个语音配置
AI视频口型同步 - 同步语音与唇部动作
内容本地化 - 将语音适配为多语言版本

Methodology Foundation

方法基础

Source: ElevenLabs Documentation + Qwen3-TTS (Alibaba) + PJ Ace workflow

Core Principle: "La voix est 50% de l'impact d'une vidéo. ElevenLabs offre la qualité premium, Qwen3-TTS offre la flexibilité open-source. Le choix dépend du budget et du contrôle souhaité."

Why This Matters: Une voix mal choisie ou mal générée casse l'illusion d'une vidéo IA. Le bon matching voix/personnage et une qualité audio professionnelle font la différence entre "AI slop" et contenu crédible.

来源: ElevenLabs官方文档 + 通义千问Qwen3-TTS（阿里巴巴） + PJ Ace工作流

核心原则: "语音决定了视频50%的传播效果。ElevenLabs提供顶级音质，Qwen3-TTS提供开源灵活性，选择取决于预算和所需的管控程度。"

重要性说明: 不合适或者低质量的生成语音会直接打破AI视频的真实感。音色与角色的匹配度、专业的音频质量是区分"AI垃圾内容"和可信内容的核心要素。

What Claude Does vs What You Decide

Claude负责事项 vs 你需要决策的事项

Claude Does	You Decide
Structures production workflow	Final creative direction
Suggests technical approaches	Equipment and tool choices
Creates templates and checklists	Quality standards
Identifies best practices	Brand/voice decisions
Generates script outlines	Final script approval

Claude负责	你需要决策
搭建生产工作流	最终创意方向
提供技术方案建议	设备与工具选择
创建模板与检查清单	质量标准
总结最佳实践	品牌/语音风格决策
生成脚本大纲	最终脚本审批

What This Skill Does

技能功能

Compare les solutions TTS - ElevenLabs vs Qwen3-TTS
Guide le clonage vocal - Process et requirements
Structure le voice design - Description textuelle de voix
Gère le multi-voix - Attribution et cohérence
Prépare le lip-sync - Intégration avec Kling/Veo

TTS方案对比 - 对比ElevenLabs与Qwen3-TTS的差异
声音克隆指导 - 完整流程与要求说明
语音设计框架 - 基于文字描述的语音配置方法
多语音管理 - 角色音色分配与一致性管控
口型同步准备 - 对接Kling/Veo等工具的集成方案

How to Use

使用方式

Designer une voix pour une pub

为广告设计专属语音

J'ai besoin d'une voix pour ma pub [produit]. Le ton doit être [description]. Aide-moi à la designer.

我需要为[产品]广告设计一款语音， tone要求是[描述内容]，帮我完成设计。

Cloner une voix

克隆指定声音

Je veux cloner cette voix [description/échantillon]. Guide-moi à travers le process avec [ElevenLabs/Qwen3-TTS].

我想克隆[描述/音频样本]这个声音，教我用[ElevenLabs/Qwen3-TTS]实现的完整流程。

Gérer plusieurs personnages

管理多角色语音

J'ai 3 personnages dans ma vidéo: [descriptions]. Crée le casting vocal.

我的视频里有3个角色：[角色描述]，帮我完成声音选角。

Instructions

操作指南

Step 1: Choisir la solution TTS

步骤1: 选择TTS解决方案

undefined

undefined

Comparatif ElevenLabs vs Qwen3-TTS

ElevenLabs vs Qwen3-TTS对比

Critère	ElevenLabs	Qwen3-TTS
Prix	$5-$330/mois	Gratuit (open-source)
Qualité	Excellente	Excellente
Voice cloning	1-5 min audio	3 sec audio
Langues	29+	10 (EN, FR, DE, ES, IT, PT, RU, ZH, JP, KO)
Latence	~200ms	97ms (streaming)
Self-hosted	Non	Oui
Voice design	VoiceLab	Description textuelle
API	Cloud	Local ou cloud

对比维度	ElevenLabs	Qwen3-TTS
价格	$5-$330/月	免费（开源）
音质	极佳	极佳
声音克隆要求	1-5分钟音频	3秒音频
支持语言	29种以上	10种（英、法、德、西、意、葡、俄、中、日、韩）
延迟	~200ms	97ms（流式输出）
支持私有化部署	不支持	支持
语音设计功能	VoiceLab可视化配置	文字描述生成
API	云端调用	本地/云端调用都支持

Arbre de décision

决策树

Q1: Budget disponible?

$0 (gratuit) → Qwen3-TTS
$5-$100/mois → ElevenLabs Starter/Creator
$100+/mois → ElevenLabs Pro

Q2: Besoin de self-hosting?

Oui (données sensibles) → Qwen3-TTS
Non → ElevenLabs ou Qwen3-TTS

Q3: Langue requise parmi FR, EN, DE, ES, IT, PT, RU, ZH, JP, KO?

Oui → Les deux fonctionnent
Non (autre langue) → ElevenLabs

Q4: Latence critique (real-time)?

Oui → Qwen3-TTS (97ms)
Non → Les deux

---

问题1: 可用预算是多少？

$0（免费） → 选Qwen3-TTS
$5-$100/月 → 选ElevenLabs入门/创作者版
$100+/月 → 选ElevenLabs专业版

问题2: 是否需要私有化部署？

是（涉及敏感数据） → 选Qwen3-TTS
否 → 两者都可

问题3: 需要的语言是否在法、英、德、西、意、葡、俄、中、日、韩范围内？

是 → 两者都支持
否（其他小语种） → 选ElevenLabs

问题4: 对延迟要求是否极高（实时场景）？

是 → 选Qwen3-TTS（97ms）
否 → 两者都可

---

Step 2: Voice Design par description

步骤2: 基于描述的语音设计

undefined

undefined

Template de Description de Voix

语音描述模板

Caractéristiques de base

基础特征

Genre: [ ] Masculin [ ] Féminin [ ] Non-binaire Âge apparent: [20s / 30s / 40s / 50s / 60s+] Registre: [ ] Grave [ ] Medium [ ] Aigu

性别: [ ] 男 [ ] 女 [ ] 非二元性别 预估年龄: [20-29岁 / 30-39岁 / 40-49岁 / 50-59岁 / 60岁以上] 音域: [ ] 低音 [ ] 中音 [ ] 高音

Qualités vocales

声音质感

Texture: [ ] Lisse/Veloutée [ ] Rauque/Gravelly [ ] Nasale [ ] Claire [ ] Résonante

Énergie: [ ] Calme/Posée [ ] Dynamique [ ] Intense [ ] Chaleureuse [ ] Froide/Distante

Rythme: [ ] Lent/Délibéré [ ] Modéré [ ] Rapide [ ] Varié (storytelling)

音色: [ ] 顺滑/柔和 [ ] 沙哑/颗粒感 [ ] 鼻音重 [ ] 清亮 [ ] 有共鸣感

情绪能量: [ ] 平静/沉稳 [ ] 有活力 [ ] 有张力 [ ] 温暖 [ ] 冰冷/有距离感

语速: [ ] 慢/咬字清晰 [ ] 中等 [ ] 快 [ ] 多变（适合讲故事）

Accent/Origine

口音/来源

Accent: [Ex: Français neutre, British RP, Southern US, etc.] Particularités: [Ex: légèrement rauque le matin, sourire dans la voix]

口音: [例：标准普通话、英式RP、美国南方口音等] 特点: [例：早上略带沙哑、说话带笑意]

Contexte d'utilisation

使用场景

Marque/Produit: ________________________________ Ton de la campagne: ________________________________ Personnage (si fiction): ________________________________

品牌/产品: ________________________________ 活动基调: ________________________________ 角色（如果是虚构内容）: ________________________________

Exemples de référence (optionnel)

参考示例（可选）

Voix similaire à: [Célébrité, personnage, pub connue] Éviter: [Ce qu'on ne veut pas]


**Exemple de description complète:**

相似声音: [名人、影视角色、知名广告配音] 要避免的风格: [不想要的声音特征]


**完整描述示例:**

Voice Brief: Pub NeuroBoost

语音需求说明：NeuroBoost广告

Profil: Homme, 40s, registre grave-medium

Qualités:

Texture résonante et autoritaire mais pas intimidante
Énergie posée, confiante, légèrement inspirante
Rythme délibéré avec pauses stratégiques

Accent: Français international (pas d'accent régional marqué) Diction parfaite, articulation claire

Références:

Similaire à: Morgan Freeman mais version française
Éviter: Ton commercial agressif, urgence artificielle

Notes: Cette voix doit incarner l'expertise et la confiance. Le spectateur doit sentir qu'il reçoit un conseil d'un mentor plutôt qu'un pitch de vendeur.

---

基本信息: 男，40-49岁，中低音域

声音特征:

音色有共鸣、有权威感但不吓人
情绪沉稳、自信、略带感染力
语速平稳，会 strategically 停顿

口音: 国际范法语（无明显地方口音）吐字完美，发音清晰

参考:

类似：法语版摩根·弗里曼
避免：激进的销售语气、刻意营造的紧迫感

备注: 这个声音要体现专业感和信任感。观众要感觉是在听导师的建议，而不是销售的推销话术。

---

Step 3: Clonage vocal

步骤3: 声音克隆

ElevenLabs

undefined

undefined

Process de clonage ElevenLabs

ElevenLabs克隆流程

Instant Clone (1-5 min audio)

快速克隆（1-5分钟音频）

Qualité: Bonne (80% fidélité) Usage: Tests, itération rapide

Préparer audio source:
- 1-5 minutes de parole claire
- Pas de musique de fond
- Qualité minimum: 128kbps
- Formats: MP3, WAV, M4A
Dans ElevenLabs:
- Voice Lab → Add Voice → Instant Clone
- Upload audio
- Nommer la voix
- Tester avec phrase sample

音质: 良好（80%还原度） 适用场景: 测试、快速迭代

准备源音频:
- 1-5分钟清晰的人声
- 无背景音
- 最低音质要求: 128kbps
- 支持格式: MP3, WAV, M4A
在ElevenLabs操作:
- 进入Voice Lab → 添加语音 → 快速克隆
- 上传音频
- 为语音命名
- 用示例句子测试效果

Professional Clone (30+ min audio)

专业克隆（30分钟以上音频）

Qualité: Excellente (95%+ fidélité) Usage: Production commerciale

Préparer corpus audio:
- 30-60 minutes idéalement
- Variété d'émotions et tons
- Phrases complètes, pas de mots isolés
- Studio quality (256kbps+, pas de bruit)
Soumettre pour training
- Délai: 24-48h
- Coût: Inclus dans plan Pro+

音质: 极佳（95%以上还原度） 适用场景: 商业内容生产

准备音频语料:
- 理想时长30-60分钟
- 包含多种情绪和语气
- 完整句子，不要孤立单词
- 录音室级音质（256kbps以上，无杂音）
提交训练
- 处理周期: 24-48小时
- 费用: 包含在Pro+套餐内

Paramètres de génération

生成参数

Stability: 50-70% (naturel) / 80%+ (consistant)
Clarity: 75%+ recommandé
Style: 0-100% selon expressivité souhaitée

undefined

稳定性: 50-70%（自然） / 80%以上（风格一致）
清晰度: 建议75%以上
风格化: 0-100%，根据需要的表达力调整

undefined

Qwen3-TTS

undefined

undefined

Process de clonage Qwen3-TTS

Qwen3-TTS克隆流程

Zero-shot Clone (3 sec audio)

零样本克隆（3秒音频）

Qualité: Très bonne Usage: Toute production

Préparer référence:
- 3-10 secondes de parole claire
- Pas de bruit de fond
- Émotion neutre ou représentative
API Python:

python

from qwen3_tts import Qwen3TTS

tts = Qwen3TTS()

音质: 非常好 适用场景: 所有生产场景

准备参考音频:
- 3-10秒清晰人声
- 无背景杂音
- 情绪中性或符合目标场景
Python API调用:

python

from qwen3_tts import Qwen3TTS

tts = Qwen3TTS()

Cloner depuis référence

从参考音频克隆声音

voice = tts.clone_voice( reference_audio="reference.wav", voice_name="my_voice" )

Générer avec la voix clonée

用克隆的声音生成语音

audio = tts.generate( text="Texte à synthétiser", voice=voice, language="fr" ) audio.save("output.wav")

undefined

audio = tts.generate( text="要合成的文本", voice=voice, language="fr" ) audio.save("output.wav")

undefined

Voice Design par texte

基于文本的语音设计

python

undefined

python

undefined

Créer une voix sans référence audio

无需参考音频创建语音

voice = tts.design_voice( description="A warm, confident male voice in his 40s,
with a slight French accent, speaking slowly and
deliberately with gravitas." )

audio = tts.generate( text="Votre texte ici", voice=voice )

undefined

voice = tts.design_voice( description="A warm, confident male voice in his 40s,
with a slight French accent, speaking slowly and
deliberately with gravitas." )

audio = tts.generate( text="你的文本内容", voice=voice )

undefined

Paramètres avancés

高级参数

emotion: "neutral", "happy", "sad", "angry", "surprise"
speed: 0.5 (lent) à 2.0 (rapide)
pitch: -10 à +10 (demi-tons)

---

情绪: "neutral"（中性）, "happy"（开心）, "sad"（悲伤）, "angry"（生气）, "surprise"（惊讶）
语速: 0.5（慢）到 2.0（快）
音调: -10 到 +10（半音为单位）

---

Step 4: Multi-personnages

步骤4: 多角色管理

undefined

undefined

Casting Vocal Multi-personnages

多角色语音选角

Template de casting

选角模板

Personnage	Description	Voix	Source
[Nom]	[Description physique/personnalité]	[Specs vocales]	[Clone/Design/Stock]

角色	描述	语音配置	来源
[姓名]	[外貌/性格描述]	[语音参数]	[克隆/自定义/预设]

Exemple: Pub avec 3 personnages

示例：3个角色的广告

Personnage	Description	Voix	Source
CEO Emma	35 ans, confiante, leader	Femme, medium, autoritaire-warm	Design: "Confident female executive..."
Dev Tom	28 ans, geek enthousiaste	Homme, medium-aigu, rapide	Stock: "Young professional male"
Client Marc	50 ans, sceptique puis convaincu	Homme, grave, hésitant→assuré	Design: "Skeptical older businessman..."

角色	描述	语音配置	来源
CEO Emma	35岁，自信，领导力强	女，中音，权威但温暖	自定义: "自信的女性高管..."
开发Tom	28岁，热情的技术爱好者	男，中高音，语速快	预设: "年轻职业男性"
客户Marc	50岁，从怀疑到被说服	男，低音，从犹豫到坚定	自定义: "持怀疑态度的老年商人..."

Règles de différenciation

区分规则

Registres variés: Grave, Medium, Aigu
Rythmes différents: Lent vs Rapide
Accents distincts: Si approprié au contexte
Énergies contrastées: Calme vs Dynamique

音域差异化: 低音、中音、高音搭配
语速差异化: 慢 vs 快
口音差异化: 符合场景的前提下使用不同口音
能量差异化: 平静 vs 有活力

Workflow multi-voix

多语音工作流

Générer chaque réplique séparément
Nommer fichiers:
```
P1_Emma_Line01.wav
```
Assembler dans timeline audio
Vérifier cohérence de volume (normaliser à -6dB)

---

分别生成每句台词
文件命名规则:
```
P1_Emma_Line01.wav
```
在音频时间轴上拼接
检查音量一致性（统一归一化到-6dB）

---

Step 5: Lip-sync et intégration vidéo

步骤5: 口型同步与视频集成

undefined

undefined

Intégration Voix + Vidéo IA

语音+AI视频集成

Option A: Veo 3.1 (Audio natif)

方案A: Veo 3.1（原生音频支持）

La voix est générée par Veo avec la vidéo.

Prompt incluant audio:
"[Scene description]. The character says:
'[Dialogue exact]'. Voice: confident male, 30s,
warm tone. Ambient: office sounds."

Limitation: Moins de contrôle sur la voix exacte.

语音随视频一起由Veo生成。

包含音频的Prompt:
"[场景描述]. 角色说:
'[准确台词]'. 语音: 自信的男性，30-39岁，
语气温暖。环境音: 办公室声音。"

局限性: 对精准语音的控制度较低。

Option B: Kling 2.6 Motion Control

方案B: Kling 2.6动作控制

Lip-sync depuis vidéo "driving".

Enregistrer vous-même le dialogue
Utiliser Kling avec driving video
Le lip-sync suit votre performance
Remplacer audio par voix IA en post

Workflow:
You → Record driving video with dialogue
Kling → Transfer lips to AI character
Post → Replace audio with ElevenLabs/Qwen voice

基于驱动视频的口型同步。

自己录制台词
将驱动视频上传到Kling
口型会跟随你的录制动作
后期用AI生成的语音替换原音频

工作流:
你 → 录制带台词的驱动视频
Kling → 将唇形迁移到AI角色上
后期 → 用ElevenLabs/Qwen生成的语音替换原音频

Option C: Génération séparée + Post-sync

方案C: 分开生成 + 后期同步

Pour contrôle maximum.

Générer vidéo sans audio (Runway, Pika)
Générer voix séparément
Synchroniser en post-production
Ajuster timing manuellement si besoin

Outils de sync:

DaVinci Resolve (gratuit)
Adobe Premiere
D-ID (sync automatique)

最高控制度方案。

生成无音频的视频（Runway、Pika）
单独生成语音
后期制作中同步
必要时手动调整时间轴

同步工具:

DaVinci Resolve（免费）
Adobe Premiere
D-ID（自动同步）

Checklist Lip-sync

口型同步检查清单

Timing voix correspond au mouvement des lèvres
Pauses naturelles alignées
Volume équilibré avec ambiance
Pas de décalage visible (max 2-3 frames)

---

语音时间与唇部动作匹配
自然停顿对齐
音量与环境音平衡
无可见延迟（最多2-3帧偏差）

---

Step 6: Export et spécifications audio

步骤6: 导出与音频规范

undefined

undefined

Spécifications Audio Finales

最终音频规范

Format de sortie

输出格式

Codec: AAC ou WAV
Sample rate: 48kHz (standard vidéo)
Bit depth: 24-bit (WAV) ou 256kbps (AAC)
Channels: Stereo ou Mono selon usage

编码: AAC 或 WAV
采样率: 48kHz（视频标准）
位深度: 24-bit（WAV）或 256kbps（AAC）
声道: 立体声或单声道，根据用途选择

Niveaux recommandés

Mastering basique

基础母带处理

Normaliser tous les clips voix à -6dB
Appliquer compression légère (ratio 2:1)
EQ: couper sous 80Hz, boost léger 2-4kHz (clarté)
Limiter à -1dB pour éviter clipping

将所有语音片段归一化到-6dB
应用轻度压缩（压缩比2:1）
EQ: 切除80Hz以下低频，轻微提升2-4kHz（提升清晰度）
限制器设为-1dB避免爆音

Deliverables

交付文件结构

📁 Audio_[Project]/
├── voiceover/
│   ├── VO_final_master.wav
│   └── VO_stems/
│       ├── P1_lines.wav
│       ├── P2_lines.wav
│       └── ...
├── sfx/
│   └── [sound effects]
├── music/
│   └── [background music]
└── mix/
    └── final_mix.wav

undefined

📁 Audio_[项目名]/
├── voiceover/
│   ├── VO_final_master.wav
│   └── VO_stems/
│       ├── P1_lines.wav
│       ├── P2_lines.wav
│       └── ...
├── sfx/
│   └── [音效文件]
├── music/
│   └── [背景音乐]
└── mix/
    └── final_mix.wav

undefined

Examples

示例

Example 1: Voice design pour pub premium

示例1: 高端广告语音设计

Context: Marque de montres de luxe, pub cinématique 30s

Input:

J'ai une pub pour une marque de montres haut de gamme. Style très premium, inspiré des pubs Omega ou Rolex. Je veux une voix qui incarne l'excellence et l'héritage.

Output:

背景: 奢侈手表品牌，30秒电影感广告

输入:

我要做一个高端手表品牌的广告，风格非常高端，参考欧米茄或劳力士的广告。我想要一款能体现卓越和传承感的语音。

输出:

Voice Brief: Montres Heritage Collection

语音需求说明：传承系列手表

Profil cible

目标画像

Genre: Masculin
Âge: 55-65 ans
Registre: Grave, profond

性别: 男
年龄: 55-65岁
音域: 低音，低沉

Caractéristiques détaillées

详细特征

Texture: Résonante, veloutée, avec légère patine
         (comme un bois noble ou un cuir vintage)

Énergie: Posée, contemplative, jamais pressée
         Chaque mot est choisi, chaque pause est intention

Rythme: Très lent, délibéré
        4-5 mots par respiration
        Pauses de 1-2 secondes entre phrases

Diction: Parfaite, aristocratique sans être snob
         Consonnes précises, voyelles riches

音色: 有共鸣，柔和，带轻微的岁月质感
         （像名贵木材或者 vintage 皮革）

情绪: 沉稳，有 contemplative 感，从不急促
         每个字都经过斟酌，每个停顿都有意义

语速: 非常慢，咬字清晰
        每呼吸一次说4-5个字
        句子之间停顿1-2秒

吐字: 完美，有贵族感但不傲慢
         辅音清晰，元音饱满

Prompt ElevenLabs (Voice Design)

ElevenLabs Prompt（语音设计）

Create a distinguished male voice in his 60s.
Deep, resonant baritone with natural gravitas.
Speaking style: slow, deliberate, contemplative.
British Received Pronunciation with slight warmth.
Texture like aged whiskey - smooth with depth.
The voice of someone who has seen much and
speaks only when it matters.

Create a distinguished male voice in his 60s.
Deep, resonant baritone with natural gravitas.
Speaking style: slow, deliberate, contemplative.
British Received Pronunciation with slight warmth.
Texture like aged whiskey - smooth with depth.
The voice of someone who has seen much and
speaks only when it matters.

Prompt Qwen3-TTS

Qwen3-TTS Prompt

python

voice = tts.design_voice(
    description="""
    Distinguished older gentleman, 60s, deep baritone.
    British accent, RP. Speaking very slowly and
    deliberately, with natural authority and warmth.
    Voice texture is rich and resonant, like aged oak.
    Contemplative, never rushed. Each word carries weight.
    Think: nature documentary narrator meets luxury brand.
    """
)

python

voice = tts.design_voice(
    description="""
    Distinguished older gentleman, 60s, deep baritone.
    British accent, RP. Speaking very slowly and
    deliberately, with natural authority and warmth.
    Voice texture is rich and resonant, like aged oak.
    Contemplative, never rushed. Each word carries weight.
    Think: nature documentary narrator meets luxury brand.
    """
)

Script avec indications

带标注的脚本

[PAUSE 2s]

"Time..." [PAUSE 1.5s]

"...is not measured." [PAUSE 1s]

"It is crafted." [PAUSE 2s]

"Heritage Collection." [PAUSE 1s]

"Since 1892."

[停顿2秒]

"时间..." [停顿1.5秒]

"...不是被计量的。" [停顿1秒]

"它是被打造的。" [停顿2秒]

"传承系列。" [停顿1秒]

"始于1892年。"

Paramètres techniques

技术参数

Stability: 85% (très consistant pour luxury)
Speed: 0.7x (plus lent)
Pas de musique sous la voix (voix seule, puis musique)

Why this works: Pour le luxe, less is more. Une voix grave, lente et posée communique la confiance et l'intemporalité. Les pauses créent la tension et la valeur perçue.

稳定性: 85%（奢侈品场景要求极高一致性）
语速: 0.7x（更慢）
语音下方不要加背景音乐（先出纯语音，再进音乐）

设计逻辑: 奢侈品领域少即是多。低沉、缓慢、沉稳的语音传递信任感和永恒感，停顿创造张力和感知价值。

Example 2: Multi-personnages comédie

示例2: 喜剧风格多角色配音

Context: Pub SaaS décalée style sitcom avec 3 personnages

Input:

J'ai une pub style The Office avec 3 personnages: le boss incompétent, l'employée exaspérée, et le stagiaire trop enthousiaste. Crée le casting vocal.

Output:

背景: 搞怪SaaS广告，情景喜剧风格，3个角色

输入:

我要做一个《办公室》风格的广告，有3个角色：无能的老板、抓狂的员工、过度热情的实习生。帮我做语音选角。

输出:

Casting Vocal: "Office Chaos" Pub

语音选角："办公室混乱"广告

Personnage 1: Michel (Le Boss)

角色1: 米歇尔（老板）

Profil:
- Homme, 50 ans
- Confiant mais incompétent
- Parle trop fort et trop vite
- S'interrompt lui-même

Voix:
- Medium-aigu (pas grave malgré l'autorité voulue)
- Nasale légèrement
- Volume variable (starts loud, gets louder)
- Phrases inachevées

Prompt ElevenLabs:
"Middle-aged man who thinks he's charismatic but isn't.
Slightly nasal voice, medium-high pitch. Speaks too
loudly and too fast, often interrupting himself.
French accent, corporate buzzwords enthusiast.
Michael Scott energy."

画像:
- 男，50岁
- 自信但无能
- 说话太大声太快
- 经常打断自己

语音配置:
- 中高音（虽然想要权威感但不是低音）
- 略带鼻音
- 音量多变（开始大声，越来越大）
- 句子说不完

ElevenLabs Prompt:
"Middle-aged man who thinks he's charismatic but isn't.
Slightly nasal voice, medium-high pitch. Speaks too
loudly and too fast, often interrupting himself.
French accent, corporate buzzwords enthusiast.
Michael Scott energy."

Personnage 2: Sophie (L'Exaspérée)

角色2: 苏菲（抓狂的员工）

Profil:
- Femme, 35 ans
- Compétente, fatiguée
- Sarcasme subtil
- Soupirs audibles

Voix:
- Medium, légèrement grave pour femme
- Sèche, précise
- Monotone quand exaspérée
- Soupirs comme ponctuation

Prompt Qwen3-TTS:
"Professional woman in her 30s, tired of everything.
Dry, slightly deadpan delivery. French, neutral accent.
Subtle sarcasm in every line. Occasional audible sighs.
The straight man in every comedy duo."

画像:
- 女，35岁
- 能力强，疲惫
-  subtle  sarcasm
- 经常 audible 叹气

语音配置:
- 中音，女性里略带低音
- 干涩，精准
- 抓狂时语气平淡
- 用叹气当标点

Qwen3-TTS Prompt:
"Professional woman in her 30s, tired of everything.
Dry, slightly deadpan delivery. French, neutral accent.
Subtle sarcasm in every line. Occasional audible sighs.
The straight man in every comedy duo."

Personnage 3: Théo (Le Stagiaire)

角色3: 西奥（实习生）

Profil:
- Homme, 22 ans
- Trop enthousiaste
- Voix qui monte en fin de phrase
- Acquiesce à tout

Voix:
- Medium-aigu
- Énergique, rapide
- Upspeak (fin de phrase montante)
- Ponctué de "super!", "génial!"

Prompt:
"Young man, early 20s, overly enthusiastic intern.
High-medium pitch, speaks quickly with upward
inflection at end of sentences. French, sounds
like he just discovered coffee. Every statement
sounds like an excited question."

画像:
- 男，22岁
- 过度热情
- 句尾音调上扬
- 什么都同意

语音配置:
- 中高音
- 有活力，语速快
- 升调结尾（句尾音调上扬）
- 经常说"太棒了！"，"太赞了！"

Prompt:
"Young man, early 20s, overly enthusiastic intern.
High-medium pitch, speaks quickly with upward
inflection at end of sentences. French, sounds
like he just discovered coffee. Every statement
sounds like an excited question."

Exemple de dialogue

对话示例

MICHEL: (loud) "Bon, l'équipe! J'ai une GRANDE nouvelle—
        enfin, moyenne—non, grande!"

SOPHIE: (flat) "[soupir] ...C'est la réunion quotidienne."

THÉO: (excited) "Oh WOW! Une grande nouvelle? C'est GÉNIAL!"

MICHEL: "Théo comprend, LUI. Donc, on va—
        comment ça s'appelle—pivoter!"

SOPHIE: "...On a pivoté hier."

THÉO: "RE-pivoter! J'ADORE re-pivoter!"

米歇尔:（大声）"好的各位！我有个超——
        好吧，中等的——不对，超大的好消息！"

苏菲:（平淡）"[叹气] ...是每日例会对吧。"

西奥:（兴奋）"哇哦！超大好消息？太赞了！"

米歇尔: "西奥懂我。所以我们要——
        那个词怎么说来着—— pivot！"

苏菲: "...我们昨天刚pivot过。"

西奥: "再pivot一次！我超爱再pivot一次！"

Production notes

生产注意事项

Générer chaque personnage séparément
Michel: boost 3-4kHz (plus "présent")
Sophie: légère réverb room (distance émotionnelle)
Théo: compression pour contenir les pics

Why this works: Les trois voix sont immédiatement distinctes par registre, rythme et énergie. Le contraste crée la comédie - le chaos de Michel, le calme de Sophie, l'excès de Théo.

每个角色单独生成
米歇尔: 提升3-4kHz（更有"存在感"）
苏菲: 轻微房间混响（体现情感距离）
西奥: 压缩处理控制音量峰值

设计逻辑: 三个声音在音域、语速、能量上都有明显区分，对比制造喜剧效果——米歇尔的混乱、苏菲的平静、西奥的过度热情形成反差。

Checklists & Templates

检查清单与模板

Checklist Voice Design

语音设计检查清单

undefined

undefined

Validation Voice Design

语音设计验证

Brief complet

需求完整度

Génération

生成验证

Prompt testé avec phrase sample
Qualité audio vérifiée (pas de glitches)
Volume normalisé
Cohérence avec brand voice

已用示例句子测试Prompt
已验证音质（无杂音/ glitch）
已完成音量归一化
与品牌语音风格一致

Multi-personnages

多角色验证

Template Voice Brief

语音需求模板

undefined

undefined

Voice Brief: [Projet]

语音需求说明：[项目名]

Identité

基础信息

Projet/Marque: ________________________________ Type de contenu: [ ] Pub [ ] Explainer [ ] Narration [ ] Dialogue Durée totale: __________ secondes

项目/品牌: ________________________________ 内容类型: [ ] 广告 [ ] 讲解视频 [ ] 旁白 [ ] 对话 总时长: __________ 秒

Profil vocal

语音画像

Genre: [ ] M [ ] F [ ] Non-binaire Âge: _______ ans Registre: [ ] Grave [ ] Medium [ ] Aigu

性别: [ ] 男 [ ] 女 [ ] 非二元性别 年龄: _______ 岁 音域: [ ] 低音 [ ] 中音 [ ] 高音

Caractéristiques

声音特征

Texture: ________________________________ Énergie: ________________________________ Rythme: ________________________________ Accent: ________________________________

音色: ________________________________ 情绪能量: ________________________________ 语速: ________________________________ 口音: ________________________________

Contexte émotionnel

情感语境

L'auditeur doit ressentir: ________________________________ Éviter: ________________________________

听众要感受到的情绪: ________________________________ 要避免的风格: ________________________________

Référence

参考

Similaire à: ________________________________

相似声音: ________________________________

Solution technique

技术方案

[ ] ElevenLabs (budget: $_____/mois) [ ] Qwen3-TTS (self-hosted) [ ] Clone d'une voix existante

[ ] ElevenLabs（预算: $_____/月） [ ] Qwen3-TTS（私有化部署） [ ] 克隆已有声音

Script

脚本

[Coller le script avec indications de pause]

---

[粘贴带停顿标注的脚本]

---

Coûts comparatifs

成本对比

undefined

undefined

Budget TTS

TTS预算参考

ElevenLabs

Plan	Prix/mois	Caractères	Équivalent
Free	$0	10k	~2 min
Starter	$5	30k	~6 min
Creator	$22	100k	~20 min
Pro	$99	500k	~100 min

套餐	月费	字符量	等效时长
免费版	$0	1万	~2分钟
入门版	$5	3万	~6分钟
创作者版	$22	10万	~20分钟
专业版	$99	50万	~100分钟

Qwen3-TTS (Self-hosted)

Qwen3-TTS（私有化部署）

Composant	Coût
GPU (RTX 3090)	~$800 one-time
Cloud GPU (A10)	~$1/heure
Hébergement	Variable
Génération	Illimité

组件	成本
GPU（RTX 3090）	约$800 一次性支出
云端GPU（A10）	约$1/小时
托管费用	不固定
生成量	无限制

Recommandation par volume

按使用量推荐

< 5 min/mois → ElevenLabs Free + Qwen3-TTS
5-20 min/mois → ElevenLabs Creator ($22)
20-100 min/mois → ElevenLabs Pro ($99)
100 min/mois → Qwen3-TTS self-hosted

undefined

月生成量<5分钟 → ElevenLabs免费版 + Qwen3-TTS
月生成量5-20分钟 → ElevenLabs创作者版（$22）
月生成量20-100分钟 → ElevenLabs专业版（$99）
月生成量>100分钟 → Qwen3-TTS私有化部署

undefined

Skill Boundaries

技能边界

What This Skill Does Well

擅长的功能

Structuring audio production workflows
Providing technical guidance
Creating quality checklists
Suggesting creative approaches

搭建音频生产工作流
提供技术指导
创建质量检查清单
提供创意方向建议

What This Skill Cannot Do

不支持的功能

Replace audio engineering expertise
Make subjective creative decisions
Access or edit audio files directly
Guarantee commercial success

替代专业音频工程师的经验
替你做主观的创意决策
直接访问或编辑音频文件
保证商业成功

References

参考资料

Related Skills

Skill Metadata

技能元数据

Mode: cyborg

yaml

name: ai-voice-design
category: video
subcategory: production
version: 1.0
author: MKTG Skills
source_expert: ElevenLabs + Qwen3-TTS + PJ Ace
source_work: TTS Documentation
difficulty: intermediate
estimated_value: $500-2000 (voice design + production)
tags: [video, ai, voice, tts, elevenlabs, qwen, cloning, audio]
created: 2026-01-25
updated: 2026-01-25

模式: cyborg

yaml

name: ai-voice-design
category: video
subcategory: production
version: 1.0
author: MKTG Skills
source_expert: ElevenLabs + Qwen3-TTS + PJ Ace
source_work: TTS Documentation
difficulty: intermediate
estimated_value: $500-2000 (voice design + production)
tags: [video, ai, voice, tts, elevenlabs, qwen, cloning, audio]
created: 2026-01-25
updated: 2026-01-25