bailian-multimodal-skills

Compare original and translation side by side

🇺🇸

Original

English

🇨🇳

Translation

Chinese

Bailian Multimodal Skills

百炼多模态技能

Generate images, audio, video, and transcribe speech using Aliyun Bailian (Qwen/Wan/CosyVoice) models.

使用阿里云百炼（Qwen/Wan/CosyVoice）模型生成图片、音频、视频，并进行语音转写。

Features

功能特性

Image Generation:
```
z-image-turbo
```
,
```
wan2.6-t2i
```
ASR (Speech-to-Text):
```
qwen3-asr-flash
```
TTS (Text-to-Speech):
```
qwen3-tts-flash
```
Text-to-Video:
```
wan2.6-t2v
```
Image-to-Video:
```
wan2.6-i2v-flash
```
,
```
wan2.6-i2v
```
Reference-to-Video:
```
wan2.6-r2v-flash
```
,
```
wan2.6-r2v
```

图片生成：
```
z-image-turbo
```
,
```
wan2.6-t2i
```
ASR（语音转文字）：
```
qwen3-asr-flash
```
TTS（文字转语音）：
```
qwen3-tts-flash
```
文字转视频：
```
wan2.6-t2v
```
图片转视频：
```
wan2.6-i2v-flash
```
,
```
wan2.6-i2v
```
参考素材转视频：
```
wan2.6-r2v-flash
```
,
```
wan2.6-r2v
```

Usage

使用方法

1. Image Generation

1. 图片生成

Generate images from text.

bash

uv run {baseDir}/scripts/run_multimodal.py --mode image --model z-image-turbo --prompt "A futuristic city" --output "city.png"

Models:

z-image-turbo

wan2.6-t2i

根据文字描述生成图片。

bash

uv run {baseDir}/scripts/run_multimodal.py --mode image --model z-image-turbo --prompt "A futuristic city" --output "city.png"

可用模型：

z-image-turbo

wan2.6-t2i

2. ASR (Speech Recognition)

2. ASR（语音识别）

Transcribe audio files or URLs to text.

bash

uv run {baseDir}/scripts/run_multimodal.py --mode asr --model qwen3-asr-flash --input-audio "https://example.com/audio.mp3"

将音频文件或URL转写为文字。

bash

uv run {baseDir}/scripts/run_multimodal.py --mode asr --model qwen3-asr-flash --input-audio "https://example.com/audio.mp3"

3. TTS (Speech Synthesis)

3. TTS（语音合成）

Convert text to speech.

bash

uv run {baseDir}/scripts/run_multimodal.py --mode tts --model qwen3-tts-flash --text "Hello world" --output "hello.wav"

将文字转换为语音。

bash

uv run {baseDir}/scripts/run_multimodal.py --mode tts --model qwen3-tts-flash --text "Hello world" --output "hello.wav"

4. Text-to-Video (T2V)

4. 文字转视频（T2V）

Generate video from text prompt. Async task with auto-polling.

bash

uv run {baseDir}/scripts/run_multimodal.py --mode t2v --model wan2.6-t2v --prompt "一只小猫在月光下奔跑" --duration 10 --size "1280*720" --output "cat.mp4"

Models:

wan2.6-t2v

Options:

--size

(e.g., 1280720, 19201080),

--duration

(2-15s),

--prompt-extend

--no-prompt-extend

--shot-type single|multi

--negative-prompt

--audio-url

--watermark

--seed

根据文字提示生成视频，异步任务自动轮询状态。

bash

uv run {baseDir}/scripts/run_multimodal.py --mode t2v --model wan2.6-t2v --prompt "一只小猫在月光下奔跑" --duration 10 --size "1280*720" --output "cat.mp4"

可用模型：

wan2.6-t2v

可选参数：

--size

（例如 1280720、19201080）、

--duration

（2-15秒）、

--prompt-extend

--no-prompt-extend

、

--shot-type single|multi

、

--negative-prompt

、

--audio-url

、

--watermark

、

--seed

5. Image-to-Video (I2V)

5. 图片转视频（I2V）

Generate video from a reference image (first frame).

bash

uv run {baseDir}/scripts/run_multimodal.py --mode i2v --model wan2.6-i2v-flash --img-url "https://example.com/cat.png" --prompt "A cat running" --resolution 720P --duration 5 --output "cat_run.mp4"

Models:

wan2.6-i2v-flash

wan2.6-i2v

Options:

--img-url

(required, image URL or base64),

--prompt

--resolution

(480P/720P/1080P),

--duration

--prompt-extend

--no-prompt-extend

--shot-type single|multi

--negative-prompt

--audio-url

--watermark

--seed

以参考图片作为第一帧生成视频。

bash

uv run {baseDir}/scripts/run_multimodal.py --mode i2v --model wan2.6-i2v-flash --img-url "https://example.com/cat.png" --prompt "A cat running" --resolution 720P --duration 5 --output "cat_run.mp4"

可用模型：

wan2.6-i2v-flash

wan2.6-i2v

可选参数：

--img-url

（必填，图片URL或base64编码）、

--prompt

、

--resolution

（480P/720P/1080P）、

--duration

、

--prompt-extend

--no-prompt-extend

、

--shot-type single|multi

、

--negative-prompt

、

--audio-url

、

--watermark

、

--seed

6. Reference-to-Video (R2V)

6. 参考素材转视频（R2V）

Generate video with character/object references (images or videos as actors).

bash

uv run {baseDir}/scripts/run_multimodal.py --mode r2v --model wan2.6-r2v-flash --prompt "character1 在公园里散步" --reference-urls "https://example.com/person.png" --size "1280*720" --duration 5 --output "walk.mp4"

Multi-character example:

bash

uv run {baseDir}/scripts/run_multimodal.py --mode r2v --model wan2.6-r2v-flash --prompt "character1 对 character2 说你好" --reference-urls "https://example.com/role1.mp4" "https://example.com/role2.png" --shot-type multi --output "dialog.mp4"

Models:

wan2.6-r2v-flash

wan2.6-r2v

Options:

--reference-urls

(required, space-separated, up to 5),

--prompt

(required, use character1/character2 to map references),

--size

--duration

(2-10s),

--shot-type single|multi

--negative-prompt

--no-audio

(silent, r2v-flash only),

--watermark

--seed

使用角色/物体参考素材（图片或视频作为角色）生成视频。

bash

uv run {baseDir}/scripts/run_multimodal.py --mode r2v --model wan2.6-r2v-flash --prompt "character1 在公园里散步" --reference-urls "https://example.com/person.png" --size "1280*720" --duration 5 --output "walk.mp4"

多角色示例：

bash

uv run {baseDir}/scripts/run_multimodal.py --mode r2v --model wan2.6-r2v-flash --prompt "character1 对 character2 说你好" --reference-urls "https://example.com/role1.mp4" "https://example.com/role2.png" --shot-type multi --output "dialog.mp4"

可用模型：

wan2.6-r2v-flash

wan2.6-r2v

可选参数：

--reference-urls

（必填，空格分隔，最多5个）、

--prompt

（必填，使用character1/character2映射参考素材）、

--size

、

--duration

（2-10秒）、

--shot-type single|multi

、

--negative-prompt

、

--no-audio

（静音，仅r2v-flash支持）、

--watermark

、

--seed

Configuration

配置说明

API Key 按以下优先级读取：

命令行参数
```
--api-key
```
环境变量
```
DASHSCOPE_API_KEY
```

配置文件

~/.config/bailian-multimodal/api_key.txt

bash

undefined

API Key 按以下优先级读取：

命令行参数
```
--api-key
```
环境变量
```
DASHSCOPE_API_KEY
```

配置文件

~/.config/bailian-multimodal/api_key.txt

bash

undefined

方式一：环境变量

export DASHSCOPE_API_KEY="sk-..."

方式二：配置文件

mkdir -p ~/.config/bailian-multimodal echo "sk-..." > ~/.config/bailian-multimodal/api_key.txt

undefined

mkdir -p ~/.config/bailian-multimodal echo "sk-..." > ~/.config/bailian-multimodal/api_key.txt

undefined