bailian-multimodal-skills

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

Bailian Multimodal Skills

百炼多模态技能

Generate images, audio, video, and transcribe speech using Aliyun Bailian (Qwen/Wan/CosyVoice) models.
使用阿里云百炼(Qwen/Wan/CosyVoice)模型生成图片、音频、视频,并进行语音转写。

Features

功能特性

  • Image Generation:
    z-image-turbo
    ,
    wan2.6-t2i
  • ASR (Speech-to-Text):
    qwen3-asr-flash
  • TTS (Text-to-Speech):
    qwen3-tts-flash
  • Text-to-Video:
    wan2.6-t2v
  • Image-to-Video:
    wan2.6-i2v-flash
    ,
    wan2.6-i2v
  • Reference-to-Video:
    wan2.6-r2v-flash
    ,
    wan2.6-r2v
  • 图片生成
    z-image-turbo
    ,
    wan2.6-t2i
  • ASR(语音转文字)
    qwen3-asr-flash
  • TTS(文字转语音)
    qwen3-tts-flash
  • 文字转视频
    wan2.6-t2v
  • 图片转视频
    wan2.6-i2v-flash
    ,
    wan2.6-i2v
  • 参考素材转视频
    wan2.6-r2v-flash
    ,
    wan2.6-r2v

Usage

使用方法

1. Image Generation

1. 图片生成

Generate images from text.
bash
uv run {baseDir}/scripts/run_multimodal.py --mode image --model z-image-turbo --prompt "A futuristic city" --output "city.png"
Models:
z-image-turbo
,
wan2.6-t2i
根据文字描述生成图片。
bash
uv run {baseDir}/scripts/run_multimodal.py --mode image --model z-image-turbo --prompt "A futuristic city" --output "city.png"
可用模型:
z-image-turbo
,
wan2.6-t2i

2. ASR (Speech Recognition)

2. ASR(语音识别)

Transcribe audio files or URLs to text.
bash
uv run {baseDir}/scripts/run_multimodal.py --mode asr --model qwen3-asr-flash --input-audio "https://example.com/audio.mp3"
将音频文件或URL转写为文字。
bash
uv run {baseDir}/scripts/run_multimodal.py --mode asr --model qwen3-asr-flash --input-audio "https://example.com/audio.mp3"

3. TTS (Speech Synthesis)

3. TTS(语音合成)

Convert text to speech.
bash
uv run {baseDir}/scripts/run_multimodal.py --mode tts --model qwen3-tts-flash --text "Hello world" --output "hello.wav"
将文字转换为语音。
bash
uv run {baseDir}/scripts/run_multimodal.py --mode tts --model qwen3-tts-flash --text "Hello world" --output "hello.wav"

4. Text-to-Video (T2V)

4. 文字转视频(T2V)

Generate video from text prompt. Async task with auto-polling.
bash
uv run {baseDir}/scripts/run_multimodal.py --mode t2v --model wan2.6-t2v --prompt "一只小猫在月光下奔跑" --duration 10 --size "1280*720" --output "cat.mp4"
Models:
wan2.6-t2v
Options:
--size
(e.g., 1280720, 19201080),
--duration
(2-15s),
--prompt-extend
/
--no-prompt-extend
,
--shot-type single|multi
,
--negative-prompt
,
--audio-url
,
--watermark
,
--seed
根据文字提示生成视频,异步任务自动轮询状态。
bash
uv run {baseDir}/scripts/run_multimodal.py --mode t2v --model wan2.6-t2v --prompt "一只小猫在月光下奔跑" --duration 10 --size "1280*720" --output "cat.mp4"
可用模型:
wan2.6-t2v
可选参数:
--size
(例如 1280720、19201080)、
--duration
(2-15秒)、
--prompt-extend
/
--no-prompt-extend
--shot-type single|multi
--negative-prompt
--audio-url
--watermark
--seed

5. Image-to-Video (I2V)

5. 图片转视频(I2V)

Generate video from a reference image (first frame).
bash
uv run {baseDir}/scripts/run_multimodal.py --mode i2v --model wan2.6-i2v-flash --img-url "https://example.com/cat.png" --prompt "A cat running" --resolution 720P --duration 5 --output "cat_run.mp4"
Models:
wan2.6-i2v-flash
,
wan2.6-i2v
Options:
--img-url
(required, image URL or base64),
--prompt
,
--resolution
(480P/720P/1080P),
--duration
,
--prompt-extend
/
--no-prompt-extend
,
--shot-type single|multi
,
--negative-prompt
,
--audio-url
,
--watermark
,
--seed
以参考图片作为第一帧生成视频。
bash
uv run {baseDir}/scripts/run_multimodal.py --mode i2v --model wan2.6-i2v-flash --img-url "https://example.com/cat.png" --prompt "A cat running" --resolution 720P --duration 5 --output "cat_run.mp4"
可用模型:
wan2.6-i2v-flash
,
wan2.6-i2v
可选参数:
--img-url
(必填,图片URL或base64编码)、
--prompt
--resolution
(480P/720P/1080P)、
--duration
--prompt-extend
/
--no-prompt-extend
--shot-type single|multi
--negative-prompt
--audio-url
--watermark
--seed

6. Reference-to-Video (R2V)

6. 参考素材转视频(R2V)

Generate video with character/object references (images or videos as actors).
bash
uv run {baseDir}/scripts/run_multimodal.py --mode r2v --model wan2.6-r2v-flash --prompt "character1 在公园里散步" --reference-urls "https://example.com/person.png" --size "1280*720" --duration 5 --output "walk.mp4"
Multi-character example:
bash
uv run {baseDir}/scripts/run_multimodal.py --mode r2v --model wan2.6-r2v-flash --prompt "character1 对 character2 说你好" --reference-urls "https://example.com/role1.mp4" "https://example.com/role2.png" --shot-type multi --output "dialog.mp4"
Models:
wan2.6-r2v-flash
,
wan2.6-r2v
Options:
--reference-urls
(required, space-separated, up to 5),
--prompt
(required, use character1/character2 to map references),
--size
,
--duration
(2-10s),
--shot-type single|multi
,
--negative-prompt
,
--no-audio
(silent, r2v-flash only),
--watermark
,
--seed
使用角色/物体参考素材(图片或视频作为角色)生成视频。
bash
uv run {baseDir}/scripts/run_multimodal.py --mode r2v --model wan2.6-r2v-flash --prompt "character1 在公园里散步" --reference-urls "https://example.com/person.png" --size "1280*720" --duration 5 --output "walk.mp4"
多角色示例:
bash
uv run {baseDir}/scripts/run_multimodal.py --mode r2v --model wan2.6-r2v-flash --prompt "character1 对 character2 说你好" --reference-urls "https://example.com/role1.mp4" "https://example.com/role2.png" --shot-type multi --output "dialog.mp4"
可用模型:
wan2.6-r2v-flash
,
wan2.6-r2v
可选参数:
--reference-urls
(必填,空格分隔,最多5个)、
--prompt
(必填,使用character1/character2映射参考素材)、
--size
--duration
(2-10秒)、
--shot-type single|multi
--negative-prompt
--no-audio
(静音,仅r2v-flash支持)、
--watermark
--seed

Configuration

配置说明

API Key 按以下优先级读取:
  1. 命令行参数
    --api-key
  2. 环境变量
    DASHSCOPE_API_KEY
  3. 配置文件
    ~/.config/bailian-multimodal/api_key.txt
bash
undefined
API Key 按以下优先级读取:
  1. 命令行参数
    --api-key
  2. 环境变量
    DASHSCOPE_API_KEY
  3. 配置文件
    ~/.config/bailian-multimodal/api_key.txt
bash
undefined

方式一:环境变量

方式一:环境变量

export DASHSCOPE_API_KEY="sk-..."
export DASHSCOPE_API_KEY="sk-..."

方式二:配置文件

方式二:配置文件

mkdir -p ~/.config/bailian-multimodal echo "sk-..." > ~/.config/bailian-multimodal/api_key.txt
undefined
mkdir -p ~/.config/bailian-multimodal echo "sk-..." > ~/.config/bailian-multimodal/api_key.txt
undefined