pen-to-square接口调用

NavTalk 支持多种素材组合方式生成数字人视频,支持图片驱动、视频驱动、系统角色驱动等三类方式。以下为完整的 9 种调用方式及使用说明。

✅接口调用总览

编号
场景
使用视频
使用音频
使用系统角色
使用 TTS

视频 + 音频 URL

✅ URL

视频 + 音频 Base64

✅ Base64

视频 + 文本(TTS)

图片 + 文本(TTS)

✅(image_url)

图片 + 音频 URL

✅(image_url)

✅ URL

图片 + 音频 Base64

✅(image_url)

✅ Base64

系统角色 + 音频 URL

✅ URL

系统角色 + 音频 Base64

✅ Base64

系统角色 + 文本(TTS)

📌 通用参数说明

参数名
类型
说明

license

string

API 授权密钥(从控制台申请)

video_url

string

视频地址,支持公网 MP4/MOV

image_url

string

图片地址(驱动静态数字人)

audio_url

string

音频地址(MP3/WAV)

audio_base64

string

本地音频 base64 编码

content

string

合成语音的文本内容

voice

string

语音风格(见下方)

character_name

string

系统内置角色(如 girl2

🔈 支持语音风格(voice)

名称
风格

alloy

中性权威

echo

轻松友好

fable

温暖叙事

onyx

深沉戏剧

nova

热情高能

shimmer

梦幻轻快

📥 请求接口示例(对应编号)

① 视频 + 音频 URL

② 视频 + 音频 Base64

③ 视频 + 文本(TTS)

④ 图片 + 文本(TTS)

⑤ 图片 + 音频 URL

⑥ 图片 + 音频 Base64

⑦ 系统角色 + 音频 URL

⑧ 系统角色 + 音频 Base64

⑨ 系统角色 + 文本(TTS)

📥 获取响应接口示例

所有合成型接口均为异步处理。提交请求后,系统将返回一个 task_id,你需根据该 task_id 查询最终生成的视频地址。

🔹 Step 1:提交合成任务

任意调用成功后返回示例:

📌 字段说明:

字段
含义

status

请求状态(通常为 started

task_id

合成任务唯一标识,后续查询视频使用

🔹 Step 2:查询任务状态与视频结果

使用返回的 task_id 查询处理结果:

✅ 成功响应:

📌 状态说明:

status 值
含义

started

任务已创建,正在处理

processing

视频合成中

done

成功完成,可下载结果

failed

合成失败,可重试或查看错误信息

circle-info

建议

  • 建议合成任务音频/视频时长控制在 30 秒内,可显著加快响应速度。

  • 若你上传的图片/视频,请确保图片/视频的正脸清晰。

Last updated