字节跳动数字人模型即将上线：一张图+音频即可生成视频

徒弟的滴滴 · 发表于 2025-3-8 23:14:41

据相关报道，字节跳动的数字人模型即将上线，以下是关于它的详细信息：
http://www.zhbmm.com/
核心功能
是一款端到端多模态数字人视频生成框架，基于一张图片和运动信号（如音频、视频或两者）即可生成逼真的视频，支持特写、半身照、全身照等多种人物内容输入，能处理说话、唱歌、人与物体互动及复杂肢体动作等场景。
技术细节
输入方式：支持文本、图像、音频和姿态等多种模态输入，可分为驱动条件和外观条件两类。音频、姿态、文本特征都有各自对应的条件注入方式，外观条件则直接利用去噪声网络对输入图像进行特征编码。
训练方法：采用渐进式、多阶段的训练方法，依序进行混合条件训练，增加文本、图像、音频以及姿态模态参与训练的比例，并降低对应的训练占比，避免模型过于依赖较强条件进行运动生成。
输出成果：能生成头像、半身像、全身像等各种比例和身形的人像视频，不受画面尺寸限制，支持多种视觉和音频风格，可生成逼真的演唱、演奏视频，显著改善了手势处理效果。
应用场景
娱乐领域：可生成逼真的虚拟偶像表演或虚拟主播直播画面，为娱乐行业带来全新创作方式，为粉丝经济注入新活力。
教育领域：能为教师提供快速生成教学视频的工具，使教学内容更生动有趣，学生也可用于生成自己的学习视频，提高学习效果和积极性。
虚拟现实领域：通过实时渲染和风格迁移功能，可为用户带来更加沉浸式的 VR 体验，在游戏娱乐和职业培训等场景发挥作用。

		自动登录	找回密码
密码			注册

字节跳动数字人模型即将上线：一张图+音频即可生成视频

浏览过的版块