Soul张璐团队开源SoulX-FlashHead,定义实时数字人新体验

Soul张璐团队开源SoulX-FlashHead,定义实时数字人新体验

在实时数字人生成领域,高画质与高成本之间的取舍,制约着技术落地的广度。近日,Soul App张璐团队在这一方向上取得新的技术进展。继今年初开源实时数字人生成模型SoulX-FlashTalk之后,Soul App AI团队(Soul AI Lab)再次推出轻量化实时数字人生成模型SoulX-FlashHead,为实时数字人提供了一种更具普适性的实现路径。

Soul张璐团队开源SoulX-FlashHead,定义实时数字人新体验

作为一款参数规模为1.3B的轻量化模型,SoulX-FlashHead将实时生成能力从高端算力环境引入消费级终端。在单张RTX4090显卡上,Lite版本可实现最高96FPS的推理帧率,占用显存仅6.4G,并支持最多三路并发。在画质表现上,SoulX-FlashHead并未因模型体量缩小而妥协。面向更高视觉要求的应用场景,Pro版本在单卡RTX5090上推理帧率可达到16.8FPS,双卡条件下实现实时输出。在多项基准评测中,其FID与唇形一致指标均达到SOTA,并在部分测试中超过参数量更大的模型,解决了“小模型难以兼顾画质”的行业问题。

支撑这一表现的,是SoulX-FlashHead在训练与生成机制上的多项设计调整。针对长视频生成中普遍存在的“身份漂移”问题,团队引入了双向蒸馏机制,通过具备完整GroundTruth信息的教师模型进行强约束引导,使生成角色在长时间输出过程中保持外观与特征稳定。这一机制相当于为模型提供持续校准,有效降低了人物形象随时间偏移的风险。

Soul张璐团队开源SoulX-FlashHead,定义实时数字人新体验

在实时流式生成场景中,音频上下文不足往往导致口型抖动与同步误差。SoulX-FlashHead通过时序音频上下文缓存机制,强制模型缓存8秒历史音频特征,为模型提供更完整的语义背景。该设计在直播或即时交互中显著改善了唇形一致性,使模型在启动阶段即可进入稳定状态,减少了“对不上口型”的体验问题。

数据质量同样是模型效果的重要基础。SoulX-FlashHead使用了团队自研的VividHead数据集,该数据集从超过一万小时素材中筛选出782小时高质量音画样本,经过多轮切分、关键点提取及唇形一致性筛选,确保训练数据在清晰度与一致性上的可靠性。这一数据底座为模型在小参数规模下实现高质量输出提供了支撑。

在公开评测中,SoulX-FlashHead的综合能力得到验证。在HDTF高清视频数据集上,Pro版本以8.31的FID和103.14的FVD指标取得领先成绩;在强调复杂真实场景的VFHQ测试中,其Sync-C指标达到5.60,体现了在口型同步方面的稳定优势。与此同时,Lite版本在单张RTX4090上实现96FPS的吞吐量,显著高于实时生成所需的基础帧率,为多场景并发提供了余量。

Soul张璐团队开源SoulX-FlashHead,定义实时数字人新体验

与此前发布的SoulX-FlashTalk相比,SoulX-FlashHead的核心价值在于进一步降低了高保真数字人的使用门槛。SoulX-FlashTalk已实现0.87s亚秒级延时、32FPS高帧率与超长视频稳定生成,而SoulX-FlashHead则将这一能力从算力集群延伸至个人设备,使实时数字人的部署方式更加灵活。例如,在7×24小时矩阵直播中,个人主播仅需一台普通游戏PC即可搭建高保真直播环境;在游戏领域,轻量化模型便于集成至NPC系统,实现毫秒级响应且不抢占核心渲染资源;在教育场景中,模型支持多语言输入,将音频实时转化为生动的教学画面,提升远程互动的沉浸感。

SoulX-FlashHead在模型规模、生成质量与推理效率之间取得了新的平衡。通过系统性设计,Soul张璐团队为实时数字人领域提供了一种可复制、易部署的技术方案,也为行业提供了可参考的技术路径。

免责声明

               

本站转载的文章,版权归原作者所有;旨在传递信息,不代表本站的观点和立场。不对内容真实性负责,仅供用户参考之用,不构成任何投资、使用等行为的建议。如果发现有问题,请联系我们处理。

本站提供的草稿箱预览链接仅用于内容创作者内部测试及协作沟通,不构成正式发布内容。预览链接包含的图文、数据等内容均为未定稿版本,可能存在错误、遗漏或临时性修改,用户不得将其作为决策依据或对外传播。

因预览链接内容不准确、失效或第三方不当使用导致的直接或间接损失(包括但不限于数据错误、商业风险、法律纠纷等),本网站不承担赔偿责任。用户通过预览链接访问第三方资源(如嵌入的图片、外链等),需自行承担相关风险,本网站不对其安全性、合法性负责。

禁止将预览链接用于商业推广、侵权传播或违反公序良俗的行为,违者需自行承担法律责任。如发现预览链接内容涉及侵权或违规,用户应立即停止使用并通过网站指定渠道提交删除请求。

本声明受中华人民共和国法律管辖,争议解决以本网站所在地法院为管辖法院。本网站保留修改免责声明的权利,修改后的声明将同步更新至预览链接页面,用户继续使用即视为接受新条款。

(0)
上一篇 4小时前
下一篇 1小时前

猜你喜欢