《电子技术应用》
您所在的位置:首页 > 人工智能 > 业界动态 > Soul创始人张璐团队开源SoulX-FlashHead

Soul创始人张璐团队开源SoulX-FlashHead

以轻量化模型打破实时数字人算力壁垒
2026-03-25
来源:中国企业家日报
关键词: 数字人 SoulX-FlashHead

在实时数字人技术持续演进的背景下,画质与算力成本之间的矛盾长期存在。高质量画面往往依赖昂贵的算力集群,而面向普通开发者和创作者的方案,则常常需要在表现力上作出妥协。围绕这一行业难题,Soul App创始人张璐团队持续推进技术探索,在真实感、实时性与成本可控之间建立新的平衡。

继此前开源实时数字人生成模型 SoulX-FlashTalk 之后,近日,Soul App AI 团队(Soul AI Lab)再次发布并开源了实时数字人生成模型SoulX-FlashHead。该模型以1.3B参数规模为基础,定位于轻量化与高效率,在消费级硬件条件下实现了工业级实时生成能力,为实时数字人技术提供了新的实现路径。

11.jpg

在单张消费级显卡 RTX 4090 上,SoulX-FlashHead的Lite 版本推理帧率可达 96FPS,占用显存约 6.4G,并支持最高三路并发。这一表现意味着,实时数字人不再局限于高算力机房环境,而是能够运行在更常见的个人工作站甚至游戏级设备上。

在更强调画质表现的 Pro 版本中,SoulX-FlashHead同样给出了兼顾效率与质量的方案。该版本在单张RTX 5090上可实现 16.8FPS的推理速度,通过双卡配置即可达到 25FPS 以上的实时标准。在多项基准测试中,其 FID 与 Lip-sync 指标均达到SOTA,部分结果甚至超过了参数规模更大的模型,解决了“小模型难以兼顾高画质”的行业痛点。

在权威数据集的实测结果中,SoulX-FlashHead的表现进一步验证了这一技术路线的有效性。在高清视频数据集 HDTF 上,Pro 版本取得了 8.31 的 FID 和 103.14 的 FVD 成绩,画面细节与稳定性表现突出;在更贴近真实复杂环境的 VFHQ 数据集中,其 Sync-C 指标达到 5.60,在口型一致性方面明显优于以往相关工作,减少了流式生成中常见的口型偏差问题。

12.jpg

支撑这些表现的,是一系列围绕实时生成场景所设计的核心技术机制。首先,在训练阶段,SoulX-FlashHead引入了双向蒸馏机制(Oracle-Guided Distillation),通过引入具备“先知”角色的教师模型,并以 Ground Truth 作为强约束锚点,帮助模型在长视频生成过程中能够保持人物身份与外观特征的稳定,缓解了实时数字人领域长期存在的“身份漂移”问题。

其次,针对流式生成中音频上下文不足带来的口型抖动现象,SoulX-FlashHead提出了时序音频上下文缓存(TACC)策略。该策略强制要求模型在生成过程中缓存约 8 秒的历史音频特征,用于补偿短音频切片带来的信息缺失,使口型变化更加连贯自然,也让实时生成在启动阶段即可进入稳定状态。

在数据层面,Soul AI Lab 构建了自研的 VividHead 数据集,为模型训练提供高质量底座。该数据集从超过10,000小时的原始素材中,经过切分、关键点检测、唇形一致性评分筛选等多重处理,最终保留了782小时高质量音画数据,为模型学习稳定的人物表征与音画关系提供了更纯净的样本数据。

13.jpg

从产品与应用视角看,此前的 SoulX-FlashTalk具备0.87s亚秒级超低延时、32FPS高帧率与超长视频稳定生成等特征,而 SoulX-FlashHead则进一步将高保真实时数字人能力下沉至更低的算力门槛。通过发布SoulX-FlashHead,Soul创始人张璐团队展示了轻量化模型在实时数字人领域的可行性,也为开发者提供了更易部署、更易集成的技术选项。

2.jpg

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。