Soul创始人张璐团队开源SoulX-FlashHead-AET-电子技术应用

Soul创始人张璐团队开源SoulX-FlashHead

以轻量化模型打破实时数字人算力壁垒

日期： 2026-03-25

来源：中国企业家日报

关键词： 数字人 SoulX-FlashHead

在实时数字人技术持续演进的背景下，画质与算力成本之间的矛盾长期存在。高质量画面往往依赖昂贵的算力集群，而面向普通开发者和创作者的方案，则常常需要在表现力上作出妥协。围绕这一行业难题，Soul App创始人张璐团队持续推进技术探索，在真实感、实时性与成本可控之间建立新的平衡。

继此前开源实时数字人生成模型 SoulX-FlashTalk 之后，近日，Soul App AI 团队（Soul AI Lab）再次发布并开源了实时数字人生成模型SoulX-FlashHead。该模型以1.3B参数规模为基础，定位于轻量化与高效率，在消费级硬件条件下实现了工业级实时生成能力，为实时数字人技术提供了新的实现路径。

在单张消费级显卡 RTX 4090 上，SoulX-FlashHead的Lite 版本推理帧率可达 96FPS，占用显存约 6.4G，并支持最高三路并发。这一表现意味着，实时数字人不再局限于高算力机房环境，而是能够运行在更常见的个人工作站甚至游戏级设备上。

在更强调画质表现的 Pro 版本中，SoulX-FlashHead同样给出了兼顾效率与质量的方案。该版本在单张RTX 5090上可实现 16.8FPS的推理速度，通过双卡配置即可达到 25FPS 以上的实时标准。在多项基准测试中，其 FID 与 Lip-sync 指标均达到SOTA，部分结果甚至超过了参数规模更大的模型，解决了“小模型难以兼顾高画质”的行业痛点。

在权威数据集的实测结果中，SoulX-FlashHead的表现进一步验证了这一技术路线的有效性。在高清视频数据集 HDTF 上，Pro 版本取得了 8.31 的 FID 和 103.14 的 FVD 成绩，画面细节与稳定性表现突出；在更贴近真实复杂环境的 VFHQ 数据集中，其 Sync-C 指标达到 5.60，在口型一致性方面明显优于以往相关工作，减少了流式生成中常见的口型偏差问题。

支撑这些表现的，是一系列围绕实时生成场景所设计的核心技术机制。首先，在训练阶段，SoulX-FlashHead引入了双向蒸馏机制（Oracle-Guided Distillation），通过引入具备“先知”角色的教师模型，并以 Ground Truth 作为强约束锚点，帮助模型在长视频生成过程中能够保持人物身份与外观特征的稳定，缓解了实时数字人领域长期存在的“身份漂移”问题。

其次，针对流式生成中音频上下文不足带来的口型抖动现象，SoulX-FlashHead提出了时序音频上下文缓存（TACC）策略。该策略强制要求模型在生成过程中缓存约 8 秒的历史音频特征，用于补偿短音频切片带来的信息缺失，使口型变化更加连贯自然，也让实时生成在启动阶段即可进入稳定状态。

在数据层面，Soul AI Lab 构建了自研的 VividHead 数据集，为模型训练提供高质量底座。该数据集从超过10,000小时的原始素材中，经过切分、关键点检测、唇形一致性评分筛选等多重处理，最终保留了782小时高质量音画数据，为模型学习稳定的人物表征与音画关系提供了更纯净的样本数据。

从产品与应用视角看，此前的 SoulX-FlashTalk具备0.87s亚秒级超低延时、32FPS高帧率与超长视频稳定生成等特征，而 SoulX-FlashHead则进一步将高保真实时数字人能力下沉至更低的算力门槛。通过发布SoulX-FlashHead，Soul创始人张璐团队展示了轻量化模型在实时数字人领域的可行性，也为开发者提供了更易部署、更易集成的技术选项。

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

Soul创始人张璐团队开源SoulX-FlashHead

日期： 2026-03-25

来源：中国企业家日报

相关内容