阿里巴巴开源深度学习训练框架EPL 可支持10万亿参数超大模型-AET-电子技术应用

阿里巴巴开源深度学习训练框架EPL 可支持10万亿参数超大模型

日期： 2022-03-05

来源：阿里云

关键词： 阿里训练框架 EPL AI开发

3月4日消息，阿里巴巴宣布完全开源支持10万亿模型的自研分布式深度学习训练框架 EPL(Easy Parallel Library，原名whale)，进一步完善深度学习生态。

EPL由阿里云机器学习平台PAI团队自主研发，PAI是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、编译优化、推理部署在内的AI开发全链路服务，内置140多种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

EPL是PAI团队一次面向大规模深度学习分布式自动化训练的探索，EPL希望能够简化深度学习模型从单机训练到分布式开发调试的流程。EPL通过对不同并行化策略进行统一抽象、封装，在一套分布式训练框架中支持多种并行策略，并进行显存、计算、通信等全方位优化来提供易用、高效的分布式训练框架。

EPL适合不同场景的模型，在阿里巴巴内部已经支持图像、推荐、语音、视频、自然语言、多模态等多样性的业务场景。同时，EPL也支持不同规模的模型，最大完成了10万亿规模的M6模型训练，相比之前发布的大模型GPT-3，M6实现同等参数规模能耗仅为其1%。最新测试结果显示，使用EPL的流水+数据并行对Bert Large模型进行优化，相比于数据并行，训练速度提升了66%。

阿里云资深技术专家九丰表示，“近些年，随着深度学习的火爆，模型的参数规模飞速增长，同时为训练框架带来更大挑战。为应对这个问题，我们研发了EPL，EPL功能也随着业务需求的迭代逐渐完善。未来，我们将在软硬件一体优化、全自动策略探索等几个探索性方向上持续投入精力。今天，我们将EPL完全开源，希望和深度学习训练框架的开发者或深度学习从业者之间有更多更好的交流和共建，持续完善深度学习生态。”

最后文章空三行图片.jpg

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

阿里巴巴开源深度学习训练框架EPL 可支持10万亿参数超大模型

日期： 2022-03-05

来源：阿里云

相关内容