Industry

研究

Client

2024年4月25日

苹果开源了 OpenELM 一系列模型

苹果也开始学 Meta 了,而且更加的彻底。

完全开源了 OpenELM 一系列模型,包括270M、450M、1.1B和3B四个规模的模型:

不仅包括模型权重和推理代码,还包括了在公开数据集上进行模型训练和评估的完整框架,涵盖训练日志、多个保存点和预训练设置。

还开源了CoreNet:深度神经网络训练库:

使研究人员和工程师能够开发和训练各种标准及创新的小型和大型模型,适用于多种任务,如基础模型(例如,CLIP和大语言模型(LLM))、物体分类、检测以及语义分割。

OpenELM采用按层分配参数的策略,有效提升了Transformer模型各层的参数配置效率,显著提高模型精度。例如,在大约十亿参数的预算下,OpenELM的准确率较OLMo提升了2.36%,且预训练所需的Token数量减少了一半。

© 2024 GUIZANG, Inc. All rights reserved.