
Apple 投入更多资源到人工智能领域的开发项目,当中开源小语言模型是他们目标之一。 而最近苹果就分别推出了两款14亿和69亿参数的DCLM模型。 Apple 新推出的小语言模型在基准测试中表现比Mistral-7B优胜,性能更与谷歌和Meta相同规模的模型不相上下。


第一款模型为69亿参数的DCLM-7B,由2.6万亿 token 的数据训练而成。 在多语理解测试 MMLU 中 DCLM-7B 与 Map-Neo 有接近的效能,但运算资源耗损少 40%。 与私有模型比较,DCLM-7B得分为63.7%,与Mistral-7B-v0.3相同,接近谷歌 Gemma的64.3%,略低于Llama 3-8B的66.2%。 然而苹果声称DCLM模型的耗能低6.6倍。 第二款模型为14亿参数的DCLM-1B,在Alpacabench测试中,效能优于Hugging Face的SmolLM。
这个 DCML(DataComp for Language Models)项目的团队涉及苹果、华盛顿大学、特拉维夫大学和丰田研究所的研究人员,但相信除了其训练数据外不会成为苹果产品的一部分。 Apple 机械学习团队的 Vaishaal Shanke 在社交平台平台上形容 DCLM 是目前表现最好的真正开源模型,而「真正开源」的意思是指所有模型权重、训练代码和数据集都与模型一同公开。