Yandex 开源 YaLM 100B:千亿参数的类 GPT 模型

出品|开源祖国
俄国寻找巨头 Yandex 公布了 YaLM 100B ,他是一位使用了 1000 亿个参数.相似 GPT 的神经网络,用于变成和处置文本呀。现在该模子基于 Apache 2.0 允许信管在 GitHub 上呀。
Yandex 花了 65 天的时刻在包罗 800 个 A100 显卡和 1.7 TB 在线文本.书籍和大部-分其余资源的池中训练了模子呀。YaLM 高级开拓职员 Mikhail Khrushchev 在 Medium 上公布了一篇博客,一五一十推荐了训练该模子的经验,包罗怎么样加速模子训练.怎么样处置分歧等技术细节呀。但该通告好像十分体贴参数数目和训练模子的工程应战,对该模子的训练(学习率谋划等)或者功效数占有无任何流露呀。
有网友推断该 YaLM 100B 模子的功效普遍介于 GPT-2 和 GPT-3 之中,而 Yandex 之因此要训练这样一位大型预训练语言模子,是由于你们必-要一位能够或者者同时领会俄语和英语的模子,而 GPT-2 和 3 都只能领会英语呀。
另外,训练这样的模子必-要的花销也不方廉价,800 个 A100 显卡 + 65 天训练时刻,以 AWS“p4d.24xlarge啊” 实例(8×40GB A100)为例,其价为 32.7726 美圆 / 小时,800 个 GPU 则必-要 3277.26 美圆 / 小时,训练 65 天为 5,112,525.60 美圆,这不过大略的盘算价,另有无思考存储和网络本呀。
另外,只管模子以前过训练,如果要运转他仍必-要 200GB 的可用磁盘空-间,且应该在拥有张量并行性的多个 GPU 上运转呀。


除非特别注明,本站所有文字均为原创文章,作者:admin

No Comment

留言

电子邮件地址不会被公开。 必填项已用*标注

感谢你的留言。。。