Yandex 开源 YaLM 100B：千亿参数的类 GPT 模型-时机日报

出品|开源祖国
俄国寻找巨头 Yandex 公布了 YaLM 100B ，他是一位使用了 1000 亿个参数.相似 GPT 的神经网络，用于变成和处置文本呀。现在该模子基于 Apache 2.0 允许信管在 GitHub 上呀。
Yandex 花了 65 天的时刻在包罗 800 个 A100 显卡和 1.7 TB 在线文本.书籍和大部-分其余资源的池中训练了模子呀。YaLM 高级开拓职员 Mikhail Khrushchev 在 Medium 上公布了一篇博客，一五一十推荐了训练该模子的经验，包罗怎么样加速模子训练.怎么样处置分歧等技术细节呀。但该通告好像十分体贴参数数目和训练模子的工程应战，对该模子的训练（学习率谋划等）或者功效数占有无任何流露呀。
有网友推断该 YaLM 100B 模子的功效普遍介于 GPT-2 和 GPT-3 之中，而 Yandex 之因此要训练这样一位大型预训练语言模子，是由于你们必-要一位能够或者者同时领会俄语和英语的模子，而 GPT-2 和 3 都只能领会英语呀。
另外，训练这样的模子必-要的花销也不方廉价，800 个 A100 显卡 + 65 天训练时刻，以 AWS“p4d.24xlarge啊” 实例（8×40GB A100）为例，其价为 32.7726 美圆 / 小时，800 个 GPU 则必-要 3277.26 美圆 / 小时，训练 65 天为 5,112,525.60 美圆，这不过大略的盘算价，另有无思考存储和网络本呀。
另外，只管模子以前过训练，如果要运转他仍必-要 200GB 的可用磁盘空-间，且应该在拥有张量并行性的多个 GPU 上运转呀。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Yandex 开源 YaLM 100B：千亿参数的类 GPT 模型

No Comment

留言

留言 取消回复

留言