Компания Tesla сегодня представила свой новый специализированный процессор D1. Решение предназначено для машинного обучения.
Процессор производится по нормам 7 нм и содержит 50 млрд транзисторов. Площадь при этом составляет 645 мм2, что весьма много, хотя и меньше, чем у того же GPU Nvidia GA100. Tesla D1 оснащён 354 обучающими узлами на базе 64-разрядного суперскалярного процессора с четырьмя ядрами. Решение поддерживает инструкции FP32, BFP16, CFP8, INT32, INT16 и INT8.
Производительность в вычислениях с одинарной точностью (FP32) составляет 22,6 TFLOPS, а в случае режима BF16/CFP8 речь идёт о 362 TFLOPS. Такие результаты достигаются при TDP 400 Вт.
Так как для машинного обучения важна масштабируемость, Tesla разработала специализированный интерфейс с пропускной способностью 10 ТБ/с. Кольцо ввода-вывода включает 576 полос, каждая из которых имеет пропускную способность в 112 ГБит/с.
В итоге Tesla может собирать чипы D1 в специальные плитки по 25 процессоров в каждой. И такие плитки также можно соединять между собой. Компания продемонстрировала такую плитку с процессорами, работающими на частоте 2 ГГц. Производительность такого решения составила 9 PFLOPS (BF16/CFP8).
Также у компании есть планы по созданию суперкомпьютера на основе процессоров D1. Система ExaPOD будет основана на 120 плитках с 3000 процессоров. Итоговая производительность достигнет 1,1 ExaFLOPS (FP16/CFP8). После постройки система будет самым мощным суперкомпьютером для обучения ИИ. В сравнении с нынешними суперкомпьютерами Tesla на основе GPU Nvidia такая система предложит в четыре раза большую производительность и в 1,3 раза большую производительность на ватт при пятикратном снижении занимаемой площади.