Facebook построила самый быстрый суперкомпьютер для расчетов искусственного интеллекта: до 16.000 GPU A100
Meta построила новый суперкомпьютер AI Research SuperCluster (RSC), который был официально анонсирован. Кластер состоит из 760 серверов DGX-A100, в каждом работают восемь GPU-ускорителей A100. На каждый сервер DGX-A100 приходится по процессору EPYC. Таким образом, в суперкомпьютере насчитывается 6.080 A100 GPU. Meta заявляет вычислительную производительность 1,895 ExaFLOPS для вычислений с одинарной точностью (FP32).
Строительство RSC началось в 2020 году, кластер планируется расширить уже в этом году. Meta добавит еще 1.240 серверов DGX-A100, то есть число GPU A100 достигнет 16.000. Вычислительная производительность составил 5 ExaFLOPS.
Интересна не только вычислительная производительность A100 GPU, но и инфраструктура. GPU подключены напрямую друг к другу интерконнектом InfiniBand с пропускной способностью до 200 Гбит/с. Здесь за компоненты отвечает Mellanox, ранее приобретенная NVIDIA. Система кэширования Altus от Pengiun Computing имеет емкость 46 Пбайт. Подсистема ...