Кластер обучения нейросети Llama 3 405B фиксировал сбои ускорителей Nvidia H100 примерно раз в шесть часов

Современные большие нейросети обучаются на системах с огромным количеством компонентов. А чем больше компонентов, тем выше вероятность отказа. Свежий отчёт Meta* содержит информацию о том, что компания сталкивалась со сбоями ускорителей Nvidia H100 примерно раз в три часа.

Во время обучения модели Llama 3 405B на кластере, содержащем 16 384 ускорителя Nvidia H100 80 ГБ, в течение 54 дней было зафиксировано 419 сбоев, то есть в среднем один сбой каждые три часа. В 58,7% случаев виноваты были либо графические процессоры, либо их память HBM3. В целом сбои в таких сложных системах — это норма, и вопрос скорее в способности специалистов справляться с этими сбоями. В случае Meta* команда сохранила более 90% эффективного времени обучения.

Проблемные GPU были идентифицированы с помощью специализированных инструментов. Эти инструменты приоритизировали проблемные коммуникации, обеспечивая эффективное обнаружение и своевременное разрешение отстающих GPU, что гарантировало минимизацию замедлений, поддерживая общую эффективность обучения.

* Meta признана в России экстремистской организацией, её деятельность запрещена.

Источник

Техноблог

Кластер обучения нейросети Llama 3 405B фиксировал сбои ускорителей Nvidia H100 примерно раз в шесть часов

Кроссовер Geely размером с Monajro и запасом хода 1420 км дешевле 17 тыс. долларов. Geely Galaxy Starship 7 EM-i появился у дилеров в Китае

Самый уродливый автомобиль в этом году. Китайцы раскритиковали новый Geely Okavango Exclusive

В Белоруссии стартовали продажи Voyah Free 318 — кроссовер удивил своей низкой ценой

Новый претендент на звание самого мощного смартфона в мире: Redmi K80 Pro набирает почти 3,2 млн баллов в AnTuTu

Представлен Kia EV9 GT: полный привод, 508 л.с., адаптивная подвеска, 4,3 с до 96,5 км/ч и симулятор бензинового мотора

Geely Monjaro и тут первый. Это самый востребованный у россиян новый автомобиль с автоматом

Кроссовер Geely размером с Monajro и запасом хода 1420 км дешевле 17 тыс. долларов. Geely Galaxy Starship 7 EM-i появился у дилеров в Китае

Самый уродливый автомобиль в этом году. Китайцы раскритиковали новый Geely Okavango Exclusive

В Белоруссии стартовали продажи Voyah Free 318 — кроссовер удивил своей низкой ценой

Новый претендент на звание самого мощного смартфона в мире: Redmi K80 Pro набирает почти 3,2 млн баллов в AnTuTu