У процессоров AMD Epyc поколения Rome (второе поколение Epyc) обнаружилась одна любопытная особенность. Она заключается в том, что такой CPU может зависнуть после 1044 дней беспрерывной работы.
Такая особенность означает, что владельцам серверов на основе таких CPU может понадобиться выполнить перезагрузку сервера до означенного срока, чтобы избежать зависания системы.
Проблема связана с тем, что ядру CPU не удается выйти из состояния сна CC6. При этом AMD заявляет, что время сбоя может варьироваться в зависимости от расширенного спектра и частоты REFCLK. Природа проблемы носит аппаратных характер, поэтому исправить её, к сожалению, не получится.
Кроме перезагрузки есть второй метод избежать зависания: отключить режим сна CC6.
В целом в большинстве случаев данная проблема владельцев серверов не коснётся, так как обычно обслуживание и установка обновлений безопасности происходят гораздо чаще и в том числе требуют перезагрузки. Однако в случае, если кто-то использует функцию оперативного исправления Linux для обновления без перезагрузки, он может столкнуться с вышеозначенной проблемой.