О видеокартах GeForce RTX 40 известно уже очень немало, и постепенно в Сети появляется всё больше данных. К примеру, GeForce RTX 4090 приписывают TDP в 600 Вт, а вот у RTX 4070 это будет уже 300 Вт. Свежие данные проливают свет на конфигурацию GPU новинок.
Итак, GPU AD102, который будет служить основой для RTX 4090, будет иметь 12 блоков GPC. Это на 70% больше, чем в GA102, где всего 7 GPC. Каждый GPC будет состоять из шести блоков TPC и двух блоков SM, что соответствует конфигурации GA102.
Что изменилось, так это конфигурация ядра FP32 и INT32. Каждое подядро будет включать 128 блоков FP32, но общее количество блоков FP32+INT32 увеличится до 192. Это связано с тем, что блоки FP32 не используют то же подядро, что и блоки IN32. 128 ядер FP32 отделены от 64 ядер INT32.
Таким образом, каждое подядро будет состоять из 128 блоков FP32 плюс 64 блока INT32, всего 192 блока. Каждый SM будет иметь в общей сложности 512 модулей FP32 плюс 256 модулей INT32, всего 768 модулей. А поскольку всего имеется 24 модуля SM (по два на GPC), мы имеем 12 288 модулей FP32 и 6 144 модуля INT32, что в сумме составляет 18 432 ядра CUDA, если говорить привычной терминологией.
Новые GPU будут иметь 192 КБ кэш-памяти первого уровня на блок SM, что на 50% больше, чем у архитектуры Ampere. Это суммарно 4,5 МБ кэш-памяти L1 в товопом AD102. Для сравнения, у GA102 всего около 1,8 МБ.
Кэш-памяти второго уровня будет 96 МБ, и это уже в 16 раз больше, чем у GA102! Фактически это некий аналог Infinity Cache у карт AMD.
Также в новой архитектуре увеличится количество блоков растеризации (ROP). Их будет 32 единицы на блок GPC, и это вдвое больше, чем сейчас. А так как увеличится и количество блоков GPC, в итоге у AD120 будет 384 блока ROP против 112 у GA102. Из остального сообщается о тензорных ядрах четвёртого поколения и ядрах RT третьего поколения.