Российские учёные заявили, что создали самый эффективный в мире алгоритм для обучения ИИ: вчетверо быстрее аналогов

Команда «Тинькофф» поделилась новыми достижениями учёных из Tinkoff Research. Как сообщила пресс-служба, в лаборатории исследований искусственного интеллекта Tinkoff Research создали самый эффективный среди мировых аналогов алгоритм для обучения и адаптации искусственного интеллекта. 

Российские учёные заявили, что создали самый эффективный в мире алгоритм для обучения ИИ: вчетверо быстрее аналогов
Сгенерировано нейросетью Dall-E

В Tinkoff Research рассказали:

Новый метод, названный ReBRAC (Revisited Behavior Regularized Actor Critic — пересмотренный актор-критик с контролируемым поведением), обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением (Reinforcement Learning, RL), адаптируя его к новым условиям на ходу.

Суть открытия в том, что учёные из Tinkoff Research идентифицировали четыре компонента, которые были представлены в алгоритмах последних лет, но считались второстепенными и не подвергались детальному анализу:

  1. Глубина нейронных сетей. Увеличение глубины сети помогает ей лучше понимать сложные закономерности в данных.
  2. Регуляризация актора и критика. В ИИ-агентах есть два компонента: «актор», который предпринимает действия, и «критик», который оценивает эти действия. Учёные использовали совместную регуляризацию обоих компонентов, чтобы актор избегал нежелательных действий, а критик более эффективно оценивал их. Ранее не было понятно, как сочетать оба подхода с наибольшей эффективностью.
  3. Увеличение эффективного горизонта планирования — позволяет модели балансировать между краткосрочными и долгосрочными аспектами задачи и улучшает её способность принимать решения.
  4. Использование нормализации слоёв (LayerNorm) — стабилизирует процесс обучения нейронных сетей.

Эти компоненты интегрировали в алгоритм-предшественник BRAC (Behavior Regularized Actor Critic — актор-критик с контролируемым поведением) 2019 года и провели исследование, поочередно варьируя каждый из них. Оказалось, что правильная совокупность этих компонентов даёт даже этому старому подходу самую высокую производительность среди лучших аналогов на сегодняшний день. Модифицированный алгоритм получил название ReBRAC.

Российские учёные заявили, что создали самый эффективный в мире алгоритм для обучения ИИ: вчетверо быстрее аналогов

Тестирование на робототехнических симуляторах показало, что алгоритм обучает ИИ в четыре раза быстрее и на 40% качественнее всех существующих в офлайн-бенчмарках. Ранее лидерство принадлежало алгоритму SAC-RND, также созданному учёными из Tinkoff Research.


Источник