Kandinsky научился понимать иностранные языки

На международной конференции по искусственному интеллекту Artificial Intelligence Journey Сбер представил Kandinsky 2.0 — усовершенствованную версию нейросети Kandinsky, которая дебютировала в июне этого года. Как заявляют создатели, это первая российская мультиязычная диффузионная модель для генерации изображений по текстовому описанию с 2 млрд параметров. Kandinsky 2.0, в отличие от предшественника, может обрабатывать запросы на 101 языке и, как утверждают разработчики, делает это одинаково быстро и качественно вне зависимости от того, какой язык используется — распространённый, вроде русского и английского, или редкий, например, монгольский.

В Kandinsky 2.0 используется набирающий популярность диффузионный подход, который даёт хорошие результаты почти во всех задачах генерации мультимедийного контента по текстовому описанию (синтез изображений, видео, 3D и аудио). По словам Сбера, Kandinsky 2.0 отличается от своего предшественника более сочной, глубокой и реалистичной картинкой и расширенными возможностями. На сайте FusionBrain изображения можно генерировать в 20 различных стилях, среди которых ренессанс, классицизм, мультипликация, Новый год и даже хохлома. В модели также реализованы функции inpainting (замена любой части изображения и любого объекта на изображении на сгенерированные нейросетью) и outpainting (возможность дорисовывать готовое изображение и фон вокруг картинки). Интересно, что одинаковые понятия по описанию на разных языках Kandinsky 2.0 нарисует по-разному: например, если сформулировать запрос «национальное блюдо» на русском языке, то это, скорее всего, будут щи, а на японском — мисо суп и суши.

Нейросеть разработали и обучили исследователи Sber AI при поддержке учёных из Института искусственного интеллекта AIRI. Увидеть, как она рисует, можно на сайте FusionBrain, а также при помощи команды «Запусти художника» на умных устройствах Sber и в мобильном приложении Салют. Как отмечают создатели Kandinsky 2.0, она за несколько секунд позволяет получить уникальное изображение под конкретную задачу и свободно распространять его без лицензии, что очень актуально для бизнеса. По их мнению, нейросеть рисует реалистичные изображения, которые зачастую неотличимы от тех, что создают люди.

Техноблог

Kandinsky научился понимать иностранные языки

Оплата по геолокации до конца года заработает в 10 городах России

190 л.с., 7 мест, классический автомат, полный привод и дизайн в стиле Li Auto. Дилеры получили новый кроссовер от Chery для России — Soueast S07

Chery вновь переписала цены на седан Arrizo 8, преподносящийся как замена Toyota Camry

Ростех выпустил кварцевые генераторы — сердце цифровой электроники

Apple вообще никуда не торопится, а iPhone 17 получит устаревшую Siri: выпуск нового ИИ-помощника уровня ChatGPT и Gemini отложили до 2026 года

Оплата по геолокации до конца года заработает в 10 городах России

190 л.с., 7 мест, классический автомат, полный привод и дизайн в стиле Li Auto. Дилеры получили новый кроссовер от Chery для России — Soueast S07

Chery вновь переписала цены на седан Arrizo 8, преподносящийся как замена Toyota Camry