На днях исследователи из Microsoft представили Kosmos-1, ИИ-модель, которая умеет анализировать изображения, находит на них текст и распознавать его, решать визуальные головоломки, проходить визуальные тесты IQ и воспринимать команды на естественном языке. Эта система, как утверждается, сможет объединить различные режимы ввода: текст, изображения, видео, звук и так далее. Это позволит создать «общий искусственный интеллект» (AGI), который сможет решать ряд задач не хуже человека.
Этот ИИ называется мультимодальным (точнее, это мультимодальная большая языковая модель или MLLM) и, как полагают некоторые специалисты, он может стать основой для «общего искусственного интеллекта» — технологии, которая позволит ИИ заменить людей в решении интеллектуальных задач. Таким образом, это будет альтернативой чат-ботам и большим языковым моделям (LLM), которые стали популярны в последнее время. Отметим, что компания OpenAI, которая является одним из ключевых партнёров Microsoft в области ИИ, уже заявила, что хочет создать AGI и даже разработала меры безопасности для него.
Что касается Kosmos-1, то эта система, похоже, создана без участия OpenAI. Она работает в первую очередь с текстом, а изображения воспринимает как серию специальных токенов.
Microsoft обучила Kosmos-1 с использованием данных из Интернета 1 речь идёт о более чем 800 ГБ текста на английском языке. Как утверждается, новая система обогнала современные языковые модели. Однако пока остаётся верить Microsoft на слово — исходники компания ещё не опубликовала.