Новая языковая модель ИИ расшифровывает сложную информацию, скрытую в человеческом геноме

ДНК, содержащая основополагающую информацию, необходимую для поддержания жизни, долгое время была одной из величайших научных загадок. С момента открытия двойной спирали учёные пытались понять информацию, закодированную в ДНК. Теперь, благодаря GROVER, новой большой языковой модели, обученной на человеческой ДНК, исследователи могут попытаться расшифровать сложную информацию, скрытую в нашем геноме.

Разработанная командой из Биотехнологического центра (BIOTEC) Дрезденского технического университета, GROVER рассматривает человеческую ДНК как текст, изучая её правила и контекст, чтобы извлекать функциональную информацию о последовательностях ДНК. Этот новый инструмент, опубликованный в Nature Machine Intelligence, имеет потенциал для преобразования геномики и ускорения персонализированной медицины.

Большие языковые модели, такие как GPT, изменили наше понимание языка. Обученные исключительно на тексте, они развили способность использовать язык во многих контекстах. Команда BIOTEC решила применить аналогичный подход к ДНК.

«ДНК — это код жизни. Почему бы не относиться к нему как к языку?» — говорит доктор Анна Пётч, руководитель исследовательской группы в BIOTEC. Команда Поэтча обучила большую языковую модель на эталонном геноме человека. Полученный инструмент под названием GROVER или «Правила генома, полученные с помощью извлеченных представлений» может использоваться для извлечения биологического смысла из ДНК.

Новая языковая модель ИИ расшифровывает сложную информацию, скрытую в человеческом геноме
Источник: DALL-E

GROVER изучил правила ДНК, включая грамматику, синтаксис и семантику в терминах языка. Для ДНК это означает изучение правил, управляющих последовательностями, порядка нуклеотидов и последовательностей, а также значения последовательностей. Подобно моделям GPT, изучающим человеческие языки, GROVER по сути научился «говорить» на ДНК.

Чтобы обучить GROVER, команде пришлось сначала создать словарь ДНК. Они использовали алгоритмы сжатия, анализируя весь геном и ища комбинации букв, которые встречаются чаще всего. Таким образом, примерно за 600 циклов они разбили ДНК на «слова», которые позволяют GROVER лучше всего справляться с предсказанием следующей последовательности.

GROVER обещает раскрыть различные слои генетического кода. ДНК содержит ключевую информацию о том, что делает нас людьми, о наших предрасположенностях к болезням и о наших реакциях на лечение.

«Мы считаем, что понимание правил ДНК через языковую модель поможет раскрыть глубины биологического смысла, скрытого в ДНК, что будет способствовать развитию как геномики, так и персонализированной медицины», — говорит доктор Поэтч.

GROVER уже показал способность точно предсказывать следующие последовательности ДНК и извлекать контекстную информацию, имеющую биологическое значение, такую как идентификация промоутеров генов или участков связывания белков на ДНК. Этот инструмент также изучает процессы, которые обычно считаются «эпигенетическими», т. е. регуляторные процессы, которые происходят поверх ДНК, а не кодируются.

Разработка GROVER — значительный шаг вперед в понимании генетического кода и его потенциала для персонализированной медицины.


Источник