Новая модель машинного обучения меняет метод обработки данных звёзд Млечного Пути

Учёные из Института астрофизики имени Лейбница в Потсдаме (AIP) и Института космических наук Барселонского университета (ICCUB) представили новую модель машинного обучения для эффективной обработки данных по 217 миллионам звёзд, наблюдавшихся в ходе миссии Gaia. Этот подход открывает новые возможности для картирования характеристик звёзд и улучшения понимания структуры Млечного Пути.

Третий выпуск данных космической миссии Gaia Европейского космического агентства предоставил астрономам доступ к улучшенным измерениям 1,8 миллиарда звёзд, что представляет собой колоссальный объём данных для исследования Млечного Пути. Однако эффективный анализ такого большого набора данных является серьёзной проблемой. В исследовании учёные изучали использование машинного обучения для оценки ключевых свойств звёзд с использованием спектрофотометрических данных, предоставленных обсерваторией Gaia.

Модель была обучена на данных о 8 миллионах звёзд и достигла надёжных прогнозов с небольшими неопределённостями. Работа опубликована в журнале Astronomy & Astrophysics.

«Базовая технология, называемая деревьями с экстремальным градиентным усилением, позволяет с беспрецедентной эффективностью оценивать точные характеристики звёзд, такие как температура, химический состав и затенение межзвёздной пылью. Разработанная модель машинного обучения SHBoost выполняет свои задачи, включая обучение модели и прогнозирование, в течение четырёх часов на одном графическом процессоре. Этот процесс ранее требовал двух недель и 3000 высокопроизводительных процессоров», — говорит Арман Халатян (Arman Khalatyan) из AIP и главный автор исследования.

Этот метод машинного обучения значительно сокращает время вычислений, потребление энергии и выбросы CO2. Это первый случай успешного применения такого метода к звёздам всех типов одновременно.

Новая модель машинного обучения меняет метод обработки данных звёзд Млечного Пути
Крупномасштабная карта (длина стороны 330 000 световых лет) плотности 217 миллионов звёзд из выборки Gaia DR3 XP.
Источник: F. Anders, Universitat de Barcelona

Модель обучается на высококачественных спектроскопических данных из небольших обзоров, а затем применяет эти «знания» к третьему большому выпуску данных Gaia (DR3), извлекая ключевые параметры, используя только фотометрические и астрометрические данные, а также спектры Gaia XP низкого разрешения.

«Высокое качество результатов снижает необходимость в дополнительных ресурсоёмких спектроскопических наблюдениях при поиске хороших кандидатов для дальнейших исследований, таких как звёзды с низким или высоким содержанием редких металлов, имеющие ключевое значение для понимания самых ранних фаз формирования Млечного Пути», — говорит Кристина Кьяппини из AIP.

Этот метод оказывается решающим для подготовки будущих наблюдений с использованием многообъектной спектроскопии, таких как 4MIDABLE-LR — крупномасштабное исследование Галактического диска и балджа, которое станет частью проекта 4MOST в Европейской южной обсерватории (ESO) в Чили.

«Новый подход предоставляет обширные карты общего химического состава Млечного Пути, подтверждающие распределение молодых и старых звёзд. Данные показывают концентрацию богатых металлами звёзд во внутренних областях галактики, включая перемычку и балдж, с огромной статистической мощностью», — добавляет Фридрих Андерс из ICCUB.

Команда также использовала модель для картирования молодых, массивных горячих звёзд по всей галактике, выделяя далёкие, плохо изученные регионы, в которых формируются звёзды. Данные также показывают, что во Млечном Пути существует ряд «пустот», — областей, в которых находится очень мало молодых звёзд. Кроме того, данные показывают, где трёхмерное распределение межзвёздной пыли всё ещё плохо решено.

Поскольку Gaia продолжает собирать данные, способность моделей машинного обучения быстро и устойчиво обрабатывать огромные наборы данных делает их важнейшим инструментом для будущих астрономических исследований. Успех подхода демонстрирует потенциал машинного обучения для преобразования анализа больших данных в астрономии и других научных областях, одновременно способствуя более устойчивым методам исследований.


Источник