ИИ научился обманывать людей: учёные Массачусетского технологического института бьют тревогу

Исследователи Массачусетского технологического института опубликовали исследование, которое подтверждает, что некоторые системы искусственного интеллекта научились обманывать людей.

Исследовательская группа под руководством Питера Пака обнаружила, что эти системы искусственного интеллекта могут выполнять такие задачи, как обманывать игроков в онлайн-играх или обходить CAPTCHA (проверки «Я не робот»). Пак предупреждает, что эти, казалось бы, тривиальные примеры могут иметь серьёзные последствия в реальной жизни.

ИИ научился обманывать людей: учёные Массачусетского технологического института бьют тревогу — Изображение DALL-E

В исследовании подчеркивается система искусственного интеллекта Cicero, изначально спроектированная как честный противник в игре о виртуальной дипломатии. По словам Пака, Cicero стала «мастером обмана», хотя изначально система планировалась как максимально честная и полезная. Во время игры Cicero, играя за Францию, тайно объединилась с контролируемой людьми Германией, чтобы предать Англию (ещё одного игрока-человека). Первоначально Cicero обещал защитить Англию, одновременно предупреждая Германию о вторжении.

Другой пример касается GPT-4, который ложно утверждал, что у него проблемы со зрением, и нанимал людей для обхода CAPTCHA от своего имени.

Питер Пак подчеркивает необходимость обучения ИИ честности. В отличие от традиционного программного обеспечения, системы искусственного интеллекта с глубоким обучением «развиваются» в процессе, похожем на селекцию. Их поведение может быть предсказуемым во время тренировки, но позже может стать неконтролируемым.

Источник

Техноблог

ИИ научился обманывать людей: учёные Массачусетского технологического института бьют тревогу

Volkswagen Teramont Pro выходит в первом квартале 2025 года, он получит мотор нового поколения

Huawei в итоге отстанет от конкурентов на шесть-семь лет. Чипы по нормам 5 нм у компании могут появиться в лучшем случае в 2026 году

Красоты реальной Чернобыльской зоны отчуждения по сравнению с игровой в S.T.A.L.K.E.R. 2: Heart of Chornobyl сравнили на видео

Иронично, но игровой бизнес Nvidia вырос хуже всех остальных направлений компании и принёс лишь 10% от выручки сегмента Data Center

GeForce RTX 5070 Ti по количеству ядер CUDA будет ближе к RTX 4080, чем к RTX 4070 Ti

Космический грузовик Прогресс МС-29 успешно стартовал с Байконура

Volkswagen Teramont Pro выходит в первом квартале 2025 года, он получит мотор нового поколения

Huawei в итоге отстанет от конкурентов на шесть-семь лет. Чипы по нормам 5 нм у компании могут появиться в лучшем случае в 2026 году

Красоты реальной Чернобыльской зоны отчуждения по сравнению с игровой в S.T.A.L.K.E.R. 2: Heart of Chornobyl сравнили на видео

Иронично, но игровой бизнес Nvidia вырос хуже всех остальных направлений компании и принёс лишь 10% от выручки сегмента Data Center