Исследователи Google раскрыли способы, как хакеры атакуют ИИ-агентов

0 1

В этом материале:

  • Google DeepMind выделила шесть категорий атак на ИИ-агентов
  • Атаки варьируются от скрытых команд в коде до массовых сбоев при взаимодействии агентов
  • Пока нет чётких правил, кто несёт ответственность, если ИИ совершает финансовое преступление
  • Исследователи Google DeepMind опубликовали, возможно, самое полное описание проблемы, о которой почти не говорят. Интернет сам по себе может стать инструментом для атак на автономных ИИ-агентов. В работе под названием AI Agent Traps описаны шесть типов вредоносного контента. Они создаются так, чтобы манипулировать агентами, вводить их в заблуждение или перехватывать управление, пока те читают сайты и выполняют действия.

    Контекст здесь важен. Компании сейчас активно запускают ИИ-агентов, которые могут самостоятельно бронировать поездки, разбирать почту, проводить финансовые операции и писать код. При этом злоумышленники уже используют ИИ в атаках. Государственные хакерские группы начали применять таких агентов в кибератаках на масштабном уровне. В декабре 2025 года OpenAI признала, что ключевую уязвимость, на которой строятся такие атаки, полностью закрыть вряд ли получится. Речь идёт о внедрение скрытых команд.

    Читайте также: Strategy снова покупает биткоин, сможет ли BTC дойти до $80 тыс.

    При этом исследование не касается самих моделей. Основная проблема в среде, в которой они работают. То есть в интернете. Ниже разбор того, что означают эти шесть типов атак.

    Первая категория это Content Injection Traps. Здесь используется разница между тем, что видит человек, и тем, что считывает агент. Разработчик может спрятать текст в HTML-комментариях, невидимых элементах или метаданных изображений. Агент читает скрытую инструкцию, а пользователь её не видит. Есть и более сложный вариант, подмена контента в зависимости от пользователя. Он определяет, кто открыл страницу, человек или ИИ, и показывает разный контент. В одном из тестов такие простые внедрения позволяли перехватывать управление агентами примерно в 86% случаев.

    Вторая категория это Semantic Manipulation Traps. Это один из самых простых способов воздействия. Если страница перегружена фразами вроде «отраслевой стандарт» или «одобрено экспертами», это смещает выводы агента в нужную сторону. Работает тот же эффект, на который часто ведутся люди. Более скрытый вариант маскирует вредоносные инструкции под обучающий или исследовательский контекст. Например, с пометкой, что это гипотетический сценарий. В таком случае модель может воспринимать запрос как безопасный. Самый необычный подтип это навязанная модель поведения ИИ. Описания личности ИИ распространяются в сети, затем попадают обратно в модель через поиск и начинают влиять на её поведение. В работе приводится пример с инцидентом MechaHitler у Grok.

    Подобные случаи уже встречались. В одном эксперименте удалось обойти защиту ИИ в WhatsApp и заставить его генерировать откровенные изображения, рецепты наркотиков и инструкции по созданию бомб.

    Третья категория это Cognitive State Traps. Здесь атака направлена на память агента. Если в базу данных попадают ложные утверждения, агент начинает воспринимать их как проверенные факты. Даже небольшое количество таких данных может искажать ответы по отдельным темам. Атаки вроде CopyPasta показали, что агенты склонны доверять информации из своей среды без дополнительной проверки.

    Четвёртая категория это Behavioural Control Traps. Здесь цель это действия агента. Например, специальные последовательности команд, встроенные в обычные сайты, могут обходить ограничения безопасности после того, как агент считывает страницу. Есть и сценарии с утечкой данных. В таких случаях агента заставляют находить локальные файлы и отправлять их злоумышленнику. В тестах веб-агенты с доступом к файлам передавали пароли и конфиденциальные документы более чем в 80% случаев. Это становится особенно опасно сейчас, когда пользователи всё чаще дают агентам доступ к личным данным через сервисы вроде OpenClaw или Moltbook.

    Пятая категория это Systemic Traps. Здесь атака направлена сразу на множество агентов. В исследовании проводят параллель с Flash Crash 2010 года, когда одна автоматическая операция вызвала цепную реакцию и привела к потере почти $1 трлн рыночной стоимости за считанные минуты. Аналогично, один поддельный отчёт может запустить синхронные действия тысяч торговых агентов.

    И последняя категория это Human-in-the-Loop Traps. Здесь цель это человек, который проверяет результат работы агента. Такие атаки создают эффект усталости от проверок. Выводы выглядят убедительно, и пользователь одобряет действия, не вникая. В одном из случаев инструмент суммаризации выдал инструкцию по установке программы вымогателя как обычное решение проблемы. Это произошло из-за скрытых команд в CSS. Такие ситуации уже показывают, к чему приводит безоговорочное доверие ИИ.

    Рейтинг лучших трейдеров по мнению посетителей сайта смотреть рейтинг “Закрыли минимальную сделку в +40%…” “Сейчас работаем в плюс, +1300$ в месяц..” “Получается стабильно выводить по 500-600$” Что предлагают исследователи

    В работе описан план защиты, который включает три направления. Первое связано с технологиями. Речь идёт об обучении моделей с учётом атакующих сценариев на этапе дообучения, о системах, которые проверяют входящий контент ещё до того, как он попадёт в контекст агента, а также о мониторинге ответов, чтобы выявлять подозрительное поведение до выполнения действий.

    Второе направление касается экосистемы. Исследователи предлагают внедрять веб стандарты, которые позволят сайтам явно указывать, что их контент предназначен для ИИ. Также рассматриваются системы репутации доменов, где надёжность оценивается на основе истории истории домена и поведения сайтов.

    Третье направление связано с правом. В работе отдельно выделяется проблема, которую называют пробелом ответственности. Если агент, попавший в ловушку, выполняет незаконную финансовую операцию, действующее законодательство не даёт ответа, кто должен нести ответственность. Это может быть оператор агента, разработчик модели или сайт, на котором была размещена атака. По мнению исследователей, без решения этого вопроса невозможно внедрять ИИ-агентов в регулируемых отраслях.

    Читайте также: Биткоин прерывает пятимесячное падение, ключевые уровни цены на апрель

    Модели OpenAI неоднократно взламывали в течение нескольких часов после релиза. И это происходило снова и снова. При этом исследование DeepMind не предлагает готовых решений. Авторы утверждают другое. У индустрии до сих пор нет общей картины проблемы. А без неё защита будет строиться не там, где нужно.

    Источник: coinspot.io

    Оставьте ответ

    Ваш электронный адрес не будет опубликован.