Дата публикации:Fri, 21 Mar 2025 13:46:05 +0300
Различные открытые проекты столкнулись с волной сбоев и замедления работы элементов инфраструктуры из-за повышения активности индексаторов содержимого сайтов (скраперов), собирающих информацию для обучения больших языковых моделей или для обеспечения ИИ-поиска в Web (например, компания Anthropic вчера представила вариант модели Claude 3.7 с возможностью поиска в Web).
Проблемы возникают из-за того, что подобные ИИ-индексаторы действуют агрессивно, собирают информацию в несколько потоков и не учитывают правила доступа к контенту, заданные на сайтах через файл robots.txt. Проблему усугубляет то, что разработками в области машинного обучения занимаются большое число разных компаний по всему миру, которые пытаются собирать как можно больше данных в меру своих возможностей. Каждая компания запускает свой индексатор и все вместе они создают огромную паразитную нагрузку на элементы инфраструктуры.
После начала блокировки подобного трафика, некоторые индексаторы начали притворяться типовыми браузерами для обхода фильтрации по идентификатору User Agent и использовать распределённые сети, охватывающие большое число хостов, для преодоления ограничений интенсивности обращений с одного IP. Наиболее сильно из-за активности ИИ-индексаторов страдают инфраструктуры открытых проектов, использующих собственные хостинги Git-репозиториев, форумы и Wiki, которые изначально не были рассчитаны на обработку высокой нагрузки.
Проблемы возникли у платформы совместной разработки SourceHut, развиваемой Дрю ДеВолтом (Drew DeVault), автором пользовательского окружения Sway. Дрю сетует на то, что в очередной раз вместо того, чтобы заниматься развитием платформы ему приходится тратить большую часть своего времени на разгребание неожиданно возникших проблем. Четыре года назад проблемой для SourceHut стало использование CI-инфраструктуры для майнинга криптовалют. Два года назад пришлось разбираться с флудом запросами "git clone" из-за сервиса Go Module Mirror. В прошлом году платформа была выведена из строя на неделю из-за DDoS-атаки. Теперь возникла новая напасть - ИИ-индексаторы.
По словам Дрю, решение нескольких приоритетных задач было отложено на недели или даже месяцы из-за того, что создателей SourceHut постоянно отвлекает блокировка ИИ-ботов. Чтобы избежать сбоев правила блокировки приходится пересматривать по несколько раз в день. Для снижения запросов к ресурсоёмким обработчикам в SourceHut были внедрены ловушки на базе инструментария Nepenthes, генерирующего в ответ на запросы ботов случайный контент с зацикленными на ловушку ссылками. До этого разработчики SourceHut из-за агрессивного поведения ИИ-ботов были вынуждены заблокировать трафик из нескольких облачных платформ, включая Google Cloud Platform и Azure.
При этом введённые меры не лишены ложных срабатываний, от чего уже пострадали многие пользователи, так как внедрённая система блокировки не всегда может отличить реальных пользователей от ботов (например, возникли проблемы со сборкой пакетов для репозиториев Nix). ИИ-боты сканируют всё до чего могут дотянуться, включая ресурсоёмкие операции, такие как "git blame", перебирают каждую страницу в "git log" каждого репозитория, мимикрируя под запросы обычных пользователей, используя случайные индинтификаторы реальных браузеров (User Agent) и отправляя запросы с десятков тысяч IP, не связанных к какой-то одной подсетью.
Другие проекты, обратившие внимание на проблему:
- Из-за высокой нагрузки на инфраструктуру для противостояния ИИ-индексаторам разработчики GNOME внедрили систему защиты от ботов Anubis, допускающую вход только после вычисления хэша sha256 (proof-of-work). При открытии страниц в GitLab GNOME теперь появляется характерная аниме-заставка, которая у некоторых пользователей приводит к минутной задержке загрузки страниц. За два с половиной часа тестирования только 3% запросов прошили проверку в Anubis, а 97% обращений были совершены ботами. Ранее для предотвращения высокой нагрузки от ИИ-ботов разработчики GNOME ограничили интенсивность обращений с IP-адресов при доступе незарегистрированных пользователей к запросам на слияние и к коммитам.
В проекте Fedora из-за запросов ИИ-индексаторов наблюдаются сбои с работой платформы совместной разработки Pagure. В процессе противостояния с ИИ-ботами пришлось заблокировать множество подсетей, включая весь диапазон IP-адресов Бразилии, что привело к блокировке и некоторых пользователей.
Сообщается о проблемах с сервисом совместной разработки Codeberg и инфраструктурой платформы Forgejo (code.forgejo.org), которые пытаются отразить поток запросов ИИ-индексаторов. Упоминаются как индексаторы, отправляющие запросы с указанием известных ИИ-платформ в заголовке User Agent, так и ИИ-боты, прикрывающиеся идентификаторами обычных браузеров и отправляющие запросы с десятков тысяч IP-адресов.
GitLab-сервер проекта KDE на некоторое время оказался недоступен из-за перегрузки в результате активности ИИ-индексаторов, отравлявших запросы из подсети, принадлежащей компании Alibaba. Запросы поступали с одним заголовком User-Agent, притворяющимся браузером MS Edge. В настоящее время активность бота блокирована на уровне фильтрации по User-Agent.
Из-за высокой нагрузки на сайт разработчики Inkscape
начали блокировку по спискам Prodigious и планируют установить систему Anubis для защиты от ИИ-индексаторов.
Из-за наплыва ИИ-индексаторов отмечаются сбои в работе форума проекта FreeCAD и проблемы с Wiki проекта Arch Linux.
Разработчики открытой социальной сети Diaspora сообщили о возрастании нагрузки на форумы Discourse, Wiki и web-сайт проекта. По статистике за ноябрь и декабрь, собранной до нашествия обезличенных ботов, около
70% всего трафика пришлось на запросы от ИИ-индексаторов: 24.6% трафика сгенерировано ботом GPTBot, 17.1% - Amazonbot, 4.3% - ClaudeBot, 2.2% - meta-externalagent (для сравнения на ботов Google и Bing приходится по 0.14% трафика). В пиковые моменты интенсивность работы ботов достигала 10 запросов в секунду. ИИ-боты не обращали внимание на robots.txt, перебирая всё, вплоть до истории редактирования в Wiki. При блокировке IP-адресов, боты возобновляли работу с новых адресов, а при блокировке User-Agent переходили к индексации под идентификаторами типовых браузеров.
Администраторы микроблогинговой платформы Framapiaf подготовили список блокировки, насчитывающий 460 тысяч адресов с которых зафиксирована активность ИИ-ботов. Отдельно развивается проект ai.robots.txt, собравший список идентификаторов (User Agent) ИИ-индексаторов, которые не скрывают имя бота, а также опубликовавший статистику о том, какие из ботов учитывают правила из файла robots.txt. Примеры блокировки по заголовку User-Agent предложены для Apache httpd и nginx.
Дополнительно можно отметить, ловушку для ИИ-ботов AI Labyrinth, представленную вчера компанией Cloudflare. Пользователям Cloudflare предоставлена опция, позволяющая вместо блокировки ИИ-ботов, игнорирующих запрет на индексацию, отдавать фиктивные страницы и зацикливать ботов на их обработке. Предполагается, что выдача ИИ-ботам мусорного контента заставит их разработчиков следовать правилам robots.txt и снизить интенсивность запросов. По статистике Cloudflare около 1% всего трафика в сети приходится на ИИ-ботов.
Новость позаимствована с opennet.ru
Ссылка на оригинал: https://www.opennet.ru/opennews/art.shtml?num=62925