В субботу, 4 января, генеральный директор Triplegangers Александр Томчук получил уведомление о том, что сайт электронной коммерции его компании не работает.
Это выглядело как некая распределенная атака типа «отказ в обслуживании». Вскоре он обнаружил, что виновником стал бот из OpenAI, который неустанно пытался взломать весь сайт.
ssia.ru«У нас более 65 000 товаров, у каждого товара есть своя страница, — объясняет Томчук. — На каждой странице есть как минимум три фотографии».OpenAI отправлял «десятки тысяч» запросов на сервер, пытаясь загрузить сотни тысяч фотографий вместе с их подробными описаниями.«OpenAI использовал 600 IP-адресов для сбора данных, и мы все еще анализируем логи с прошлой недели, возможно, их гораздо больше», — рассказывает Томчук об IP-адресах, которые бот использовал для попытки взлома сайта.«Их сканеры просто уничтожали наш сайт, — говорит гендиректор Triplegangers. — По сути, это была DDoS-атака». Компания, состоящая из семи сотрудников, потратила более десяти лет на то, чтобы собрать то, что она называет крупнейшей базой данных «цифровых двойников человека» в Интернете, имея в виду файлы 3D-изображений, отсканированные с реальных человеческих моделей.Triplegangers продает файлы 3D-объектов, а также фотографии — от рук до волос, кожи и тела в целом — 3D-художникам, создателям видеоигр и всем, кому необходимо цифровым способом воссоздать подлинные человеческие характеристики.Команда Томчука, базирующаяся в Украине, а также имеющая лицензию в США, имеет на своем сайте страницу с условиями обслуживания, которая запрещает ботам делать снимки без разрешения. Но это условие само по себе ничего не дает. Веб-сайты должны использовать правильно настроенный файл robot.txt с тегами, специально указывающими боту OpenAI, GPTBot, оставить сайт в покое. (У OpenAI также есть несколько других ботов, ChatGPT-User и OAI-SearchBot, которые имеют свои собственные теги, согласно информационной странице о краулерах).Robot.txt, иначе известный как Robots Exclusion Protocol, был создан для того, чтобы указывать поисковым системам, что не следует просматривать при индексации веб-страниц. На своей информационной странице OpenAI утверждает, что он учитывает такие файлы, если они настроены с помощью собственного набора тегов do-not-crawl, но также предупреждает, что его ботам может потребоваться до 24 часов, чтобы распознать обновленный файл robot.txt.Как заметил Томчук, если сайт не использует robot.txt должным образом, OpenAI и другие считают, что они могут скрейпить сколько захотят. В итоге Triplegangers был отключен ботом OpenAI в рабочее время в США. Теперь компания также ожидает резкого увеличения счета за AWS из-за всей нагрузки на процессор и загрузок со стороны бота.После этого инцидента Томчук правильно настроил файл robot.txt, а также аккаунт Cloudflare, настроенный на блокировку его GPTBot и нескольких других обнаруженных им ботов, таких как Barkrowler (SEO-краулер) и Bytespider (краулер TokTok). Он также надеется, что ему удалось заблокировать краулеров других компаний, занимающихся разработкой моделей искусственного интеллекта.Однако Томчук до сих пор не знает, что именно бот успешно удалил или пытался удалить. Он не нашел способа связаться с OpenAI и спросить. Компания также не ответила на просьбу TechCrunch о комментарии.«Мы занимаемся бизнесом, где права являются серьезным вопросом, потому что мы сканируем реальных людей», — сказал Томчук. С такими законами, как европейский GDPR, «они не могут просто взять фотографию любого человека в Интернете и использовать ее».«Это пугает, потому что, похоже, существует лазейка, которую эти компании используют для сбора данных, говоря: “Вы можете избежать этого, если обновите свой robot.txt нашими тегами”, но это возлагает на владельца бизнеса ответственность за понимание того, как их блокировать», — говорит гендиректор.«Большинство сайтов остаются в неведении относительно того, что их взломали эти боты, — предупреждает Томчук. —Теперь нам приходится ежедневно отслеживать активность журналов, чтобы обнаружить этих ботов».Главной киберугрозой для российского бизнеса в 2024 году, наряду с атаками программ-вымогателей, стали утечки баз данных. По данным экспертов, за год в публичном пространстве появилось более 250 ранее не опубликованных баз данных российских компаний. За год количество атак программ-вымогателей выросло на 44%, отметили аналитики.