Разговоры с чат-ботами могут быть не такими приватными, как кажутся

Сотни миллионов людей взаимодействуют с чат-ботами, а исследования мер обеспечения конфиденциальности практически не проводились.

Крупные компании, создающие искусственный интеллект, используют разговоры пользователей для обучения своих моделей. Это вызывает серьезные вопросы о конфиденциальности и подчеркивает необходимость более прозрачной политики, передает naukatv.ru

В прошлом месяце компания Anthropic изменила условия обслуживания: разговоры с их чат-ботом Claude теперь по умолчанию используются для обучения модели, если пользователь не откажется. Но Anthropic не единственная. Исследование Стэнфорда показало, что шесть ведущих американских компаний — Amazon, Anthropic, Google, Meta, Microsoft и OpenAI — используют пользовательские данные для улучшения моделей. Некоторые предоставляют возможность отказаться, другие — нет, и это делается без ведома пользователей. Исследование опубликовано на сервере arXiv.

Почему это важно для пользователей

«Конечно, стоит беспокоиться. Если вы делитесь конфиденциальной информацией в ChatGPT, Gemini или других передовых моделях, она может быть использована для обучения, даже если вы отправили ее в отдельном файле», — говорит Дженнифер Кинг, научный сотрудник Стэнфордского института ИИ, ориентированного на человека.

Команда Стэнфорда изучила политику конфиденциальности разработчиков и обнаружила несколько тревожных моментов: длительное хранение данных, использование информации о детях, общая непрозрачность и ненадежность документов.

«Потребителям следует дважды подумать, прежде чем делиться чем-то личным, и, по возможности, отказаться от использования своих данных для обучения. Все это попадает в общую сеть», — добавляет Кинг.

Политика конфиденциальности устарела

Современные правила конфиденциальности, применяемые к чат-ботам, часто написаны сложным юридическим языком. Потребителям трудно понять, что именно они подписывают, хотя согласие необходимо для использования сервисов.

За последние годы разработчики обучали модели на огромных объемах информации из Интернета. Это значит, что личные данные могли попасть в обучающие наборы случайно.

«Сотни миллионов людей взаимодействуют с чат-ботами, а исследования мер обеспечения конфиденциальности практически не проводились», — объясняет Кинг.

В США защита данных осложнена разрозненными законами на уровне штатов и отсутствием федерального регулирования.

Что показало исследование Стэнфорда

Ученые сравнили политики шести компаний, включая Amazon (Nova), Anthropic (Claude), Google (Gemini), Meta (Meta AI) (запрещенная в России организация), Microsoft (Copilot) и OpenAI (ChatGPT). Они проанализировали 28 документов: основные политики, подполитики, разделы FAQ и руководства в интерфейсах чатов.

Исследователи проверяли:

используются ли данные чатов для обучения моделей;
какие категории данных собираются, хранятся и обрабатываются;
есть ли у пользователей возможность согласия или отказа.

Размытые границы

Все шесть компаний используют данные чатов по умолчанию. Некоторые хранят их неограниченно, другие утверждают, что деидентифицируют данные перед использованием. У многих разработчиков взаимодействия пользователей объединяются с информацией из других сервисов — поисковых запросов, покупок, социальных сетей.

Эти практики особенно проблематичны, если пользователи делятся биометрическими или медицинскими данными. Например, при запросе рецепта с учетом диабета или проблем с сердцем, алгоритм может «вывести» пользователя как часть уязвимой группы, что со временем способно повлиять на рекламу, страховку и другие аспекты жизни.

«Эта информация проникает в экосистему разработчиков. Вы начинаете видеть рекламу лекарств, и легко понять, как данные могут попасть к страховой компании», — объясняет Кинг.

Конфиденциальность детей

Практики в отношении детей различаются. Google собирает данные подростков при согласии, Anthropic запрещает аккаунты до 18 лет, но не проверяет возраст, а Microsoft собирает данные детей, но не использует их для обучения языковых моделей, а использует для рекламы. Все это уже далеко не приватно.

Как защитить данные

Ученые советуют разработчикам и политикам внедрять комплексное федеральное регулирование конфиденциальности, добровольное согласие пользователей на обучение и автоматическую фильтрацию личной информации.

«Общество должно решить, стоит ли прирост возможностей ИИ такой значительной потери конфиденциальности. Необходимо продвигать инновации в области ИИ, сохраняющего конфиденциальность, чтобы личные данные пользователей не оставались второстепенной задачей», — заключает Кинг.

Источник