Искусственный интеллект (ИИ) прочно вошел в жизнь журналисто_к и правозащитни_ц, помогая им работать с чувствительной информацией. Но возникает вопрос: безопасно ли использовать ИИ-решения, особенно с точки зрения GDPR, когда речь идет о чувствительных данных?
GDPR или Общий регламент по защите данных — постановление ЕС, с помощью которого Европейский парламент, Совет Европейского союза и Европейская комиссия усиливают и унифицируют защиту персональных данных всех лиц в ЕС.
В этом тексте мы рассмотрим:
Риски использования ИИ-решений для работы с конфиденциальной информацией.
Соответствие GDPR при работе с ИИ-инструментами, например, чат-ботом GPT.
Разберём ответ на эти вопросы на примере самой популярной языковой модели и виртуального собеседника ChatGPT. Глобально,ChatGPT, DALL-E, Midjourney – это программы, только необычные.
На уроках информатики изучают простые шаги программирования. Программе можно написать алгоритм «как спуститься с лестницы»: сделай шаг вперёд, спустись на ступеньку, снова спустись на ступеньку и так далее. Соответственно, если алгоритм «как спуститься с лестницы» усложняется, например, появляется дополнительный пролёт, то изменяется и сам алгоритм. Но программист должен потратить время, чтобы изменить сам алгоритм.
Обычная программа — это конкретный алгоритм, и когда человек что-то не учёл, то программа ломается или работает с ошибками.
Нейросети и искусственный интеллект позволяют не писать алгоритмизацию для каждого возможного варианта, а научить эту модель просчитывать всё возможное на вводных данных, например, описание или видео того, как кто-то передвигается по лестнице.
Модель — это своего рода чёрный ящик, в который мы закидываем данные и получаем результат, которые мы не можем предугадать заранее. Этот результат может быть как адекватным, так и неадекватным.
Нейросети могут быть более гибкими в поисках решений, а иногда давать совершенно непредсказуемый результат. В одном эксперименте нейросеть попросили как можно скорее пересечь финишную линию в виртуальном пространстве без ограничений. Команда исследующих предполага, что нейросеть будет строить скоростной транспорт, но она создала огромную «колбасу», которая просто упала вперёд и пересекла черту. Неожиданно, но тоже результат.
Это касается и языковых моделей, таких как ChatGPT. Если модель плохо натренирована, то и результат будет неадекватный, потому что модель не осознаёт ответ, выдаёт результат на основании всех данных на которых она была обучена.
Вначале есть программа оболочка, например, ChatGPT, куда мы вводим данные и в ней живёт какая-то модель. Модель — это большое количество разного вида информации и алгоритмов, с рядом ограничений, какой-то цензурой и исправлениями, сделанными человеком в процессе обучения и тренировки модели.
Мы знаем, что ChatGPT создан компанией OpenAI. Значит, можем решать стоит или нет доверять этой компании, потому что можем посмотреть информацию о компании и их privacy policy (инструкция по приватности). Если это модель или нейросеть, созданная компанией из Тайваня, Китая, США, или любой другой страны, то и компания, и её сервисы подчиняются законам и политикам той страны, в которой находятся и осуществляют деятельность. На это нужно обращать особое внимание.
Сохранять и использовать информацию, задаваемому пользователем, для самообучения может и ChatGPT и другие сервисы на основе ИИ. При этом сама модель при ежедневной работе никак не меняется на основании данных других пользовател_ниц, но оператор сервиса может дообучить модель на основании данных других пользовател_ниц.
В ChatGPT прямо написано, что операторы сервиса будут видеть информацию с бесплатных или дешёвых тарифных планов и могут её использовать для (до)обучения модели в анонимизированном виде.
Например, данные из ChatGPT, информация, которая туда вводится, шифруется через протокол «https» и отправляется на сервер. Информация приходит на сервер зашифрованной и расшифровывается на самом сервере. Интернет-провайдер не видит содержимое коммуникации, а компания OpenAI и те кто администрируют сервер — видя.
Она приходит на сервер уже в расшифрованном виде, и дальше может снова шифроваться, однако если кто-то имеет доступ к физическому серверу ChatGPT, то может её видеть или взять оттуда в тот момент, когда она туда попадает. Тут возвращаемся к вопросу, насколько надёжной является компания, создавшая эту модель, и кому по своему privacy policy могут быть доступны данные.
Кстати, мы уже подробно писали о 8 шагах в GDPR для некоммерческих организаций.
Сервис сохраняет у себя запросы (промты), которые пользовател_ница пишет и то, что сгенерировано в ответ. Также сохраняет каждый шаг редактирования промта и ответы на них. Сервис помнит, что и кому отвечает, какие даёт комментарии, на каком месте остановилась сессия.
Когда человек пользуется веб-интерфейсом ChatGPT, программа выполняется в браузере компьютера пользовател_ницы. Соответственно, если есть вирусы на компьютере, или версия браузере давно не обновлялась, то нет никакой гарантии, что данные пользовател_ницы не утекут, и ChatGPT тут ни при чём.
Чтобы выбирать конкретные решения ИИ под свои задачи важно понимать плюсы и минусы конкретных сервисов и изучать дополнительную информации по политике компании при использовании моделей пользователь_ницами.