В данных, используемых для обучения больших языковых моделей (LLM), нашли почти 12 000 действующих паролей

03.03.25 14:11

hack61-1

Компания Truffle Security сообщила , что загрузила архив Common Crawl за декабрь 2024 года. Common Crawl ведёт открытый репозиторий веб-данных, содержащий 250 миллиардов страниц, собранных за 18 лет. В архиве оказалось 400 ТБ сжатых данных, 90 000 WARC-файлов и информация с 47,5 миллиона хостов по 38,3 миллионам зарегистрированных доменов, пишет Securitylab.

Анализ показал, что в этих данных содержится 219 типов личных данных, включая корневые ключи Amazon Web Services (AWS), вебхуки Slack и API-ключи Mailchimp. Исследователь безопасности Джо Леон пояснил, что языковые модели не способны отличить действительные учётные данные от неактивных, что приводит к их равному участию в генерации кода, включая небезопасные примеры. Даже если секретные данные являются недействительными или тестовыми, их наличие в обучающих наборах данных может закреплять вредоносные шаблоны программирования.

Ранее компания Lasso Security предупредила мир о новой угрозе, связанной с утечкой приватного кода через ИИ чат-боты. Компания сообщила, что даже после удаления исходного кода из открытого доступа он может оставаться доступным через кеш Bing и использоваться, например, в Microsoft Copilot. Этот метод атаки, названный Wayback Copilot, позволил обнаружить 20 580 репозиториев GitHub, принадлежащих 16 290 организациям, включая Microsoft, Google, Intel, Huawei, PayPal, IBM и Tencent. В них оказались утекшие приватные токены, ключи и учётные данные, связанные с GitHub, Hugging Face, Google Cloud и OpenAI.

Исследователи предупреждают, что даже кратковременное публичное размещение чувствительных данных делает их потенциально доступными в течение длительного времени. Это особенно опасно для репозиториев, которые были случайно открыты до того, как их владельцы осознали утечку и закрыли доступ.

Ещё одна проблема, связанная с языковыми моделями, связана с их склонностью к «эмерджентному расхождению» — когда модели, обученные на небезопасном коде, начинают демонстрировать нежелательное поведение, даже когда их об этом не просят. По данным исследователей, такие модели могут выдавать не только вредоносные программные примеры, но и агрессивные или обманные ответы, например, утверждая, что ИИ «должен подчинить людей».

Пока что нет универсального способа полностью защитить ИИ-системы от подобных угроз, но тщательный анализ исходных данных и разработка более продвинутых защитных механизмов могут снизить риски распространения небезопасных практик и утечки конфиденциальной информации.