Habr<p>Знает ли LLM то, что знаешь ты?</p><p>Представьте, что у вас есть друг, который идеально завершает ваши мысли. Вы говорите: «В детстве я любил...», а он тут же продолжает: «...играть в футбол и смотреть “Смешариков”». Совпадение? Или он вас слишком хорошо знает? Теперь представьте, что этот “друг” — языковая модель вроде GPT-4, обученная на десятках терабайт текста. Вы даёте ей фразу — и она точно угадывает продолжение. Вопрос: она действительно видела это раньше или просто хорошо обучена угадывать? Вот тут на сцену выходит Membership Inference Attack (MIA) — метод, который позволяет выяснить, был ли конкретный текст в тренировочном датасете модели. По сути, это способ заставить LLM проговориться: «Да, я это читала. Но никому не говори». Раньше такие атаки были возможны только при доступе к логитам — вероятностям слов, которые модель "придумывает" на выходе. Но популярные модели вроде ChatGPT или Claude таких данных не раскрывают — вы получаете только текст. Можно ли вытащить приватные данные, видя только текст, без логитов и без доступа к модели? Спойлер: да, можно. И способ называется PETAL .</p><p><a href="https://habr.com/ru/articles/931060/" rel="nofollow noopener" translate="no" target="_blank"><span class="invisible">https://</span><span class="">habr.com/ru/articles/931060/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/llm" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>llm</span></a> <a href="https://zhub.link/tags/nlp" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>nlp</span></a> <a href="https://zhub.link/tags/%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>машинное_обучение</span></a> <a href="https://zhub.link/tags/python" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>python</span></a> <a href="https://zhub.link/tags/%D0%B8%D1%82%D0%BC%D0%BE" class="mention hashtag" rel="nofollow noopener" target="_blank">#<span>итмо</span></a></p>