Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

LLM Dataset Inference: Did you train on my dataset?

Автор: Google TechTalks

Загружено: 2025-01-14

Просмотров: 1577

Описание:

A Google TechTalk, presented by Pratyush Maini, 2024-08-14
ABSTRACT: The proliferation of large language models (LLMs) in the real world has come with a rise in copyright cases against companies for training their models on unlicensed data from the internet. Recent works have presented methods to identify if individual text sequences were members of the model's training data, known as membership inference attacks (MIAs). We demonstrate that the apparent success of these MIAs is confounded by selecting non-members (text sequences not used for training) belonging to a different distribution from the members (e.g., temporally shifted recent Wikipedia articles compared with ones used to train the model). This distribution shift makes membership inference appear successful.

However, most MIA methods perform no better than random guessing when discriminating between members and non-members from the same distribution (e.g., in this case, the same period of time). Even when MIAs work, we find that different MIAs succeed at inferring membership of samples from different distributions. Instead, we propose a new dataset inference method to accurately identify the datasets used to train large language models. This paradigm sits realistically in the modern-day copyright landscape, where authors claim that an LLM is trained over multiple documents (such as a book) written by them, rather than one particular paragraph. While dataset inference shares many of the challenges of membership inference, we solve it by selectively combining the MIAs that provide positive signal for a given distribution, and aggregating them to perform a statistical test on a given dataset. Our approach successfully distinguishes the train and test sets of different subsets of the Pile with statistically significant p-values less than 0.1, without any false positives.

Presented by Pratyush Maini, Carnegie Mellon University.

LLM Dataset Inference: Did you train on my dataset?

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Privacy Preserving ML with Fully Homomorphic Encryption

Privacy Preserving ML with Fully Homomorphic Encryption

Lecture 5: Membership Inference Attacks

Lecture 5: Membership Inference Attacks

Privacy-Preserving Machine Learning with Fully Homomorphic Encryption

Privacy-Preserving Machine Learning with Fully Homomorphic Encryption

Подробное объяснение тонкой настройки LoRA и QLoRA

Подробное объяснение тонкой настройки LoRA и QLoRA

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Robust Distortion-free Watermarks for Language Models

Robust Distortion-free Watermarks for Language Models

EASIEST Way to Fine-Tune a LLM and Use It With Ollama

EASIEST Way to Fine-Tune a LLM and Use It With Ollama

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Бывший рекрутер Google объясняет, почему «ложь» помогает получить работу.

Бывший рекрутер Google объясняет, почему «ложь» помогает получить работу.

The Strange Math That Predicts (Almost) Anything

The Strange Math That Predicts (Almost) Anything

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Может ли у ИИ появиться сознание? — Семихатов, Анохин

RAG vs. Fine Tuning

RAG vs. Fine Tuning

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

Understanding LLMs Like Physicists: Observation, Hypothesis, Experimentation, and Prediction

Understanding LLMs Like Physicists: Observation, Hypothesis, Experimentation, and Prediction

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Theoretical Limitations of Multi layer Transformers

Theoretical Limitations of Multi layer Transformers

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com