What are AI guardrails? How do they work?

Автор: Probably Private

Загружено: 2025-07-28

Просмотров: 676

Описание:

In this video, you'll investigate different approaches to AI guardrails and look at if they address problems of privacy in machine learning/AI. I'm curious to hear what you liked and learned and how you approach threat analysis/modeling and testing in your AI products/systems. Let me know in the comments!

To learn more, feel free to check out the articles and series on memorization in AI models.

Software-based guardrails: https://blog.kjamistan.com/blocking-a...

External algorithmic and internal alignment (i.e. training) guardrails:

Read all articles in the series: https://blog.kjamistan.com/a-deep-div...

And some citations from the video:

Zhang's presentation on avoiding software-based guardrails: • Quantifying and Understanding Memorization...

Purple Llama: https://github.com/meta-llama/PurpleL...

Nemo Guardrails: https://github.com/NVIDIA/NeMo-Guardr...

What are AI guardrails? How do they work?

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

What is Machine Forgetting?

What is Machine Forgetting?

How does machine unlearning work?

How does machine unlearning work?

Anthropic CEO warns that without guardrails, AI could be on dangerous path

Anthropic CEO warns that without guardrails, AI could be on dangerous path

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Guardrails Crash Course for Beginners 🛡️🔥

Guardrails Crash Course for Beginners 🛡️🔥

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Advanced Guardrails for AI Agents | Full Tutorial

Advanced Guardrails for AI Agents | Full Tutorial

LLM, RAG или AI Agent — что вам нужно?

LLM, RAG или AI Agent — что вам нужно?

Какой будет ИНТЕРНЕТ в 2026? (Спойлер: VPN уже не поможет)

Какой будет ИНТЕРНЕТ в 2026? (Спойлер: VPN уже не поможет)

20+ Нейросетей GOOGLE Которые Не Должны Быть Бесплатными

20+ Нейросетей GOOGLE Которые Не Должны Быть Бесплатными

Guardrails for LLMs: A Practical Approach // Shreya Rajpal // LLMs in Prod Conference Part 2

Guardrails for LLMs: A Practical Approach // Shreya Rajpal // LLMs in Prod Conference Part 2

AI Red Teaming Mini-Course: Building Adversarial Examples

AI Red Teaming Mini-Course: Building Adversarial Examples

Сложность пароля — это ложь. Вот что на самом деле защищает вас

Сложность пароля — это ложь. Вот что на самом деле защищает вас

Trust, but Verify: Shreya Rajpal

Trust, but Verify: Shreya Rajpal

How to add guardrails to generative AI in OpenShift AI

How to add guardrails to generative AI in OpenShift AI

Зафиксирован КРАХ GPT! Страшное Открытие об ИИ! LLM Модели Теряют Разум! Нейросети Достигли предела

Зафиксирован КРАХ GPT! Страшное Открытие об ИИ! LLM Модели Теряют Разум! Нейросети Достигли предела

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

Gemini 3, кванты и плоть. Странное будущее искусственного интеллекта.

Gemini 3, кванты и плоть. Странное будущее искусственного интеллекта.

Полный курс: Техника безопасности с ИИ. Что важно знать при работе с нейросетями!

Полный курс: Техника безопасности с ИИ. Что важно знать при работе с нейросетями!

CLI АГЕНТЫ - что это такое и почему я ОТКАЗАЛСЯ от ChatGPT?

CLI АГЕНТЫ - что это такое и почему я ОТКАЗАЛСЯ от ChatGPT?