Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

INSAIT Tech Series: Prof. Zico Kolter - AI Safety & Robustness: Recent Advances & Future Directions

Автор: INSAIT Institute

Загружено: 2024-10-13

Просмотров: 1073

Описание:

INSAIT Tech Series: Prof. Zico Kolter - AI Safety and Robustness: Recent Advances

Abstract
In order to prevent undesirable outputs, most large language models (LLMs) have built-in “guardrails” that enforce policies specified by the developers, for example, that LLMs should not produce output deemed harmful. Unfortunately, using adversarial attacks on such models, it has been possible to circumvent these safeguards, allowing bad actors to manipulate LLMs for unintended purposes. Historically, such adversarial attacks have been extremely hard to prevent. However, in this talk I will highlight several recent advances that have substantially improved the practical robustness of LLMs. This work has culminated in a recent competition where attackers were unable to break an LLM we have deployed after a month of attempts. I’ll highlight the current state and challenges in the field, and discuss the future of safe AI systems.

INSAIT Tech Series: Prof. Zico Kolter - AI Safety & Robustness: Recent Advances & Future Directions

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

INSAIT Tech Series: Prof. Kenneth Paterson - Cryptography in the Wild

INSAIT Tech Series: Prof. Kenneth Paterson - Cryptography in the Wild

SaTML 2023 - Zico Kolter - Robustness in Machine Learning: A Five-Year Retrospective

SaTML 2023 - Zico Kolter - Robustness in Machine Learning: A Five-Year Retrospective

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

4 Hours Chopin for Studying, Concentration & Relaxation

4 Hours Chopin for Studying, Concentration & Relaxation

Искусственный интеллект и кибербезопасность: Дэн Боне берет интервью у Сэма Альтмана

Искусственный интеллект и кибербезопасность: Дэн Боне берет интервью у Сэма Альтмана

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

HSB Community Resource Seminar 2025 - How to Apply for Affordable Housing

HSB Community Resource Seminar 2025 - How to Apply for Affordable Housing

Проф. Мартин Вечев в предаването „120 минути“ по btv

Проф. Мартин Вечев в предаването „120 минути“ по btv

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Понимание GD&T

Понимание GD&T

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

Zico Kolter:

Zico Kolter: "Integrating optimization, constraints, and control within deep learning models"

Canada’s Economic Priorities and Opportunities with Laurent Carbonneau — National IP Summit 2025

Canada’s Economic Priorities and Opportunities with Laurent Carbonneau — National IP Summit 2025

Изучите Microsoft Active Directory (ADDS) за 30 минут

Изучите Microsoft Active Directory (ADDS) за 30 минут

The Next Big Thing in Tech is Almost Here

The Next Big Thing in Tech is Almost Here

д/ф «После промпта»

д/ф «После промпта»

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]