Поведенческое тестирование моделей машинного обучения (модульные тесты для машинного обучения)
Автор: Jay Alammar
Загружено: 2021-06-28
Просмотров: 11517
Как мы можем расширить возможности моделей машинного обучения с помощью мощных методов разработки программного обеспечения, таких как модульное тестирование?
Оценка моделей машинного обучения с использованием одной метрики (например, точности или F1-меры) дает лишь поверхностное представление о производительности модели. Поведенческие тесты позволяют получить гораздо более точную оценку возможностей модели. Создавая тесты (небольшие целевые наборы данных), мы можем лучше сравнивать модели или наблюдать за тем, как изменяется производительность модели после переобучения (или тонкой настройки). Мы обсуждаем статью «Beyond Accuracy: Behavioral Testing of NLP Models with CheckList», которая была выбрана лучшей статьей ACL 2020.
Введение (0:00)
Сравнение моделей с использованием возможностей (0:33)
Поведенческое тестирование моделей НЛП (3:06)
Тип теста 1: Тесты минимальной функциональности (4:22)
Тип теста 2: Тесты инвариантности (7:04)
Тип теста 3: Тесты направленного ожидания (7:32)
Резюме и заключение (10:00)
------
Статья: За пределами точности: Поведенческое тестирование моделей НЛП с помощью CheckList
https://www.aclweb.org/anthology/2020...
Код:
https://github.com/marcotcr/checklist
------
Twitter: / jayalammar
Блог: https://jalammar.github.io/
Список рассылки: https://jayalammar.substack.com/
Больше видео от Джея:
Обработка языка с помощью BERT: 3-минутное введение (Глубокое обучение для НЛП)
• Language Processing with BERT: The 3 Minut...
Шпаргалка по понятному ИИ — пять ключевых категорий
• Explainable AI Cheat Sheet - Five Key Cate...
Языковая модель Transformer с озвучкой
• The Narrated Transformer Language Model
Визуальное введение Джея в ИИ
• Jay's Visual Intro to AI
Как работает GPT-3 — простое объяснение с помощью анимации
• How GPT3 Works - Easily Explained with Ani...
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: