Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

When BERT Plays the Lottery, All Tickets Are Winning (Paper Explained)

Автор: Yannic Kilcher

Загружено: 2020-05-22

Просмотров: 30655

Описание:

BERT is a giant model. Turns out you can prune away many of its components and it still works. This paper analyzes BERT pruning in light of the Lottery Ticket Hypothesis and finds that even the "bad" lottery tickets can be fine-tuned to good accuracy.

OUTLINE:
0:00 - Overview
1:20 - BERT
3:20 - Lottery Ticket Hypothesis
13:00 - Paper Abstract
18:00 - Pruning BERT
23:00 - Experiments
50:00 - Conclusion

https://arxiv.org/abs/2005.00561

ML Street Talk Channel:    / @machinelearningstreettalk  

Abstract:
Much of the recent success in NLP is due to the large Transformer-based models such as BERT (Devlin et al, 2019). However, these models have been shown to be reducible to a smaller number of self-attention heads and layers. We consider this phenomenon from the perspective of the lottery ticket hypothesis. For fine-tuned BERT, we show that (a) it is possible to find a subnetwork of elements that achieves performance comparable with that of the full model, and (b) similarly-sized subnetworks sampled from the rest of the model perform worse. However, the "bad" subnetworks can be fine-tuned separately to achieve only slightly worse performance than the "good" ones, indicating that most weights in the pre-trained BERT are potentially useful. We also show that the "good" subnetworks vary considerably across GLUE tasks, opening up the possibilities to learn what knowledge BERT actually uses at inference time.

Authors: Sai Prasanna, Anna Rogers, Anna Rumshisky

Links:
YouTube:    / yannickilcher  
Twitter:   / ykilcher  
BitChute: https://www.bitchute.com/channel/yann...
Minds: https://www.minds.com/ykilcher

When BERT Plays the Lottery, All Tickets Are Winning (Paper Explained)

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

The Lottery Ticket Hypothesis Explained!

The Lottery Ticket Hypothesis Explained!

XLNet: Generalized Autoregressive Pretraining for Language Understanding

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Image GPT: Generative Pretraining from Pixels (Paper Explained)

Image GPT: Generative Pretraining from Pixels (Paper Explained)

4 Hours Chopin for Studying, Concentration & Relaxation

4 Hours Chopin for Studying, Concentration & Relaxation

Mathematician Breaks Down the Best Ways to Win the Lottery | WIRED

Mathematician Breaks Down the Best Ways to Win the Lottery | WIRED

The Lottery Ticket Hypothesis and pruning in PyTorch

The Lottery Ticket Hypothesis and pruning in PyTorch

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Big Bird: Transformers for Longer Sequences (Paper Explained)

Big Bird: Transformers for Longer Sequences (Paper Explained)

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Моделирование Монте-Карло

Моделирование Монте-Карло

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Объяснение Transformers: понимание модели, лежащей в основе GPT, BERT и T5

Объяснение Transformers: понимание модели, лежащей в основе GPT, BERT и T5

Что происходит с нейросетью во время обучения?

Что происходит с нейросетью во время обучения?

LambdaNetworks: Modeling long-range Interactions without Attention (Paper Explained)

LambdaNetworks: Modeling long-range Interactions without Attention (Paper Explained)

Harvard Medical AI: Elaine Liu presents ALBEF – Align before Fuse Vision and Language Representation

Harvard Medical AI: Elaine Liu presents ALBEF – Align before Fuse Vision and Language Representation

Модели трансформаторов и модель BERT: обзор

Модели трансформаторов и модель BERT: обзор

Synthesizer: Rethinking Self-Attention in Transformer Models (Paper Explained)

Synthesizer: Rethinking Self-Attention in Transformer Models (Paper Explained)

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com