Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Lecture 8: The GPT Tokenizer: Byte Pair Encoding

Автор: Vizuara

Загружено: 2024-09-05

Просмотров: 29170

Описание:

In this lecture, we will learn about Byte Pair Encoding: the tokenizer which powers modern LLMs like GPT-2, GPT-3 and GPT-4.

The key reference book which this video series very closely follows is Build a Large Language Model from Scratch by Manning Publications. All schematics and their descriptions are borrowed from this incredible book!

This book serves as a comprehensive guide to understanding and building large language models, covering key concepts, techniques, and implementations.

Affiliate links for purchasing the book will be added soon. Stay tuned for updates!

0:00 Why we need Byte Pair Encoder (BPE)
2:55 Word and character level tokenizers
11:37 Sub-word tokenization
16:05 Byte Pair Encoder (BPE) Algorithm
21:33 BPE for Large Language Models
22:42 BPE practical demonstration
40:51 Implementing BPE in Python
47:47 Key takeaways


Entire Code file link: https://drive.google.com/file/d/1ukW7...

OpenAI BPE Implementation (tiktoken):
https://github.com/openai/tiktoken

=================================================

✉️ Join our FREE Newsletter: https://vizuara.ai/our-newsletter/

=================================================
Vizuara philosophy:

As we learn AI/ML/DL the material, we will share thoughts on what is actually useful in industry and what has become irrelevant. We will also share a lot of information on which subject contains open areas of research. Interested students can also start their research journey there.

Students who are confused or stuck in their ML journey, maybe courses and offline videos are not inspiring enough. What might inspire you is if you see someone else learning and implementing machine learning from scratch.

No cost. No hidden charges. Pure old school teaching and learning.

=================================================

🌟 Meet Our Team: 🌟

🎓 Dr. Raj Dandekar (MIT PhD, IIT Madras department topper)
🔗 LinkedIn:   / raj-abhijit-dandekar-67a33118a  


🎓 Dr. Rajat Dandekar (Purdue PhD, IIT Madras department gold medalist)
🔗 LinkedIn:   / rajat-dandekar-901324b1  


🎓 Dr. Sreedath Panat (MIT PhD, IIT Madras department gold medalist)
🔗 LinkedIn:   / sreedath-panat-8a03b69a  

🎓 Sahil Pocker (Machine Learning Engineer at Vizuara)
🔗 LinkedIn:   / sahil-p-a7a30a8b  

🎓 Abhijeet Singh (Software Developer at Vizuara, GSOC 24, SOB 23)
🔗 LinkedIn:   / abhijeet-singh-9a1881192  

🎓 Sourav Jana (Software Developer at Vizuara)
🔗 LinkedIn:   / souravjana131  

Lecture 8: The GPT Tokenizer: Byte Pair Encoding

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

array(10) { [0]=> object(stdClass)#6365 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "iQZFH8dr2yI" ["related_video_title"]=> string(67) "Lecture 9: Creating Input-Target data pairs using Python DataLoader" ["posted_time"]=> string(27) "9 месяцев назад" ["channelName"]=> string(7) "Vizuara" } [1]=> object(stdClass)#6338 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "lOD_EE96jhM" ["related_video_title"]=> string(69) "What Are Vision Language Models? How AI Sees & Understands Images" ["posted_time"]=> string(23) "1 месяц назад" ["channelName"]=> string(14) "IBM Technology" } [2]=> object(stdClass)#6363 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "5SkedAr2QVU" ["related_video_title"]=> string(58) "The SHOCKING Truth About BytePair Encoding in Tokenization" ["posted_time"]=> string(25) "3 месяца назад" ["channelName"]=> string(14) "The SkillPedia" } [3]=> object(stdClass)#6370 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "zduSFxRajkE" ["related_video_title"]=> string(29) "Let's build the GPT Tokenizer" ["posted_time"]=> string(19) "1 год назад" ["channelName"]=> string(15) "Andrej Karpathy" } [4]=> object(stdClass)#6349 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "ghCSGRgVB_o" ["related_video_title"]=> string(38) "Lecture 10: What are token embeddings?" ["posted_time"]=> string(27) "9 месяцев назад" ["channelName"]=> string(7) "Vizuara" } [5]=> object(stdClass)#6367 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "rsy5Ragmso8" ["related_video_title"]=> string(55) "Lecture 7: Code an LLM Tokenizer from Scratch in Python" ["posted_time"]=> string(27) "9 месяцев назад" ["channelName"]=> string(7) "Vizuara" } [6]=> object(stdClass)#6362 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "KFgwXXWT7sQ" ["related_video_title"]=> string(170) "ИИ-агенты — вот что действительно изменит разработку. Пишем ИИ-агент на Python, LangChain и GigaChat" ["posted_time"]=> string(23) "1 месяц назад" ["channelName"]=> string(29) "Диджитализируй!" } [7]=> object(stdClass)#6372 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "ufrPLpKnapU" ["related_video_title"]=> string(51) "Lecture 11: The importance of Positional Embeddings" ["posted_time"]=> string(27) "9 месяцев назад" ["channelName"]=> string(7) "Vizuara" } [8]=> object(stdClass)#6348 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "B1ULvYY-0Uo" ["related_video_title"]=> string(124) "Закон сохранения энергии — величайшее заблуждение физики [Veritasium]" ["posted_time"]=> string(21) "1 день назад" ["channelName"]=> string(10) "Vert Dider" } [9]=> object(stdClass)#6366 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "r0TbE1_xAbs" ["related_video_title"]=> string(127) "Скандал! Депутат сказал правду о кризисе в экономике. Что было дальше?" ["posted_time"]=> string(24) "11 часов назад" ["channelName"]=> string(37) "Популярная политика" } }
Lecture 9: Creating Input-Target data pairs using Python DataLoader

Lecture 9: Creating Input-Target data pairs using Python DataLoader

What Are Vision Language Models? How AI Sees & Understands Images

What Are Vision Language Models? How AI Sees & Understands Images

The SHOCKING Truth About BytePair Encoding in Tokenization

The SHOCKING Truth About BytePair Encoding in Tokenization

Let's build the GPT Tokenizer

Let's build the GPT Tokenizer

Lecture 10: What are token embeddings?

Lecture 10: What are token embeddings?

Lecture 7: Code an LLM Tokenizer from Scratch in Python

Lecture 7: Code an LLM Tokenizer from Scratch in Python

ИИ-агенты — вот что действительно изменит разработку. Пишем ИИ-агент на Python, LangChain и GigaChat

ИИ-агенты — вот что действительно изменит разработку. Пишем ИИ-агент на Python, LangChain и GigaChat

Lecture 11: The importance of Positional Embeddings

Lecture 11: The importance of Positional Embeddings

Закон сохранения энергии — величайшее заблуждение физики [Veritasium]

Закон сохранения энергии — величайшее заблуждение физики [Veritasium]

Скандал! Депутат сказал правду о кризисе в экономике. Что было дальше?

Скандал! Депутат сказал правду о кризисе в экономике. Что было дальше?

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]