Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

L-3 | Building LLM Tokenizers From Scratch (With Code!)

Автор: Code With Aarohi Hindi

Загружено: 2025-12-09

Просмотров: 121

Описание:

In the last lecture, we built our own TinyGPT LLM from scratch using manual tokenization.
Today, we upgrade that system using real, production-level tokenizers.

GitHub: ( both links have same code )

https://github.com/codewithaarohi/Bui...

https://github.com/AarohiSingla/Build...


📧 You can also reach me at: [email protected]

📸 Follow me on Instagram (English) : @codewithaarohi
🔗   / codewithaarohi  

📸 Follow me on Instagram (Hindi) : @codewithaarohihindi
🔗   / codewithaarohihindi  

If you haven’t watched the previous lecture
I highly recommend watching it first—we built the entire TinyGPT model step-by-step.

In this video, you will learn:
What tokenizers really do
How LLMs convert text → tokens → numbers
How to use SentencePiece
How to use BPE (Byte Pair Encoding)
How to use pretrained tokenizers like GPT-2, BERT, LLaMA, T5
How to train your own tokenizer from your own dataset
How vocabulary size, domain-specific text, and language mix affect tokens
How embedding layers convert token IDs into vectors
How to integrate everything into our TinyGPT model

Libraries Covered
sentencepiece (train your own tokenizer)
tokenizers (BPE, ByteLevelBPETokenizer)
gensim (Word2Vec, FastText embeddings)
transformers (HuggingFace tokenizers)



👍 Support the Channel
Your support pushes me to create even better videos.
Please Like, Comment, Share, and Subscribe ❤️

L-3 | Building LLM Tokenizers From Scratch (With Code!)

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Let’s Build a GPT-Style Language Model Step by Step (Using PyTorch)

Let’s Build a GPT-Style Language Model Step by Step (Using PyTorch)

Gunicorn + Uvicorn Workers: как работают и как настроить правильно

Gunicorn + Uvicorn Workers: как работают и как настроить правильно

Logout e Delete User: O Frontend que Controla o Poder do Usuário

Logout e Delete User: O Frontend que Controla o Poder do Usuário

🤷 AI обучен на говнокоде! Разработчиков компиляторов, протоколов и СУБД не хватает, а LLM не может

🤷 AI обучен на говнокоде! Разработчиков компиляторов, протоколов и СУБД не хватает, а LLM не может

100 Пилотов Борются За Частный Самолёт

100 Пилотов Борются За Частный Самолёт

Программируем с ИИ в VS Code - БЕСПЛАТНО! Сможет каждый!

Программируем с ИИ в VS Code - БЕСПЛАТНО! Сможет каждый!

LLMs Explained — Conceptually & Mathematically | Lecture 1 | LLMs Course

LLMs Explained — Conceptually & Mathematically | Lecture 1 | LLMs Course

Object Oriented in Javascript | chai aur #javascript

Object Oriented in Javascript | chai aur #javascript

11-летняя девочка поражает своей игрой!  Алиса Генриетта Юнкер - Будущая Звезда Мировых Шахмат!

11-летняя девочка поражает своей игрой! Алиса Генриетта Юнкер - Будущая Звезда Мировых Шахмат!

Пассажирский самолет будущего

Пассажирский самолет будущего

What is n8n in Hindi. Fastest and easiest self deployment too

What is n8n in Hindi. Fastest and easiest self deployment too

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Don't learn AI Agents without Learning these Fundamentals

Don't learn AI Agents without Learning these Fundamentals

ЭТО 100% ХИТ 2026 ГОДА для FPV ДРОНА!

ЭТО 100% ХИТ 2026 ГОДА для FPV ДРОНА!

NotebookLM's Biggest Updates Yet - Every New Feature Explained

NotebookLM's Biggest Updates Yet - Every New Feature Explained

$200M to KILL NodeJS: What is the TRUTH? #tanaypratap #hindi

$200M to KILL NodeJS: What is the TRUTH? #tanaypratap #hindi

ESP32 + MLX90640: тепловизор с искусственным интеллектом (TensorFlow Lite)

ESP32 + MLX90640: тепловизор с искусственным интеллектом (TensorFlow Lite)

Postman is DEAD. Meet the API Client Everyone’s Switching To

Postman is DEAD. Meet the API Client Everyone’s Switching To

Подробный анализ рынка ИТ-вакансий в 2026 году

Подробный анализ рынка ИТ-вакансий в 2026 году

Как мы ставили септик. Полная стоимость и возможные проблемы!

Как мы ставили септик. Полная стоимость и возможные проблемы!

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]