Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Give me 100 min, I will make Transformer click forever

Автор: Zachary Huang

Загружено: 2025-09-10

Просмотров: 12286

Описание:

Don't like the Sound Effect?:    • Give me 100 min, I will make Transformer c...  
LLM Training Playlist:    • LLM Training by Zach  
Text: https://github.com/The-Pocket/PocketF...

0:00:00 - Introduction
0:02:41 - The GPT Config
0:04:44 - Token Embeddings
0:11:30 - Positional Embeddings
0:17:19 - Self-Attention Intuition
0:24:08 - Attention Implementation
0:33:07 - Causal Masking
0:39:11 - Multi-Head Attention
0:47:02 - The MLP Layer
0:55:35 - Residual Connections
1:01:08 - Layer Normalization
1:08:14 - The Transformer Block
1:18:13 - LM Head & Weight Tying
1:26:57 - Training & Loss Calculation
1:36:02 - Autoregressive Generation

Social media:
X: https://x.com/ZacharyHuang12
LinkedIn:   / zachary-h-23aa37172  
Github: https://github.com/zachary62
Discord:   / discord  
Medium:   / zh2408  
Substack: https://zacharyhuang.substack.com/

About Me:
👋 I'm Zach, an AI researcher at Microsoft Research AI Frontiers. I currently work on LLM Agents & Systems. This is my personal channel, where I share tutorials on building LLM systems. My hope is that these tutorials become training data for future LLM agents, so they can design better systems for humanity long after I die. Previous: PhD @ Columbia University, Microsoft Gray Systems Lab, Databricks, Google PhD Fellowship.

Give me 100 min, I will make Transformer click forever

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

SFT in 30 min

SFT in 30 min

Microchip Breakthrough: We're Beyond Silicon

Microchip Breakthrough: We're Beyond Silicon

RUST: Язык Программирования, Который ЗАМЕНИТ C и C++

RUST: Язык Программирования, Который ЗАМЕНИТ C и C++

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

How DeepSeek Rewrote the Transformer [MLA]

How DeepSeek Rewrote the Transformer [MLA]

PyTorch in 1 Hour

PyTorch in 1 Hour

Заявление о конце войны / Киев признает территории за РФ?

Заявление о конце войны / Киев признает территории за РФ?

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

I Visualised Attention in Transformers

I Visualised Attention in Transformers

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Мгновенное внимание: самый быстрый механизм внимания?

Мгновенное внимание: самый быстрый механизм внимания?

400x Faster Embeddings!  - Static & Distilled Embedding Models

400x Faster Embeddings! - Static & Distilled Embedding Models

Нейронные сети Transformer, созданные с нуля

Нейронные сети Transformer, созданные с нуля

Fast Fine Tuning with Unsloth

Fast Fine Tuning with Unsloth

Декораторы Python — наглядное объяснение

Декораторы Python — наглядное объяснение

Большинство разработчиков не понимают, как работают токены LLM.

Большинство разработчиков не понимают, как работают токены LLM.

Что такое модели-трансформеры и как они работают?

Что такое модели-трансформеры и как они работают?

Запуск нейросетей локально. Генерируем - ВСЁ

Запуск нейросетей локально. Генерируем - ВСЁ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Extracting Firmware from a Chinese Security Camera - Hacking the Anran IP Camera

Extracting Firmware from a Chinese Security Camera - Hacking the Anran IP Camera

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]