ON RECODE CHATGPT DE ZERO - EP.1 : La TOKENISATION
Автор: PixelCrafted | La Tech Décodée 🤸
Загружено: 14 апр. 2025 г.
Просмотров: 15 343 просмотра
Bienvenue dans cette série où je décortique le fonctionnement de ChatGPT… et où je le recode de zéro. Pas besoin d’être dev pour suivre, je t’explique tout simplement.
Dans cet épisode, on répond à une question toute bête mais cruciale :
Comment transformer du texte en nombres que le modèle peut comprendre ?
On va explorer :
Pourquoi "donner des lettres" au modèle, ça ne marche pas
Pourquoi les approches naïves comme tokeniser lettre par lettre ou mot par mot sont limitées
Et surtout, comment fonctionne la tokenization BPE (Byte Pair Encoding) avec un exemple concret
Ah, et bien sûr, on commence à implémenter notre propre tokenizer from scratch, parce qu’on est là pour souffrir un peu.
Le code : https://github.com/ThePixelCrafted/ch...
MES RESEAUX :
Insta : / pixelcrafted.raphael
TikTok : / pixelcrafted.raphael
TIMELINE :
00:00 Intro
00:26 Qu'est-ce que c'est un tokenizer
02:24 Tokeniser lettre par lettre
04:23 Tokeniser mot par mot
06:12 L'algorithme BPE
09:35 La tokénisation en pratique
12:10 Outro

Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: