ЛУЧШИЙ способ разбить текст на фрагменты для RAG
Автор: Adam Lucek
Загружено: 2024-12-09
Просмотров: 45458
Чтобы бесплатно попробовать все возможности Brilliant в течение 30 дней, посетите https://brilliant.org/AdamLucek/. Вы также получите скидку 20% на годовую премиум-подписку!
Ресурсы:
Блокнот по фрагментации: https://github.com/ALucek/chunking-st...
Технический отчёт ChromaDB: https://research.trychroma.com/evalua...
Репозиторий отчётов ChromaDB: https://github.com/brandonstarxel/chu...
Визуализатор токенов OpenAI: https://platform.openai.com/tokenizer
Грег Камрадт, 5 уровней разбиения текста: https://github.com/FullStackRetrieval...
Указатель Жаккара: https://en.wikipedia.org/wiki/Jaccard...
Главы:
00:00 — История фрагментации текста
02:28 — Великолепно!
03:47 - Разделение текста по символам
06:28 - Разделение текста по токенам
10:26 - Рекурсивное разделение по символам/токенам
16:07 - Камрадт и модифицированное семантическое фрагментирование
20:43 - Кластерное семантическое фрагментирование
24:46 - Семантическое фрагментирование LLM
27:56 - Метрики и сравнение фрагментирования
30:00 - Общие выводы
#ai #programming #datascience
Это видео спонсируется Brilliant
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: