Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Brett Larsen | The Importance of High-Quality Data in Building Your LLMs: Lessons from DBRX

Автор: London Machine Learning Meetup

Загружено: 2024-08-16

Просмотров: 397

Описание:

NOTE Due to a recording error, the first minute of the Meetup isn't available.
Organised by Evolution AI - AI data extraction from financial documents - https://www.evolution.ai/
Abstract: Pretraining datasets for large language models (LLMs) have grown to trillions of tokens composed of large amounts of CommonCrawl (CC) web scrape along with smaller, domain-specific datasets. However, it’s expensive to understand the impact of these domain-specific datasets since training to large FLOP scales is required to reveal significant changes to difficult and emergent benchmarks. Given this cost, how does one efficiently characterize new datasets and optimize the balance between diversity in web scrapes and information density of domain specific data? In this talk, we’ll consider the three steps we take to answer these questions with customers. First, we start by identifying quality benchmarks to guide data decisions by measuring how these benchmarks scale across a series of increasingly advanced models. Second, we perform continued pretraining on individual datasets to quickly identify which subset of benchmarks are impacted; this also provides an inexpensive way to adapt models to new domains when combined with weight averaging. Finally, we consider the technique of upsampling domain specific data in the final phase of pretraining. We show that domain upsampling both boosts performance on challenging metrics and provides a framework for further study of individual datasets by measuring how performance changes when they are removed during this last phase of training. This tool opens up the ability to study the impact of different pretraining datasets at scale but at an order of magnitude lower cost compared to full pretraining runs.
Speaker: Brett is a senior research scientist at Databricks Mosaic Research and a guest researcher at the Flatiron Institute. Prior to this, he was a research fellow at the Flatiron Institute’s Centers for Computational Mathematics and Neuroscience and completed his PhD at Stanford University co-advised by Surya Ganguli and Shaul Druckmann. Brett’s research sits at the intersection of data and AI, empirically studying how neural networks learn with the goal of making it more efficient to train modern generative AI models.

Brett Larsen | The Importance of High-Quality Data in Building Your LLMs: Lessons from DBRX

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Ziming Liu | KAN: Kolmogorov-Arnold Networks

Ziming Liu | KAN: Kolmogorov-Arnold Networks

Как создаются степени магистра права?

Как создаются степени магистра права?

Программируем с Google Antigravity + Gemini 3 Pro. СМОЖЕТ КАЖДЫЙ!

Программируем с Google Antigravity + Gemini 3 Pro. СМОЖЕТ КАЖДЫЙ!

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

Что я думаю про будущее разработки в эпоху ИИ

Что я думаю про будущее разработки в эпоху ИИ

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Принц Персии: разбираем код гениальной игры, вытирая слезы счастья

Принц Персии: разбираем код гениальной игры, вытирая слезы счастья

БЕЛЫЕ СПИСКИ: какой VPN-протокол справится? Сравниваю все

БЕЛЫЕ СПИСКИ: какой VPN-протокол справится? Сравниваю все

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

СЕО Майкрософт AI: Главный навык эпохи ИИ, который защитит твою карьеру | Мустафа Сулейман

СЕО Майкрософт AI: Главный навык эпохи ИИ, который защитит твою карьеру | Мустафа Сулейман

Это НЕ покажут в УНИВЕРЕ! Трансформатор - как работает и как устроен?

Это НЕ покажут в УНИВЕРЕ! Трансформатор - как работает и как устроен?

Шум сразу исчез после этого упражнения. Слух улучшился как никогда не слышал

Шум сразу исчез после этого упражнения. Слух улучшился как никогда не слышал

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Математическая тревожность, нейросети, задачи тысячелетия / Андрей Коняев

Математическая тревожность, нейросети, задачи тысячелетия / Андрей Коняев

Предел развития НЕЙРОСЕТЕЙ

Предел развития НЕЙРОСЕТЕЙ

Новый NotebookLM: НИКОГДА НЕ ВРЕТ! Большой бесплатный курс по нейросети от Google

Новый NotebookLM: НИКОГДА НЕ ВРЕТ! Большой бесплатный курс по нейросети от Google

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]