Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

LLaDA 2 0 IA em dobro da velocidade

Автор: IA Papers

Загружено: 2025-12-22

Просмотров: 9

Описание:

Título: LLaDA2.0: Scaling Up Diffusion Language Models to 100B

Resumo: Este documento sintetiza as principais inovações, metodologias e resultados do LLaDA2.0, uma nova série de modelos de linguagem de difusão discretos (dLLMs) desenvolvida pelo Ant Group e colaboradores acadêmicos. O projeto estabelece um novo paradigma para a implementação em larga escala de modelos de difusão, escalando-os até 100 bilhões de parâmetros.
A principal inovação do LLaDA2.0 é sua metodologia de conversão, que transforma modelos auto-regressivos (AR) pré-treinados em dLLMs de alto desempenho, evitando o custo computacional de treinar do zero. Essa transição é orquestrada por uma estratégia de três fases denominada Warmup-Stable-Decay (WSD), que adapta progressivamente o modelo AR à dinâmica de difusão bidirecional, garantindo a preservação do conhecimento linguístico e uma otimização estável.
Foram lançados dois modelos ajustados para instruções, ambos variantes de Mistura de Especialistas (MoE): LLaDA2.0-mini (16B) e LLaDA2.0-flash (100B). As avaliações demonstram que esses modelos são altamente competitivos com seus equivalentes AR, alcançando paridade em benchmarks gerais e mostrando superioridade em domínios estruturados complexos, como codificação, matemática e tarefas de agentes.
Além disso, o projeto introduz otimizações críticas de pós-treinamento. O Treinamento Paralelo Consciente de Confiança (CAP) incorpora uma perda de confiança auxiliar para "afiar" as previsões do modelo, permitindo uma decodificação paralela mais agressiva e eficiente. Isso resulta em uma velocidade de inferência de até 535 tokens por segundo para o LLaDA2.0-flash-CAP, representando um aumento de até 2.1x em relação a modelos AR de escala semelhante. O LLaDA2.0 representa um avanço significativo, demonstrando que os modelos de difusão são uma alternativa viável e escalável ao paradigma AR dominante, com vantagens inerentes em eficiência de inferência e geração estruturada.

Link do paper: https://huggingface.co/papers/2512.15745

LLaDA 2 0  IA em dobro da velocidade

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Abstrações Temporais Emergentes em Modelos Autorregressivos para Aprendizado por Reforço Hierárquico

Abstrações Temporais Emergentes em Modelos Autorregressivos para Aprendizado por Reforço Hierárquico

Самые стыдные вопросы об электричестве!

Самые стыдные вопросы об электричестве!

Czy Chiny chcą upadku Rosji? Relacje Rosja-Chiny

Czy Chiny chcą upadku Rosji? Relacje Rosja-Chiny

Теорема Пуанкаре-Перельмана простыми словами – математик Алексей Савватеев | Научпоп

Теорема Пуанкаре-Перельмана простыми словами – математик Алексей Савватеев | Научпоп

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Projeto PhysBrain

Projeto PhysBrain

AI in 2026: 3 Predictions For What’s To Come (a16z Big Ideas)

AI in 2026: 3 Predictions For What’s To Come (a16z Big Ideas)

Gestão do Desempenho - Administração de Recursos Humanos

Gestão do Desempenho - Administração de Recursos Humanos

RESUMÃO: Variação linguística | ProEnem

RESUMÃO: Variação linguística | ProEnem

Variação Linguística: Diversidade de Usos da Língua (com Exercícios Passo a Passo)

Variação Linguística: Diversidade de Usos da Língua (com Exercícios Passo a Passo)

O Sistema LiveTalk e a Destilação Aprimorada para Geração de Vídeo Multimodal em Tempo Real

O Sistema LiveTalk e a Destilação Aprimorada para Geração de Vídeo Multimodal em Tempo Real

Aula de Código - Velocidade

Aula de Código - Velocidade

Variação Linguística: As Diferentes Formas de Falar a Língua

Variação Linguística: As Diferentes Formas de Falar a Língua

Ваш браузер знает о вас все и сливает данные: как защититься?

Ваш браузер знает о вас все и сливает данные: как защититься?

VELOCIDADE MÉDIA - FÍSICA BÁSICA (FÍSICA do ZERO)  - Teoria e Exercícios   AULA 01

VELOCIDADE MÉDIA - FÍSICA BÁSICA (FÍSICA do ZERO) - Teoria e Exercícios AULA 01

A Anatomia do Raciocínio da IA

A Anatomia do Raciocínio da IA

Inferência para Concursos: Aprenda em menos de 5 minutos!

Inferência para Concursos: Aprenda em menos de 5 minutos!

UltraShape 1.0

UltraShape 1.0

DEER - Geração com Difusão, Verificação com Modelos Autorregressivos

DEER - Geração com Difusão, Verificação com Modelos Autorregressivos

InsertAnywhere para Inserção Realista de Objetos em Vídeo

InsertAnywhere para Inserção Realista de Objetos em Vídeo

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]