DeepSeek-OCR: оптическое сжатие контекстов

Автор: AIDAS Lab

Загружено: 2025-12-01

Просмотров: 22

Описание:

В этом видео представлена DeepSeek-OCR — новая платформа, которая решает проблему неэффективности существующих моделей Vision-Language, внедряя «контекстное оптическое сжатие». Используя специализированный DeepEncoder, модель сжимает изображения документов высокого разрешения всего в 256 визуальных токенов, достигая 10-кратного сжатия при сохранении точности распознавания более 96%. Помимо установки нового стандарта эффективности, эта работа предлагает смену парадигмы: использование сильно сжатых визуальных токенов в качестве эффективной формы долговременной памяти для LLM, отражая биологический механизм хранения отдаленных воспоминаний в низком разрешении.

Докладчик: Джаик Ким

DeepSeek-OCR: оптическое сжатие контекстов

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

DeepSeek OCR — больше, чем просто OCR

DeepSeek OCR — больше, чем просто OCR

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Объяснение DeepSeek-OCR

Объяснение DeepSeek-OCR

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Цепи Маркова — математика предсказаний [Veritasium]

Цепи Маркова — математика предсказаний [Veritasium]

ESP32: распознавание речи нейросетью (TensorFlow Lite)

ESP32: распознавание речи нейросетью (TensorFlow Lite)

Маска подсети — пояснения

Маска подсети — пояснения

Тест-драйв электрокара Xiaomi: нам крышка?

Тест-драйв электрокара Xiaomi: нам крышка?

Persona Vectors: Monitoring and Controlling Character Traits in Language Models

Persona Vectors: Monitoring and Controlling Character Traits in Language Models

ВЕЛИКИЙ ОБМАН ЕГИПТА — Нам врали о строительстве пирамид

ВЕЛИКИЙ ОБМАН ЕГИПТА — Нам врали о строительстве пирамид

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

DeepSeek OCR First Look & Testing – A Powerful & Compact Vision Model!

DeepSeek OCR First Look & Testing – A Powerful & Compact Vision Model!

ЖЕСТЬ ИЗ КОРЕЙСКОГО ЭКЗАМЕНА ЗА 9 КЛ! Метод Земскова.

ЖЕСТЬ ИЗ КОРЕЙСКОГО ЭКЗАМЕНА ЗА 9 КЛ! Метод Земскова.

Новое оружие России: Путин диктует новые правила - Скотт Риттер

Новое оружие России: Путин диктует новые правила - Скотт Риттер

DeepSeek-OCR: Контекстное оптическое сжатие

DeepSeek-OCR: Контекстное оптическое сжатие

Задача века решена!

Задача века решена!

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Может ли нейросеть real-time распознавать и переводить речь на видеокарте NVIDIA P106-100 с 6GB VRAM

Может ли нейросеть real-time распознавать и переводить речь на видеокарте NVIDIA P106-100 с 6GB VRAM