DeepSeek-OCR: оптическое сжатие контекстов
Автор: AIDAS Lab
Загружено: 2025-12-01
Просмотров: 22
В этом видео представлена DeepSeek-OCR — новая платформа, которая решает проблему неэффективности существующих моделей Vision-Language, внедряя «контекстное оптическое сжатие». Используя специализированный DeepEncoder, модель сжимает изображения документов высокого разрешения всего в 256 визуальных токенов, достигая 10-кратного сжатия при сохранении точности распознавания более 96%. Помимо установки нового стандарта эффективности, эта работа предлагает смену парадигмы: использование сильно сжатых визуальных токенов в качестве эффективной формы долговременной памяти для LLM, отражая биологический механизм хранения отдаленных воспоминаний в низком разрешении.
Докладчик: Джаик Ким
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: