DeepOCR: Reproduction of Optical Context Compression. vision-language model - VLM. VILA based.

Автор: AI Podcast Series. Byte Goose AI.

Загружено: 2025-11-17

Просмотров: 21

Описание:

DeepOCR: Reproduction of Optical Context Compression

The podcast provides the technical overview of the DeepSeek-OCR / DeepOCR, a vision-language model designed to explore and validate the concept of contexts optical compression for long documents. This innovative approach compresses large amounts of text into visual representations, achieving compression ratios between 7× and 20× while maintaining high Optical Character Recognition (OCR) accuracy. The core technology is the DeepEncoder, a novel architecture that combines a window attention component (SAM-base) for high-resolution perception and a global attention component (CLIP-large), bridged by a 16× convolutional compressor to efficiently reduce vision tokens. One source details the original research and performance metrics, demonstrating state-of-the-art results on benchmarks like OmniDocBench with fewer vision tokens than competing models. The other sources present DeepOCR, an open-source reproduction of the architecture using the VILA framework and a Qwen2-7B decoder, confirming the feasibility and efficiency of the compression hypothesis for addressing long-context challenges in Large Language Models.

DeepOCR: Reproduction of Optical Context Compression. vision-language model - VLM. VILA based.

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

SAM 3 (Модель сегментации всего, что угодно, 3). SAM 3: Удобная сегментация концепций на изображе...

SAM 3 (Модель сегментации всего, что угодно, 3). SAM 3: Удобная сегментация концепций на изображе...

Как я наконец понял суть LLM Attention

Как я наконец понял суть LLM Attention

Интеграция Claude + Power BI 🧠 ОГРОМНЫЙ прорыв благодаря MCP 💥 (обновление за ноябрь 2025 г.)

Интеграция Claude + Power BI 🧠 ОГРОМНЫЙ прорыв благодаря MCP 💥 (обновление за ноябрь 2025 г.)

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

ESP32: распознавание речи нейросетью (TensorFlow Lite)

ESP32: распознавание речи нейросетью (TensorFlow Lite)

Mathematics roadmap for Machine Learning: Linear Algebra, Probability, Automatic Differentiation

Mathematics roadmap for Machine Learning: Linear Algebra, Probability, Automatic Differentiation

Webinar for the HR EcoSystem - Work Activity Study

Webinar for the HR EcoSystem - Work Activity Study

OpenVLA: LeRobot Research Presentation #5 by Moo Jin Kim

OpenVLA: LeRobot Research Presentation #5 by Moo Jin Kim

DeepSeek ВЕРНУЛСЯ и ещё больше новостей об ИИ, которые вы можете использовать

DeepSeek ВЕРНУЛСЯ и ещё больше новостей об ИИ, которые вы можете использовать

Camera on the Su-35S Flight leader Russian Knight at DUBAI AIRSHOW

Camera on the Su-35S Flight leader Russian Knight at DUBAI AIRSHOW

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Модели действий языка видения для автономного вождения в Wayve

Модели действий языка видения для автономного вождения в Wayve

Context Rot: How Increasing Input Tokens Impacts LLM Performance

Context Rot: How Increasing Input Tokens Impacts LLM Performance

Pi0 - generalist Vision Language Action policy for robots (VLA Series Ep.2)

Pi0 - generalist Vision Language Action policy for robots (VLA Series Ep.2)

LLMs Meet Robotics: What Are Vision-Language-Action Models? (VLA Series Ep.1)

LLMs Meet Robotics: What Are Vision-Language-Action Models? (VLA Series Ep.1)

Правда о Kenwood, Aiwa, Onkyo, о которой никто не говорит

Правда о Kenwood, Aiwa, Onkyo, о которой никто не говорит

[EEML'24] Jovana Mitrović - Vision Language Models

[EEML'24] Jovana Mitrović - Vision Language Models

Хватит печатать! Твой личный AI агент на n8n ведет Obsidian за тебя

Хватит печатать! Твой личный AI агент на n8n ведет Obsidian за тебя

Implement and Train VLMs (Vision Language Models) From Scratch - PyTorch

Implement and Train VLMs (Vision Language Models) From Scratch - PyTorch

Mathematics of LLMs in Everyday Language

Mathematics of LLMs in Everyday Language