Ускорение разработки программного обеспечения на периферии сети: возможности эффективного совмест...

Автор: EDGE AI FOUNDATION

Загружено: 2026-01-13

Просмотров: 91

Описание:

Что если бы периферийные устройства могли быстро, конфиденциально и энергоэффективно предоставлять LLM-модели без бесконечных перестроек FPGA? Мы предлагаем практический путь: метод совместного проектирования с приоритетом моделирования (SECDA), встроенный в llama.cpp, который позволяет нам итерировать процесс за минуты, а не за дни, и выпускать ускорители, действительно меняющие ситуацию к лучшему.

Мы начинаем с реальных препятствий: циклов высокоуровневого синтеза, которые тормозят прогресс, вывода, ограниченного памятью, который игнорирует необходимость увеличения количества потоков ЦП, и форматов квантования, которые некорректно отображаются на ядра общего назначения. Затем мы углубляемся в то, как llama.cpp, GGUF и глубокое квантование позволяют создавать компактные модели в широком диапазоне аппаратного обеспечения. Наш инструментарий SECDA-LLM разгружает наиболее ресурсоемкие ядра через бэкенд GGML, позволяя создавать прототипы пользовательских операторов FPGA, сохраняя при этом остальную часть стека чистой и переносимой.

Вы услышите о двух конкретных достижениях. Во-первых, мы разрабатываем для TinyLlama механизм умножения матриц с учетом формата, который декодирует упакованные веса, применяет скалярные значения для блоков и суперблоков и планирует размещение тайлов для максимального повторного использования. На миниатюрной плате ARM + FPGA мы сокращаем задержку на токен до 11 раз по сравнению с запуском только на ЦП и понимаем, почему увеличение количества потоков ЦП не помогает, когда узким местом является память. Во-вторых, мы решаем проблему смешанных блоков с плавающей запятой на разных уровнях — например, Q3K и Q2, работающие бок о бок, — путем создания динамического процессора суперблоков. Параллельное выполнение путей масштабирования и выбор на поздней стадии устраняют внутренние петли и обеспечивают ранние преимущества, при этом остается запас ресурсов FPGA для масштабирования.

Попутно мы намечаем дорожную карту: расширение поддержки BFP до 4–6 бит, добавление новых вариантов внимания, изучение арифметики на основе сдвига для более дешевых операций и внедрение разреженности в поток данных. Главный вывод заключается в самом рабочем процессе — моделирование, измерение, уточнение, а затем синтез — что превращает ускорение LLM на периферии в управляемый инженерный цикл, а не в героическую рутину.

Если вас интересует низкая задержка и конфиденциальный вывод на небольших платах — или вы создаёте собственные ускорители для квантованных моделей — эта статья для вас. Подпишитесь, поделитесь с коллегой, который борется с циклами HLS, и оставьте отзыв с указанием периферийного устройства, которое вы бы выбрали в качестве следующего.

Ускорение разработки программного обеспечения на периферии сети: возможности эффективного совмест...

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

От облака к периферии: создание систем машинного зрения следующего поколения с профессором Цзюнь-...

От облака к периферии: создание систем машинного зрения следующего поколения с профессором Цзюнь-...

Советы по выбору компонентов для проектирования печатных плат

Советы по выбору компонентов для проектирования печатных плат

WCCJ6 Madrid | Sesión final E e informe de los relatores

WCCJ6 Madrid | Sesión final E e informe de los relatores

EDGE AI Talks: Rethinking Silicon - The New Architecture for Low-Power AI

EDGE AI Talks: Rethinking Silicon - The New Architecture for Low-Power AI

Возможно ли создать компьютеры с техпроцессом меньше 1 нм

Возможно ли создать компьютеры с техпроцессом меньше 1 нм

Они убили китайскую электронику! Как США и Нидерланды сломали Китай за один ход

Они убили китайскую электронику! Как США и Нидерланды сломали Китай за один ход

НОВЫЕ Правила пользования маломерными судами вступают в силу 1 марта 2026

НОВЫЕ Правила пользования маломерными судами вступают в силу 1 марта 2026

Zettelkasten + AI: Как я связал ChatGPT и Obsidian в единую систему знаний

Zettelkasten + AI: Как я связал ChatGPT и Obsidian в единую систему знаний

Сравнение CockroachDB и Postgres

Сравнение CockroachDB и Postgres

Взорвать море Дирака | Атомный ликбез

Взорвать море Дирака | Атомный ликбез

EDGE AI Talks: Rethinking Silicon - The New Architecture for Low-Power AI 📱

EDGE AI Talks: Rethinking Silicon - The New Architecture for Low-Power AI 📱

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Звук этого самолёта вызывал судороги. Почему военные продолжали испытания? | XF-84H Thunderscreech

Звук этого самолёта вызывал судороги. Почему военные продолжали испытания? | XF-84H Thunderscreech

Синьор 1С: 10 привычек, без которых ты не вырастешь

Синьор 1С: 10 привычек, без которых ты не вырастешь

Я на КИТАЙСКОМ ЗАВОДЕ ПК КОРПУСОВ

Я на КИТАЙСКОМ ЗАВОДЕ ПК КОРПУСОВ

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Трамп опять презирает Зеленского?

Трамп опять презирает Зеленского?

Debian: САМЫЙ СТАБИЛЬНЫЙ Linux и ТЁМНАЯ История Создателя

Debian: САМЫЙ СТАБИЛЬНЫЙ Linux и ТЁМНАЯ История Создателя

Typst: Современная замена Word и LaTeX, которую ждали 40 лет

Typst: Современная замена Word и LaTeX, которую ждали 40 лет

Почему я уволился со склада WB в первый день? Сколько я заработал? Условия работы и первая травма

Почему я уволился со склада WB в первый день? Сколько я заработал? Условия работы и первая травма